Hugging Face Dataset 학습 튜토리얼

학습 목표

  • Hugging Face 기반 학습 파이프라인의 전체 구조 이해

핵심 개념

  • Dataset: 학습 데이터의 표준 컨테이너
  • DatasetDict: train/validation/test 분할 컨테이너
  • Processor: 모델 입력 전처리 표준 인터페이스
  • Trainer: 학습 루프 표준 구현체

Index

기본:

  • [[/hf_dataset_dict/dd_ds]]{load_dataset으로 Dataset과 DatasetDict 익히기}
  • [[/hf_dataset_dict/dd_csv]]{Text 기반 Dataset 생성}
  • [[/hf_dataset_dict/dd_map]]{map을 이용한 전처리와 학습 데이터 고정}
  • [[/hf_dataset_dict/dd_image]]{Image 기반 Dataset 생성}
  • [[/hf_dataset_dict/dd_api]]

참고:

  • [[/hf_dataset_dict/dd_conv]]
  • [[/hf_dataset_dict/dd_map_transform_collate]]

응용:

  • [[/hf_dataset_dict/dd_multimodal]]
  • [[/hf_dataset_dict/dd_dsbuilder]]
  • [[/hf_dataset_dict/dd_hf_hub]]


작성 예정:

1. Detection / Segmentation 학습 Dataset 구조 이해

학습 목표

  • 비정형 어노테이션 학습 데이터 구조 이해

학습 내용

  • detection의 objects 구조 이해
  • segmentation의 mask 구조 이해
  • 가변 길이 어노테이션 문제 인식

핵심 개념

  • collate_fn의 필수성
  • Trainer 기본 data_collator의 한계 인식

도달 목표

  • "왜 detection/segmentation은 Dataset 설계가 중요한지" 이해