Post Transformers

Autoencoding, Autoregressive, Encoder–Decoder 모델의 역할 구분

Transformer 이후의 언어모델은

  • 단순히 "큰 모델"로 발전한 것이 아니라,
  • 사전학습 목표(pretraining objective)
  • 모델 구조(model architecture)의 조합에 따라
  • 서로 다른 계열로 분화되어 왔음.

본 글에서는 언어모델을 다음 두 축으로 동시에 정리함.

  1. 사전학습 방식
    • Autoencoding Language Model(자기부호화 언어모델)
    • Autoregressive Language Model(자기회귀 언어모델)
    • Denoising Language Model(잡음 제거 언어모델)
  2. 구조적 형태
    • Encoder-only
    • Decoder-only
    • Encoder–Decoder

이를 통해 각 모델이

  • 왜 특정 태스크에 강한지, 그리고
  • 어떤 inductive bias(귀납적 편향)를 가지는지를 설명함.

참고: Auto-regressive Model


1. 사전학습 패러다임의 기원: ULMFiT (2018)

ULMFiT (Universal Language Model Fine-tuning, 2018)

ULMFiT는 현대 사전학습 언어모델의 개념적 출발점에 해당함.

주요 기여는 다음과 같음.

  • 대규모 말뭉치 기반 Language Model 사전학습
  • Discriminative fine-tuning(판별적 미세조정): 레이어별 학습률 차등 적용
  • Gradual unfreezing(점진적 해동): 하위 레이어부터 순차적 학습
  • Slanted triangular learning rates(비대칭 삼각 학습률): 빠른 수렴 전략
  • "사전학습 → 미세조정" 패러다임 정립

비록 3-layer AWD-LSTM 기반이었으나, BERT와 GPT 계열 모두에 영향을 준 선행 연구로 평가됨.

특히 transfer learning(전이학습)이 NLP에서도 Computer Vision과 같이 효과적임을 실증한 점이 핵심임.

참고: ULMFit : Transfer Learning for NLP


2. Autoencoding Language Model + Encoder-only 구조

2.1 개념 정의

Autoencoding Language Model(자기부호화 언어모델)

  • 입력의 일부를 손상(corrupt)시키고,
  • 양방향 문맥(bidirectional context)을 활용하여
  • 복원하거나 판별하도록 학습된 모델임.

대표적인 사전학습 목표는 다음과 같음.

  • Masked Language Modeling (MLM, 마스크 언어모델링):
    입력 토큰의 15%를 [MASK]로 치환한 뒤 원본 복원
  • Next Sentence Prediction (NSP, 다음 문장 예측):
    두 문장의 연속성 판별 (BERT에서 사용, 이후 RoBERTa에서 제거됨)
  • Replaced Token Detection (RTD, 대체 토큰 탐지):
    ELECTRA에서 사용, generator가 생성한 그럴듯한 토큰을 판별

이 계열은 대부분 Encoder-only Transformer 구조를 사용함.

2.2 구조적 특징

  • Bidirectional Self-Attention(양방향 자기어텐션): 모든 토큰이 서로를 참조 가능
  • 입력 전체 동시 접근(parallel processing)
  • Dense representation(밀집 표현) 생성에 최적화
  • Token-level classification(토큰 단위 분류)에 적합
  • 출력 생성 능력은 구조적으로 제한적
  • [CLS] 토큰을 통한 sequence representation(시퀀스 표현) 추출

2.3 대표 모델과 등장 연도

모델 연도 파라미터 비고
BERT-base 2018 110M MLM + NSP, 12-layer
BERT-large 2018 340M 24-layer
RoBERTa 2019 125M~355M NSP 제거, 동적 마스킹
ALBERT 2020 12M~235M Parameter sharing, 경량화
DeBERTa 2020 134M~1.5B Disentangled attention
DeBERTa-v3 2021 86M~1.5B ELECTRA-style 개선
ELECTRA 2020 14M~335M 판별형 사전학습, 효율적
KoBERT 2019 92M 한국어 특화, SKT
koELECTRA 2020 14M~110M 한국어 ELECTRA, KLUE 상위권
KcBERT 2020 110M 댓글 데이터(Beep/News)
HanBERT 2020 614M 형태소 기반, 54만 어휘

2.4 KLUE 및 code-mixed 환경에서의 위치

KLUE (Korean Language Understanding Evaluation) 벤치마크는 다음 8개 태스크로 구성됨.

  • Topic Classification(주제 분류, TC)
  • Semantic Textual Similarity(의미 유사도, STS)
  • Natural Language Inference(자연어 추론, NLI)
  • Named Entity Recognition(개체명 인식, NER)
  • Relation Extraction(관계 추출, RE)
  • Dependency Parsing(의존 구문 분석, DP)
  • Machine Reading Comprehension(기계 독해, MRC)
  • Dialogue State Tracking(대화 상태 추적, DST)

Autoencoding + Encoder-only 계열은 다음 태스크에서 구조적 강점을 가짐.

  • Named Entity Recognition(개체명 인식, NER): BIO tagging 등 token-level labeling
  • Token Classification(토큰 분류): POS tagging, chunking
  • Sequence Classification(시퀀스 분류): sentiment analysis, topic classification
  • Span Extraction(구간 추출): MRC에서 답변 위치 탐지

특히 koELECTRA-base-v3는 KLUE-NER에서 F1 87.92를 기록하며 한국어+영어 혼재(code-mixed) 문장 에서도 높은 샘플 효율(sample efficiency)을 보이는 것으로 알려짐.

이는

  • subword tokenization(서브워드 토큰화)
  • 양방향 문맥 활용의 조합이
  • OOV(Out-Of-Vocabulary) 문제와
  • entity boundary detection(개체 경계 탐지) 에 유리하기 때문임.

참고: [[/nlp/tokenization]]

3. Autoregressive Language Model + Decoder-only 구조

3.1 개념 정의

Autoregressive Language Model(자기회귀 언어모델)

  • 이전 토큰들 $x_1, x_2, \ldots, x_{t-1}$에 조건부로
  • 다음 토큰 $x_t$를 예측하도록 학습된 모델임.

수식으로는 다음과 같이 표현됨.

\[P(x_1, x_2, \ldots, x_T) = \prod_{t=1}^{T} P(x_t \mid x_1, \ldots, x_{t-1})\]

대표적인 사전학습 목표는 Causal Language Modeling (CLM, 인과 언어모델링)임.

이 계열은 Decoder-only Transformer 구조를 사용하며, GPT (Generative Pre-trained Transformer) 시리즈가 대표적임.

3.2 구조적 특징

  • Causal (Unidirectional) Self-Attention(인과적 단방향 자기어텐션): 미래 토큰 참조 불가
  • Autoregressive generation(자기회귀 생성): 한 토큰씩 순차 생성
  • 학습과 추론 형식의 일치(training-inference consistency)
  • 텍스트 생성에 특화된 구조
  • In-context learning(문맥 내 학습) 능력 발현 (모델 크기 증가 시)
  • Few-shot/Zero-shot learning(소수샷/제로샷 학습) 가능

3.3 대표 모델과 등장 연도

모델 연도 파라미터 비고
GPT 2018 117M 초기 생성형, 12-layer
GPT-2 2019 124M~1.5B 스케일 확장, zero-shot
GPT-3 2020 125M~175B 초거대 모델, few-shot
GPT-3.5 2022 ~175B RLHF 적용, ChatGPT
GPT-4 2023 미공개 멀티모달, 추론 강화
LLaMA 2023 7B~65B 공개 계열, efficient training
LLaMA-2 2023 7B~70B 개선판, 상용 라이선스
LLaMA-3 2024 8B~70B 확장된 context, 다국어
Mistral 7B 2023 7B Grouped Query Attention
Mixtral 8x7B 2024 47B Mixture of Experts

3.4 Summarization 태스크에서의 강점 설명

Summarization(요약)은

  • 입력 문서 전체를 이해한 뒤
  • 새로운 압축된 문장을 생성하는 태스크임.

Autoregressive 모델은 다음 이유로 요약에 적합함.

  1. Prefix conditioning: 입력을 완전한 context로 받은 뒤 생성 시작
  2. Fluent generation(유창한 생성): 자연스러운 문장 구성
  3. Abstractive summarization(추상적 요약): 원문에 없는 표현 생성 가능
  4. Instruction following(지시 수행): "다음 문서를 요약하시오" 형태의 프롬프트 처리

다만 입력 길이 제한이 있으므로, 긴 문서의 경우 chunking(분할)이나 hierarchical summarization(계층적 요약)이 필요함.

GPT-3.5 이후에는 instruction tuning(지시 튜닝)RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)를 통해 요약 품질이 크게 향상됨.

4. Denoising Language Model + Encoder–Decoder 구조

4.1 독립적 사전학습 패러다임으로 분류하는 이유

Encoder–Decoder 모델은

  • Denoising Autoencoding(잡음 제거 자기부호화) 또는
  • Sequence-to-Sequence Pretraining(시퀀스-투-시퀀스 사전학습)이라는
  • 독립적인 사전학습 방식을 사용함.

이는 단순히 Autoencoding과 Autoregressive를 조합한 것이 아니라,
고유한 학습 목표를 가짐:

  • 입력: 손상된 시퀀스(corrupted sequence)
  • Encoder: 양방향으로 손상된 입력 이해
  • Decoder: 단방향으로 원본 시퀀스 순차 복원
  • 핵심: cross-attention(교차 어텐션)을 통해 encoder 표현을 decoder가 참조

수식:

\[\mathcal{L} = -\log P(x \mid \tilde{x}) = -\sum_{t=1}^{T} \log P(x_t \mid \tilde{x}, x_{<t})\]

여기서 $\tilde{x} = C(x)$는 손상 함수(corruption function)를 적용한 입력.

4.2 대표적 사전학습 목표

T5의 Span Corruption

T5 (Text-to-Text Transfer Transformer, 2020)Span Corruption 방식을 사용함.

원리:

  1. 입력의 연속된 토큰들(span)을 sentinel 토큰으로 치환
  2. 평균 span 길이: 3 토큰, 손상 비율: 15%
  3. Decoder는 sentinel 순서대로 원본 span 복원

예시:

원본: "Thank you for inviting me to your party last week"

Encoder 입력: "Thank you <extra_id_0> me to your party <extra_id_1> week"

Decoder 출력: "<extra_id_0> for inviting <extra_id_1> last <extra_id_2>"

특징:

  • BERT의 MLM보다 적은 토큰으로 효율적 학습
  • 모든 태스크를 Text-to-Text 형식으로 통일

BART의 Denoising Autoencoding

BART (Bidirectional and Auto-Regressive Transformers, 2019)다양한 손상 기법을 조합함.

5가지 손상 유형:

손상 유형 설명 예시
Token Masking 무작위 토큰을 [MASK]로 치환 "I [MASK] pizza"
Token Deletion 무작위 토큰 삭제 "I pizza" (love 삭제)
Text Infilling 연속 토큰을 단일 [MASK]로 치환 "I [MASK] pizza"
Sentence Permutation 문장 순서 섞기 [Sent3, Sent1, Sent2]
Document Rotation 임의 토큰에서 시작하도록 회전 "pizza. I love"

실제 설정:

  • Text Infilling + Sentence Permutation 주로 사용
  • 30% 토큰 손상
  • Span 길이는 Poisson 분포($\lambda=3$)

기타 방식

PEGASUS (2020):

  • Gap Sentence Generation (GSG): 중요한 문장을 제거하고 복원
  • 요약 태스크에 직접 최적화

MASS (2019):

  • 연속 span만 마스킹, 해당 부분만 복원
  • 번역 태스크 특화

UL2 (2022):

  • Mixture-of-Denoisers: 여러 손상 방식 동시 학습
  • R-denoising, X-denoising, S-denoising 혼합

4.3 세 패러다임의 본질적 차이

Autoencoding (BERT):

입력: "I `[MASK]` pizza"
목표: P(love | context) 
방식: 각 `[MASK]` 위치에서 독립적으로 병렬 예측

Autoregressive (GPT):

입력: "I love"
목표: P(pizza | I, love)
방식: 다음 토큰 순차 예측

Denoising Encoder-Decoder (T5, BART):

Encoder 입력: "I <X> pizza" (손상됨)
Decoder 목표: P(love | corrupted_input, previous_output)
방식: 손상된 전체를 보고 원본을 순차 복원

4.4 대표 모델과 등장 연도

모델 연도 파라미터 비고
BART 2019 140M~400M Denoising, 5가지 노이즈
BART5 2020 60M~11B Text-to-Text, C4 corpus
BARmBART 2020 610M 다국어, 25개 언어
BARmT5 2021 300M~13B 다국어 T5, 101개 언어
BARFLAN-T5 2022 80M~11B 지시 학습, 1,800+ 태스크
BARUL2 2022 20B Mixture-of-Denoisers
BARPEGASUS 2020 568M Gap Sentence Generation

4.5 강점을 보이는 태스크

Encoder–Decoder 구조는 다음 태스크에서 강점을 보임.

  • Summarization(요약): 긴 입력 이해 + 간결한 출력 생성
  • Translation(번역): 소스 언어 인코딩 + 타깃 언어 디코딩
  • Question Answering(질의응답): 문서 이해 + 답변 생성
  • Data-to-Text: 구조화 데이터 → 자연어 변환
  • Instruction Following(지시 수행): 명령 이해 + 실행
  • Conditional Generation(조건부 생성): 제약 조건 하 생성

특히 입력과 출력의 길이와 형식이 상이하거나, 입력 전체를 동시에 참조해야 하는 태스크에서 Decoder-only 모델 대비 안정적인 성능을 보임.

요약 태스크 우위 이유:

  1. Encoder: 긴 문서(500+ 토큰)를 양방향으로 완전 이해
  2. Cross-attention: 출력 생성 시 입력 전체 참조
  3. Variable-length output: 입력과 다른 길이 자유롭게 생성
  4. Explicit conditioning: 조건(문서)과 생성(요약)의 명확한 분리

실증:

  • PEGASUS: CNN/DailyMail ROUGE-L 44.17
  • BART: XSum ROUGE-L 45.14
  • T5: 다양한 요약 벤치마크에서 일관된 상위권

4.6 한국어 환경에서의 활용

한국어 Encoder–Decoder 모델은 다음과 같음.

  • KoBART (2021): SKT, BART 기반, 요약·생성 태스크
  • KE-T5 (2021): ETRI, 한국어 T5, 150GB 말뭉치
  • mT5 다국어 모델: 한국어 포함, zero-shot 전이 가능

KLUE에서는 MRC(기계 독해) 태스크가
Encoder–Decoder 구조에 적합하나,
실제로는 Encoder-only + span extraction 방식이
더 많이 사용됨.

5. 사전학습 방식 + 구조 기준 통합 요약

구조 사전학습 방식 Attention 패턴 대표 모델 강점 태스크 약점
Encoder-only Autoencoding (MLM, RTD) Bidirectional BERT, ELECTRA, koELECTRA NER, 분류, 추출 생성 불가
Decoder-only Autoregressive (CLM) Causal (Unidirectional) GPT, LLaMA 생성, 요약, 대화 양방향 이해 제한
Encoder–Decoder Denoising (Span Corruption, Text Infilling) Bidirectional + Causal + Cross T5, BART 요약, 번역, 조건부 생성 계산량 증가

사전학습 목표의 핵심 차이

사전학습 방식 입력 상태 출력 방식 학습 신호 최적화 대상
Autoencoding 손상됨 Parallel prediction [MASK] 위치 양방향 이해
Autoregressive 정상 Sequential generation 다음 토큰 유창한 생성
Denoising 손상됨 Sequential generation 전체 원본 시퀀스 이해 + 생성 균형

6. 모델 선택 가이드라인

6.1 태스크별 권장 구조

  • Token Classification (NER, POS tagging): Encoder-only (koELECTRA)
  • Sequence Classification (sentiment, topic): Encoder-only (BERT)
  • Text Generation (creative writing, dialogue): Decoder-only (GPT)
  • Summarization (short input): Decoder-only (LLaMA) 또는 Encoder–Decoder (T5)
  • Summarization (long input): Encoder–Decoder (BART, PEGASUS)
  • Translation: Encoder–Decoder (mBART, mT5)
  • Question Answering (extractive): Encoder-only (BERT)
  • Question Answering (generative): Encoder–Decoder (FLAN-T5) 또는 Decoder-only (GPT)

6.2 한국어 특화 고려사항

  • 형태소 분석 필요 시: HanBERT (형태소 기반 어휘)
  • 댓글·비속어 처리: KcBERT (댓글 말뭉치)
  • 일반 도메인: koELECTRA (효율성), RoBERTa-large (성능)
  • 생성 태스크: KoGPT-2, Polyglot-Ko
  • 요약·번역: KoBART, KE-T5
  • KLUE 벤치마크: koELECTRA, klue/roberta-large

6.3 Code-Mixed 환경 전략

한국어+영어 혼재 문장 처리 시 고려사항.

  • Multilingual tokenizer: XLM-R, mBERT 활용
  • Language-specific model + romanization: 영어 부분을 한국어 토크나이저로 처리
  • Separate encoding: 언어별 인코딩 후 fusion
  • Pretrained on mixed data: 혼재 말뭉치로 추가 학습

`koELECTRA 는 한국어 중심이나 영어 subword도 일부 포함하여
code-mixed NER에서 실용적 성능을 보임.

7. 최근 동향 (2023~2024)

7.1 Decoder-only 모델의 지배

LLaMA, Mistral, Qwen 등 Decoder-only 모델이 instruction tuning 후 다양한 태스크에서 Encoder-only 모델을 능가함.

이는 다음 요인에 기인함.

  • Scaling law: 모델 크기 증가 시 범용 성능 향상
  • In-context learning: Few-shot으로 새 태스크 학습
  • Instruction following: 자연어 명령 이해

7.2 Encoder-Decoder의 효율성 재평가

T5 논문 실험 (동일 데이터, 동일 계산량):

모델 구조 사전학습 방식 GLUE 점수 비고
Encoder-only MLM (BERT-style) 82.3 기준선
Decoder-only CLM (GPT-style) 79.1 생성 태스크 강점
Encoder-Decoder Span Corruption 84.7 균형적 우수성

특정 태스크(요약, 번역)에서는 Encoder-Decoder가 여전히 효율적임.

7.3 Mixture of Experts (MoE)

Mixtral 8x7B
8개의 전문가(expert) 중 2개를 동적으로 선택하는
sparse model(희소 모델) 구조로
계산 효율과 성능을 동시에 달성함.

7.4 Long Context Models

LLaMA-3 (8K tokens), Claude 3 (200K tokens),
Gemini 1.5 (1M tokens)
context window 확장이 주요 경쟁 요소가 됨.

긴 문서 요약, 코드 분석 등에서 유리함.

7.5 Multimodal Integration

GPT-4V, Gemini, Claude 3는 텍스트+이미지 동시 처리가 가능하며, Vision Transformer (ViT)를 통합한 구조임.

8. 정리

8.1 핵심 결론

  • 언어모델의 본질적 차이는 사전학습 목표와 구조의 조합에 있음
  • Autoencoding + Encoder-only 구조는 이해·판별·추출 태스크에 적합함
  • Autoregressive + Decoder-only 구조는 생성·대화·few-shot 학습에 적합함
  • Denoising + Encoder–Decoder 구조는 손상된 입력을 복원하는 독립적 패러다임으로, 번역·요약·조건부 생성에 강점을 보임
  • 한국어 KLUE-NERcode-mixed 환경에서는 Autoencoding 계열(koELECTRA, klue/roberta)이 정석적 선택임
  • 최근에는 Decoder-only + instruction tuning이 범용 모델로 부상하나, 특정 태스크에서는 여전히 Encoder-only 또는 Encoder-Decoder가 효율적
  • 이 모든 흐름의 출발점에는 ULMFiT의 전이학습 패러다임이 존재함

8.2 세 패러다임의 관계

ULMFiT (2018)
    ↓
전이학습 패러다임 정립
    ↓
    ├─→ Autoencoding (BERT 2018)
    │   - MLM으로 양방향 이해 학습
    │   - Encoder-only 구조
    │   - 이해·분류 태스크 특화
    │
    ├─→ Autoregressive (GPT 2018)
    │   - CLM으로 다음 토큰 예측
    │   - Decoder-only 구조
    │   - 생성 태스크 특화
    │
    └─→ Denoising (BART 2019, T5 2020)
        - Span Corruption으로 복원 학습
        - Encoder-Decoder 구조
        - 조건부 생성·변환 태스크 특화