Transformer
Attention is all you need
transformer attention multi-head-attention
Attention Is All You Need
2017년 Google의 8명의 저자가
기존의 RNN의 구조에서 사용되던 attetion 을
아예 attention 중심으로 하는 새로운 구조를 제안한 논문.
Sequence data를 다루는데 있어서 가장 강력하게 사용되던 RNN 구조를 버리고, 철저하게 Attention을 통해 Sequence data를 다루는 model임.
scaled dot-product 기반의 attention을 활용하여,
- Multi-Head Attention (=[[/review/self_attention]]) 와
- Masked Multi-Head Attention(self attention 과 cross attetion) 과
- Point-wise FeedForward,
- LayerNormalization 등을 통해
- Encoder-Decoder 구조의 모델을 구성함.