Attention Is All You Need

2017년 Google의 8명의 저자가
기존의 RNN의 구조에서 사용되던 attetion 을
아예 attention 중심으로 하는 새로운 구조를 제안한 논문.

Sequence data를 다루는데 있어서 가장 강력하게 사용되던 RNN 구조를 버리고, 철저하게 Attention을 통해 Sequence data를 다루는 model임.

scaled dot-product 기반의 attention을 활용하여,

  • Multi-Head Attention (=[[/review/self_attention]]) 와
  • Masked Multi-Head Attention(self attention 과 cross attetion) 과
  • Point-wise FeedForward,
  • LayerNormalization 등을 통해
  • Encoder-Decoder 구조의 모델을 구성함.