0. Abstract Transformer 제안 RNN, CNN모두 생략 오로지 어텐션 기반 병렬적으로 작동이 가능해서 학습 속도가 빨랐음 1. Introduction RNN기반 모델들은 그동안 대표적인 시퀀스 모델링, 시퀀스 변환모델 언어모델, 인코더-디코더 구조의 경계를 넓히려고 많이 노력했음 문제점) RNN기반 모델의 본질적인 순서 위치는 긴 시퀀스에서 치명적 (병렬적으로 작동X) 계산적 발전 이루었음에도 제약 여전히 발생 어텐션: input과 ouput시퀀스의 길이와 상관없이 다양한 task에서 시퀀스 모델링과 시퀀스 변환에서 짱됨 일부 RNN은 어텐션과 함께 쓰이기도 함 Transformer제안: recurrent한 특징 제외하고, 어텐션 통해 입력과 출력 사이에 종속성 유지 병렬화 가능 짧은 ..