Abstract Mased auto encoders(MAE)가 컴퓨터 비전 분야에서 scalable self-supervised learners 임을 증명 아이디어 : 입력 이미지의 패치를 랜덤하게 마스킹한 후 missing pixels를 복원하도록 학습 인코더-디코더 구조는 비대칭 구조. 인코더: 마스킹 되지 않은 부분만 처리 디코더: 인코더보다 훨 가볍게 설정되고 마스킹된 부분과 되지 않은 부분 모두 처리 입력 이미지에 대한 최적 마스킹 비율 : 75% 학습 속도&정확도 높일 수 있었음 최종적으로 transfer learning 성능도 검증 Intro 딥러닝이 핫해지고 하드웨어들이 발전하면서 거대한 모델들이 엄청나게 많은 데이터를 overfit하게 학습하게 되었고 수 백만의 labled 이미지를 필요..