ViT: An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale

<aside> 💡 NLP 분야에 이어 Computer Vision 분야에 Transformer 모델이 적용되고 있다. CV 분야에서 Transformer 기반으로하는 수 많은 Vision 모델들이 SOTA를 달성하고 있는데, 그 시초가 된 ViT 논문 리뷰

</aside>

Abstract

기존의 Computer Vision 모델들은 CNN에 의존적이었음.
NLP 분야에서 Attention을 기반으로 한 Transformer가 큰 성공을 거두면서 Attention을 CV 분야에도 적용시키기 위한 연구들이 이어짐.
CNN + Attention 결합을 시도하는 연구가 이어졌는데, ViT는 CNN 없이 오직 Transformer 만으로 훌륭한 성능을 낸 모델 아키텍처이다.
현재 Vision task에서 많은 SOTA를 달성한 모델들이 거의 Transformer를 기반으로 하고 있음. 즉, ViT는 그 시초라고 할 수 있다

Self-attention 기반의 모델 특히 Transformer는 NLP에서 좋은 성과를 거두었다.

Large dataset으로 pre-train 시킨 후, downstream task에 대해서 fine-tuning을 진행하는 방식.

컴퓨터비전에서는 여전히 CNN 기반의 구조들이 지배적이었다. NLP 분야의 transformer를 CNN에 적용시키기 위한 노력들이 진행되었다.

이미지를 Patch 단위로 쪼갠 후에, 각 패치를 NLP에서의 단어와 똑같이 취급한다. 초반에는 지도학습 방식으로 image classification을 진행한다.

[ Idea 1 ] Add Attention to existing CNNs

[ 한계 : 여전히 CNN 구조에서 벗어나지 못함 ]

Screenshot 2023-03-22 at 5.20.53 PM.png