<aside> 💡 NLP 분야에 이어 Computer Vision 분야에 Transformer 모델이 적용되고 있다. CV 분야에서 Transformer 기반으로하는 수 많은 Vision 모델들이 SOTA를 달성하고 있는데, 그 시초가 된 ViT 논문 리뷰

</aside>

https://arxiv.org/pdf/2010.11929.pdf


Abstract


Introduction

Self-attention 기반의 모델 특히 Transformer는 NLP에서 좋은 성과를 거두었다.

Large dataset으로 pre-train 시킨 후, downstream task에 대해서 fine-tuning을 진행하는 방식.

컴퓨터비전에서는 여전히 CNN 기반의 구조들이 지배적이었다. NLP 분야의 transformer를 CNN에 적용시키기 위한 노력들이 진행되었다.

이미지를 Patch 단위로 쪼갠 후에, 각 패치를 NLP에서의 단어와 똑같이 취급한다. 초반에는 지도학습 방식으로 image classification을 진행한다.


Related Work

combining CNN + self-attention

[ Idea 1 ] Add Attention to existing CNNs

[ 한계 : 여전히 CNN 구조에서 벗어나지 못함 ]

Screenshot 2023-03-22 at 5.20.53 PM.png