<aside> 💡 NLP 분야에 이어 Computer Vision 분야에 Transformer 모델이 적용되고 있다. CV 분야에서 Transformer 기반으로하는 수 많은 Vision 모델들이 SOTA를 달성하고 있는데, 그 시초가 된 ViT 논문 리뷰
</aside>
https://arxiv.org/pdf/2010.11929.pdf
Self-attention 기반의 모델 특히 Transformer는 NLP에서 좋은 성과를 거두었다.
Large dataset으로 pre-train 시킨 후, downstream task에 대해서 fine-tuning을 진행하는 방식.
컴퓨터비전에서는 여전히 CNN 기반의 구조들이 지배적이었다. NLP 분야의 transformer를 CNN에 적용시키기 위한 노력들이 진행되었다.
이미지를 Patch 단위로 쪼갠 후에, 각 패치를 NLP에서의 단어와 똑같이 취급한다. 초반에는 지도학습 방식으로 image classification을 진행한다.
[ Idea 1 ] Add Attention to existing CNNs
[ 한계 : 여전히 CNN 구조에서 벗어나지 못함 ]