반응형 positional encoding1 [개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (1/2) 이번에 알아보 내용은 Vision Transformer입니다. 해당 모델은 "An Image is worth 16x16 words: Transformers for image recognition at scale" 이라는 논문에서 등장했습니다. 해당 논문은 2021년 ICLR에서 발표된 이후, 많은 후속 연구들이 쏟아지고 있으며 ViT를 Backbone으로 한 다양한 Architecture들이 나오면서 CV(Computer Vision) Task에서 CNN을 대체 또는 다른 방향성을 제시하는 솔루션으로 제안되고 있습니다. 1. Vision Transformer(ViT / 비전트랜스포머) -기본적인 구조는 아래에 나와있는 모습을 바탕으로 알 수 있습니다. 1) Image Patching (이미지 패치화) -.. 2024. 2. 16. 이전 1 다음 반응형