본문 바로가기
반응형

비전트랜스포머2

[개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (2/2) 지난 포스팅에 이어서 비전트랜스포머(Vistion Transformer/ ViT)에 대해서 알아보겠습니다. [개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (1/2) 지난 시간에는 인코더 부분에 대해서 알아보았습니다. 포지셔널 임베딩이 추가된 패치 임베딩이 Transformer의 인코더에 들어가서 Q, K, V로 나뉘고, Multi Head Self Attention + Skip connection, 이후 Multi Layer Perceptron + Skip connection이 추가된 다수의 레이어를 지나 최종적으로 인코더의 출력 벡터가 나오게 됩니다. 이제 그 다음 단계에 대해서 알아보겠습니다. 1. Classification Head (분류 헤드) - 위 그림에서처럼, .. 2024. 2. 17.
[개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (1/2) 이번에 알아보 내용은 Vision Transformer입니다. 해당 모델은 "An Image is worth 16x16 words: Transformers for image recognition at scale" 이라는 논문에서 등장했습니다. 해당 논문은 2021년 ICLR에서 발표된 이후, 많은 후속 연구들이 쏟아지고 있으며 ViT를 Backbone으로 한 다양한 Architecture들이 나오면서 CV(Computer Vision) Task에서 CNN을 대체 또는 다른 방향성을 제시하는 솔루션으로 제안되고 있습니다. 1. Vision Transformer(ViT / 비전트랜스포머) -기본적인 구조는 아래에 나와있는 모습을 바탕으로 알 수 있습니다. 1) Image Patching (이미지 패치화) -.. 2024. 2. 16.
반응형