본문 바로가기
반응형

딥러닝 with Python52

[개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (2/2) 지난 포스팅에 이어서 비전트랜스포머(Vistion Transformer/ ViT)에 대해서 알아보겠습니다. [개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (1/2) 지난 시간에는 인코더 부분에 대해서 알아보았습니다. 포지셔널 임베딩이 추가된 패치 임베딩이 Transformer의 인코더에 들어가서 Q, K, V로 나뉘고, Multi Head Self Attention + Skip connection, 이후 Multi Layer Perceptron + Skip connection이 추가된 다수의 레이어를 지나 최종적으로 인코더의 출력 벡터가 나오게 됩니다. 이제 그 다음 단계에 대해서 알아보겠습니다. 1. Classification Head (분류 헤드) - 위 그림에서처럼, .. 2024. 2. 17.
[개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (1/2) 이번에 알아보 내용은 Vision Transformer입니다. 해당 모델은 "An Image is worth 16x16 words: Transformers for image recognition at scale" 이라는 논문에서 등장했습니다. 해당 논문은 2021년 ICLR에서 발표된 이후, 많은 후속 연구들이 쏟아지고 있으며 ViT를 Backbone으로 한 다양한 Architecture들이 나오면서 CV(Computer Vision) Task에서 CNN을 대체 또는 다른 방향성을 제시하는 솔루션으로 제안되고 있습니다. 1. Vision Transformer(ViT / 비전트랜스포머) -기본적인 구조는 아래에 나와있는 모습을 바탕으로 알 수 있습니다. 1) Image Patching (이미지 패치화) -.. 2024. 2. 16.
[개념정리] Layer Normalization 이번에 알아볼 개념은 RNN, Transformer 계열 처럼 순차적인 데이터를 다루는 구조에서 활용하는 Layer Normalization에 대해서 알아보겠습니다. 1. Layer Normalization이란 - Layer Normalization은 각 레이어의 입력을 정규화하여 학습 중에 파라미터가 빠르고 안정적으로 수렴하도록 해주는 방법을 말합니다. - 이는, 각 샘플 내에서 feature (또는 Channel)의 차원에 대해 정규화를 수행합니다. 즉, 한 샘플 내의 모든 feature를 통틀어서 평균과 분산을 계산하는 것을 말하는데요 * Sequential 데이터의 경우 feature는 시간 축에 의해 변화되는 특정한 값을 나타내므로 정규화를 하는데 개념상 무리가 없습니다. 2. Batch Nor.. 2024. 2. 15.
[개념정리] 멀티헤드 셀프 어텐션(Multi-Head Self-Attention) 이번에 알아볼 개념은 멀티 헤드 셀프 어텐션(Multi-Head Self Attnetion) 입니다. [개념정리] Self attention / 셀프 어텐션 지난번에 알아봤던, 셀프 어텐션이 조금은 차이나는 방식으로 여러번 적용되었다고 보시면 되겠습니다. 1. 멀티헤드 셀프 어텐션(Multi-Head Self Attention) - 입력 시퀀스의 각 요소가 시퀀스 내 다른 요소들과 어떻게 관련되어 있는지를 알아보는 Self Attention을, 동시에 다양한 방식으로 모델링하는 방법을 말합니다. - 즉, 여러개의 헤드(Head)로 분할하여 병렬로 Self Attention을 수행하는데요 - 이렇게 병렬로 mult-hea를 사용하는 이유는, 여러 부분에 동시에 어텐션을 가할 수 있어 모델이 입력 토큰 간의.. 2024. 2. 14.
반응형