본문 바로가기
반응형

vit5

[딥러닝 with Python] Vision Transformer(ViT) 파이썬 코드 구현(파이토치 / 코랩) 이번에는 지난번 알아본 Vision Transformer(ViT)의 개념을 바탕으로 파이토치에 기반한 코드를 작성해보고자합니다. [딥러닝 with Python] 비전 트랜스포머(Vision Transformer / ViT) (1/2) [딥러닝 with Python] 비전 트랜스포머(Vision Transformer / ViT) (1/2)이번에는 지난 시간에 알아본 트랜스포머를 Vision Task에 적용한 Vision Transformer에 대해서 알아보겠습니다. 해당 포스팅은 " AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(ICLR 2021 / Dosovitjaylala.tistory.com[딥러닝 with Pyt.. 2024. 11. 8.
[딥러닝 with Python] 비전 트랜스포머(Vision Transformer / ViT) (2/2) 지난 포스팅에서 최초 제시된 ViT에 대해서만 알아보았다면, 이번에는 ViT의 활용 가능성에 대해서 알아보겠습니다.[딥러닝 with Python] 비전 트랜스포머(Vision Transformer / ViT) (1/2)  1. ViT vs ResNets- ViT  이전에는 이미지 관련 Task에서 기본 Backbone 네트워크로 주로 ResNets을 활용했었는데요.  - 아래 그림처럼 데이터 셋의 크기가 3억장이 넘는 데이터로 학습이 되어야지 비로서 ResNets의 성능을 이길 수 있게 되었습니다. ViT 모델의 크기도 가장 큰 버전인 Huge를 활용해서야 말이죠 - 그래서 이러한 ViT를 잘 활용해보기 위해 ImageNet-1K 데이터만을 가지고 Regularization과 Data Augmentati.. 2024. 11. 8.
[딥러닝 with Python] Vision Transformer를 활용한 이미지 분류 이번에는 간단한 비전 트랜스포머 코드를 활용해 CIFAR-100 Dataset에 대한 분류를 해보겠습니다. Vision Transformer에 대한 이론적인 내용은 아래 포스팅을 참조 바랍니다. [개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (1/2) [개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (1/2)이번에 알아보 내용은 Vision Transformer입니다. 해당 모델은 "An Image is worth 16x16 words: Transformers for image recognition at scale" 이라는 논문에서 등장했습니다. 해당 논문은 2021년 ICLR에서 발표된 이후, 많은jaylala.tistory.com[개념 정리].. 2024. 7. 23.
[개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (2/2) 지난 포스팅에 이어서 비전트랜스포머(Vistion Transformer/ ViT)에 대해서 알아보겠습니다. [개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (1/2) 지난 시간에는 인코더 부분에 대해서 알아보았습니다. 포지셔널 임베딩이 추가된 패치 임베딩이 Transformer의 인코더에 들어가서 Q, K, V로 나뉘고, Multi Head Self Attention + Skip connection, 이후 Multi Layer Perceptron + Skip connection이 추가된 다수의 레이어를 지나 최종적으로 인코더의 출력 벡터가 나오게 됩니다. 이제 그 다음 단계에 대해서 알아보겠습니다. 1. Classification Head (분류 헤드) - 위 그림에서처럼, .. 2024. 2. 17.
반응형