본문 바로가기
반응형

딥러닝 with Python110

[딥러닝 with Python] Vision Transformer(ViT) 파이썬 코드 구현(파이토치 / 코랩) 이번에는 지난번 알아본 Vision Transformer(ViT)의 개념을 바탕으로 파이토치에 기반한 코드를 작성해보고자합니다. [딥러닝 with Python] 비전 트랜스포머(Vision Transformer / ViT) (1/2) [딥러닝 with Python] 비전 트랜스포머(Vision Transformer / ViT) (1/2)이번에는 지난 시간에 알아본 트랜스포머를 Vision Task에 적용한 Vision Transformer에 대해서 알아보겠습니다. 해당 포스팅은 " AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(ICLR 2021 / Dosovitjaylala.tistory.com[딥러닝 with Pyt.. 2024. 11. 8.
[딥러닝 with Python] Segment Anything / Segment Anything Model(SAM) 이번에는 Image Segmentation에서 Foundation 모델로 각광을 받고 있는 Segment Anything 논문에 대해서 리뷰해보겠습니다. 본 포스팅은 "Segment Anything" 논문을 참고하였습니다.  1. Segment Anything Model (SAM)- 해당 논문은 Image Segmentation에서 활용할 수 있는 Foundation model을 만들고자 하는 생각으로 시작하였습니다. - 이때 3가지의 Main question이 있는데 1) 어떤 작업을 통해 Foundation 모델을 학습 시켰을때, 일반화된 Zero shot이 가능한가? 2) 모델의 아키텍처는 어떻게 구성해야 할 것인가? 3) 어떤 데이터를 활용해야 할 것인가? 입니다. - 먼저 Task로는 Promp.. 2024. 11. 8.
[딥러닝 with Python] 비전 트랜스포머(Vision Transformer / ViT) (2/2) 지난 포스팅에서 최초 제시된 ViT에 대해서만 알아보았다면, 이번에는 ViT의 활용 가능성에 대해서 알아보겠습니다.[딥러닝 with Python] 비전 트랜스포머(Vision Transformer / ViT) (1/2)  1. ViT vs ResNets- ViT  이전에는 이미지 관련 Task에서 기본 Backbone 네트워크로 주로 ResNets을 활용했었는데요.  - 아래 그림처럼 데이터 셋의 크기가 3억장이 넘는 데이터로 학습이 되어야지 비로서 ResNets의 성능을 이길 수 있게 되었습니다. ViT 모델의 크기도 가장 큰 버전인 Huge를 활용해서야 말이죠 - 그래서 이러한 ViT를 잘 활용해보기 위해 ImageNet-1K 데이터만을 가지고 Regularization과 Data Augmentati.. 2024. 11. 8.
[딥러닝 with Python] 비전 트랜스포머(Vision Transformer / ViT) (1/2) 이번에는 지난 시간에 알아본 트랜스포머를 Vision Task에 적용한 Vision Transformer에 대해서 알아보겠습니다. 해당 포스팅은 " AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(ICLR 2021 / Dosovitskiy et al)"  논문을 참조했습니다. 1. 비전 트랜스포머 (Vision Transformer)( 들어가기 전 : Attention과 Self-Attention을 비교해보자면, Attention의 경우 Query는 디코더로부터, Key와 Value는 인코더로부터 나와서 Attention 연산을 진행했다면, Self Attention은 Query, Key, Value 모두 인코더로부터 .. 2024. 11. 7.
반응형