[딥러닝 with Python] Self Supervised Learning (SSL) (5) : Invariance 활용

이번에는 SSL에서 Invariance를 활용하는 모델들 중

Different Modality를 활용하는 모델들에 대해서 알아보겠습니다.

알아볼 모델은

- CMC(Contrastive Multiview Coding / Matching view와 Unmatching view라는 다른 modality)

- CLIP(Contrastive Language-Image Pretraining / Language 와 Image라는 다른 modality)

입니다.

1. CMC(Contrastive Multiview Coding)

- CMC는 다양한 시각 정보를 제공하는 멀티뷰 데이터를 Contrastive Learning으로 학습하는 모델입니다.

- 해당 모델은 서로 다른 뷰가 동일한 객체를 나타내고 있다는 사실을 학습하며, 동일한 객체의 다양한 뷰를 하나의 표현 공간에 가까운 거리에 위치시키는 것을 목표로 하고 있는데요

ex. 동일한 객체를 표현하는 여러뷰(R, G, B 채널 또는 여러 카메라 각도의 이미지)를 사용해 대조학습 수행

- 학습 방식은 각 뷰를 Graph Embedding을 해서 Graph Contrasting을 하는 방식입니다.

- 이를 활용했을때 여러 관점에서 본 객체에 대한 이해가 깊어지기 때문에 비디오 분석, 다중 센서 데이터 학습 등에서 유용하다고 볼 수 있습니다.

- CLIP은 Text-Image Pair를 이용해 상호간의 관계를 학습하는 모델입니다.

- 이는 Text Encoder와 Image Encoder로 나뉘어서 각각 Representation을 도출하고 이를 동일한 Embedding space에 위치시켜 의미적으로 가까운 것들이 더 가깝게 위치하도록 배치시키는 것입니다.

- 특징을 확인해본다면, 많은 수의 데이터를 통해 학습이 되었기에 새로운 텍스트 프롬프트로 이미지를 검색하거나 분류하는데 좋은 성능을 보이고

특히, Zero-shot 성능이 우수해 기존에 학습되지 않은 클래스나 이미지에 대해서도 잘 작동하는 모델입니다.

[딥러닝 with Python] Anomaly Detection이란? (이상 탐지) (1)	2024.11.22
[딥러닝 with Python] Self Supervised Learning(SSL) (6) : Sequential Structure 활용 (0)	2024.11.19
[딥러닝 with Python] Self Supervised Learning(SSL) (4) : Invariance 활용 (0)	2024.11.17
[딥러닝 with Python] Self Supervised Learning(SSL) (3) : Invariance 활용 (0)	2024.11.16
[딥러닝 with Python] Self Supervised Learning(SSL) (2) : Pretext 활용 (3)	2024.11.15

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`