본문 바로가기
딥러닝 with Python

[딥러닝 with Python] Self Supervised Learning (SSL) (5) : Invariance 활용

by CodeCrafter 2024. 11. 18.
반응형

 

이번에는 SSL에서 Invariance를 활용하는 모델들 중 

 

Different Modality를 활용하는 모델들에 대해서 알아보겠습니다.

 

알아볼 모델은 

 

- CMC(Contrastive Multiview Coding / Matching view와 Unmatching view라는 다른 modality)

- CLIP(Contrastive Language-Image Pretraining / Language 와 Image라는 다른 modality)

 

입니다.

 

1. CMC(Contrastive Multiview Coding)

- CMC는 다양한 시각 정보를 제공하는 멀티뷰 데이터를 Contrastive Learning으로 학습하는 모델입니다.

 

- 해당 모델은 서로 다른 뷰가 동일한 객체를 나타내고 있다는 사실을 학습하며, 동일한 객체의 다양한 뷰를 하나의 표현 공간에 가까운 거리에 위치시키는 것을 목표로 하고 있는데요

 ex. 동일한 객체를 표현하는 여러뷰(R, G, B 채널 또는 여러 카메라 각도의 이미지)를 사용해 대조학습 수행

 

 

- 학습 방식은 각 뷰를 Graph Embedding을 해서 Graph Contrasting을 하는 방식입니다.

 

- 이를 활용했을때 여러 관점에서 본 객체에 대한 이해가 깊어지기 때문에 비디오 분석, 다중 센서 데이터 학습 등에서 유용하다고 볼 수 있습니다.

 

 

 

2. CLIP

- CLIP은 Text-Image Pair를 이용해 상호간의 관계를 학습하는 모델입니다.

 

- 이는 Text Encoder와 Image Encoder로 나뉘어서 각각 Representation을 도출하고 이를 동일한 Embedding space에 위치시켜 의미적으로 가까운 것들이 더 가깝게 위치하도록 배치시키는 것입니다.

 

- 특징을 확인해본다면, 많은 수의 데이터를 통해 학습이 되었기에 새로운 텍스트 프롬프트로 이미지를 검색하거나 분류하는데 좋은 성능을 보이고

 특히, Zero-shot 성능이 우수해 기존에 학습되지 않은 클래스나 이미지에 대해서도 잘 작동하는 모델입니다.

 

반응형

댓글