이번에는 SSL에서 Invariance를 활용하는 모델들 중
Different Modality를 활용하는 모델들에 대해서 알아보겠습니다.
알아볼 모델은
- CMC(Contrastive Multiview Coding / Matching view와 Unmatching view라는 다른 modality)
- CLIP(Contrastive Language-Image Pretraining / Language 와 Image라는 다른 modality)
입니다.
1. CMC(Contrastive Multiview Coding)
- CMC는 다양한 시각 정보를 제공하는 멀티뷰 데이터를 Contrastive Learning으로 학습하는 모델입니다.
- 해당 모델은 서로 다른 뷰가 동일한 객체를 나타내고 있다는 사실을 학습하며, 동일한 객체의 다양한 뷰를 하나의 표현 공간에 가까운 거리에 위치시키는 것을 목표로 하고 있는데요
ex. 동일한 객체를 표현하는 여러뷰(R, G, B 채널 또는 여러 카메라 각도의 이미지)를 사용해 대조학습 수행
- 학습 방식은 각 뷰를 Graph Embedding을 해서 Graph Contrasting을 하는 방식입니다.
- 이를 활용했을때 여러 관점에서 본 객체에 대한 이해가 깊어지기 때문에 비디오 분석, 다중 센서 데이터 학습 등에서 유용하다고 볼 수 있습니다.
2. CLIP
- CLIP은 Text-Image Pair를 이용해 상호간의 관계를 학습하는 모델입니다.
- 이는 Text Encoder와 Image Encoder로 나뉘어서 각각 Representation을 도출하고 이를 동일한 Embedding space에 위치시켜 의미적으로 가까운 것들이 더 가깝게 위치하도록 배치시키는 것입니다.
- 특징을 확인해본다면, 많은 수의 데이터를 통해 학습이 되었기에 새로운 텍스트 프롬프트로 이미지를 검색하거나 분류하는데 좋은 성능을 보이고
특히, Zero-shot 성능이 우수해 기존에 학습되지 않은 클래스나 이미지에 대해서도 잘 작동하는 모델입니다.
댓글