이번에는 Sequential Structure를 활용해서 Self Supervised Learning을 하는 3가지 모델에 대해서 알아보겠습니다.
- CPC (Contrastive Predictive Coding)
- VINCE(View Invariant Contrastive Learning for Visual Representations)
- FlowE
1. Sequential Structure를 활용하는 SSL 모델
1) CPC (Contrastive Predictive Coding)
- CPC는 데이터의 미래 정보를 예측하는 방식으로 SSL을 하는 모델입니다.
- 이는 미래정보를 예측하는 방식을 통해 유용한 Feature를 추출하며, Negative와 Positive Samples를 모두 활용합니다.
- 핵심 아이디어 중 하나는 encoder를 통해 low level information은 버리고, high level information 만을 활용해 prediction을 한다는 것입니다.
- 이 과정을 그림으로 자세히 알아보면 아래와 같습니다.
* input image가 g라는 encoder를 통해 embedding space로 정보가 압축이 되는데 과거의 embedding feautre를 활용해 미래의 embedding feature를 예측하는 방식입니다.
- 이때 현재의 context인 ct와 미래 시점의 데이터인 xt+k 간의 Mutual Information을 최대화 하기 위해 NCE(Noise Contrastive Estimation) 기반의 손실함수를 활용하여 Negative sampels와 Positive samples를 구별하며
* 이때 Positive samples는 현재 context은 ct에서 k 시점 이후의 데이터인 x t+k 이고, Negative samples는 다른 시점 또는 다른 샘플에서 가져온 x들이며 이들을 랜던하게 선택합니다.
- 이를 활용해 NCE Loss 다음과 같이 주어지며
- Mutual Information에 대해 양성 샘플과 음성 샘플 수 N이 커질수록 CPC가 더 높은 상호 정보량을 확보하기 위해 다음과 같은 관계식을 세웁니다.
2) VINCE(View Invariant Contrastive Learning for Visual Representations)
- VINCE는 멀티뷰 데이터를 활용해 서로 다른 뷰를 통해 학습을 강화하는 SSL 모델로
서로 다른 시점에서 본 객체의 이미지들이 동일한 객체임을 학습하여 SSL을 합니다.
- VINCE는 Multi-Frame NCE와 Multi Pari NCE를 사용하고 있으며
* Multi Frame NCE는 각 프레임이 서로 다른 각도에서 동일한 객체임을 나타내므로, 비디오의 여러 프레임을 양성 샘플로 사용해 상호간의 거리를 가깝게 만드는 방식을 활용하는 것이고
* Multi-Pair NCE는 MoCO의 메모리 뱅크와 같은 장치를 활용해 여러 양성 샘플간의 관계를 더욱 효율적으로 학습하게 하는 방식입니다.
- 이를 바탕으로 VICNE는 비디오 데이터에서 3D-aware한 표현을 학습하기 위해 비디오의 여러 프레임을 양성 샘플로 사용하고 같은 객체에 대한 다양한 각도에 대한 표현을 얻음으로써 일관된 특징을 학습하게 합니다.
3) FlowE
- FlowE는 비디오의 연속적인 프레임 간의 관계를 학습하여 시간적인 흐름(temporal flow)을 이해하도록 모델을 학습시키는 SSL 방법입니다.
- 이때, 연속되는 데이터의 시간적인 일관성과 상관관계를 통해 의미있는 Representation을 학습하자는 것인데,
- FlowE는 프레임 간의 특정 변환이 객체의 표현에도 동일하게 적용되어야 한다는 시간적인 Equivariant를 학습하도록 고안되었습니다.
-학습 방식은
* 두 프레임 I1과 I2가 주어졌을때 프레임의 변환을 I1의 Augmentation과 I2의 Augmentation 그리고 1에서 2로 가는 Optical flow인 M1->2 의 연산으로 정의합니다.
* 이를 통해 I1의 Represenataion인 z1이 위에서 말한 변환을 거친 변환(tau)과 I2의 Representation인 z2가 같도록 학습하는 방식입니다.
댓글