[딥러닝 with Python]Vision-Language Models(VLM)와 Data Curation의 중요성
- Vision-Language Models(VLM)은 이미지와 텍스트를 동시에 이해하고 처리하는 모델로, 대표적으로 Flamingo [Alayrac et al., 2022], MM1 [McKinzie et al., 2024] 등이 있습니다. - 이러한 모델들이 높은 성능을 보이기 위해서는 고품질의 멀티모달 데이터가 필수적이며, 이를 보장하기 위해서는 체계적인 Data Curation(데이터 정제 및 선별 과정)이 필요합니다.- 이때, Data Curation은 단순한 데이터 수집을 넘어, 노이즈 제거, 데이터 정리, 라벨링 및 품질 평가 등의 과정을 포함합니다. 특히, VLM에서는 텍스트와 이미지의 **연계성(Alignment)**을 유지하면서, 학습에 적절한 데이터를 구축하는 것이 핵심 과제입니다...
2025. 3. 1.