본문 바로가기
반응형

전체 글145

[머신러닝 with Python] 불균형 데이터 처리(1) : Credit Card Fraud Detection Data에 대해 EDA 이번에는 불균형 데이터 처리에 대표적으로 사용되는 데이터 셋인 Credit Card Fraud Detection Data에 대해서 알아보겠습니다. 1. Credit Card Fraud Detection- 해당 데이터셋은 유럽의 신용카드 소지자들이 2013년 9월 동안 사용한 거래 데이터를 포함하고 있으며, 신용카드 사기 탐지를 위한 머신러닝 모델 학습에 적합하게 설계되어 있는 데이터 입니다. - 데이터 정보 요약 * 기간 : 2일 동안 발생한 거래 데이터 * 사기 거래 건수 : 492건 (전체 284,807건 중 약 0.172%) * 데이터 불균형 : 사기 거래 비율이 0.172%에 불과해 데이터의 클래스가 매우 불균형한 분류 문제를 해결해야 합니다. * 평가지표 : 클래스의 불균형성으로 인해 단순한 A.. 2024. 11. 20.
[딥러닝 with Python] Self Supervised Learning(SSL) (6) : Sequential Structure 활용 이번에는 Sequential Structure를 활용해서 Self Supervised Learning을 하는 3가지 모델에 대해서 알아보겠습니다. - CPC (Contrastive Predictive Coding)- VINCE(View Invariant Contrastive Learning for Visual Representations)- FlowE 1. Sequential Structure를 활용하는 SSL 모델 1) CPC (Contrastive Predictive Coding) - CPC는 데이터의 미래 정보를 예측하는 방식으로 SSL을 하는 모델입니다.- 이는 미래정보를 예측하는 방식을 통해 유용한 Feature를 추출하며, Negative와 Positive Samples를 모두 활용합니다.- .. 2024. 11. 19.
[딥러닝 with Python] Self Supervised Learning (SSL) (5) : Invariance 활용 이번에는 SSL에서 Invariance를 활용하는 모델들 중  Different Modality를 활용하는 모델들에 대해서 알아보겠습니다. 알아볼 모델은  - CMC(Contrastive Multiview Coding / Matching view와 Unmatching view라는 다른 modality)- CLIP(Contrastive Language-Image Pretraining / Language 와 Image라는 다른 modality) 입니다. 1. CMC(Contrastive Multiview Coding)- CMC는 다양한 시각 정보를 제공하는 멀티뷰 데이터를 Contrastive Learning으로 학습하는 모델입니다. - 해당 모델은 서로 다른 뷰가 동일한 객체를 나타내고 있다는 사실을 학습.. 2024. 11. 18.
[딥러닝 with Python] Self Supervised Learning(SSL) (4) : Invariance 활용 이번에는 지난 시간에 이이서 SSL 간 Invariance를 활용하는 모델들에 대해서 알아보겠습니다. 오늘 알아볼 모델은 BYOL(Bootstrap Your Own Latent)와 DINO입니다. 1. BYOL(Bootstrap Your Own Latent)- BYOL은 Online 네트워크와 Target 네트워크 구성되어 Contrastive Learning을 하는 방식입니다.- 기존의 다른 Contrastive Learning과는 다르게 Negative sample이 필요하진 않습니다. - 작동 방식은 * 두 네트워크에 서로 다른 증강된 데이터를 입력하고 * Online 네트워크의 출력과 Target 네트워크의 출력을 비교하면서 학습을 하며 * 이때 Target 네트워크는 학습이 되지는 않고, 대신 .. 2024. 11. 17.
[딥러닝 with Python] Self Supervised Learning(SSL) (3) : Invariance 활용 이번에는 Invariance를 활용해 Self Supervised Learning을 하는 방법에 대해서 알아보겠습니다. 1. Invariance?- Inavraicne란, 모델이 입력 데이터의 특정 변환에 영향을 받지 않, 일관된 출력을 유지할 수 있는 성징을 의미합니다. - 다양한 데이터 변환에 대해 안정성을 유지하는 것이 목표이며, 모델이 학습해야 될 주요한 특징이 왜곡되거나 변화되게하여 실제 세계에서 만나게 될 다양한 조건에서 변환된 데이터로부터 일반화된 특징을 도출할 수 있도록 하기 위함입니다. - 대표적인 Inavraince는 1) Translation Invariance (위치 불변성) : 모델이 이미지 내 객체의 위치 변화에 민감하지 않도록 하는 것 2) Rotation Invariance(.. 2024. 11. 16.
[딥러닝 with Python] Self Supervised Learning(SSL) (2) : Pretext 활용 1. Pretext Task- Pretext 란, "표면상의 이유" 또는 "구실", "핑계" 라는 뜻을 가지고 있습니다. - Self Supervised Learning에서 Pretext Task란 모델이 유용한 표현을 학습하기 위해 설정된 임시 과제의 역할을 말합니다. - 이를 활용하는 방법은 아래와 같습니다. * Pretext를 활용해 모델을 사전 학습 시키고, 이렇게 학습된 모델을 활용해 Fine tuing하여 다양한 Down stream task에 이용하는 것입니다. * 이렇게 하면, 레이블이 부족한 또는 하기 어려운 상황에서 다량의 unlabeled된 데이터를 활용해 학습하고, 이를 소량의 label된 데이터에 맞게 fine tuning하여 효율적이면서도 좋은 성능을 낼 수 있게 하는 것입니다... 2024. 11. 15.
[딥러닝 with Python] Self-Supervised Learning(SSL) (1) 이번에는 Self-Supervised Learning에 대해서 알아보겠습니다. 1. Self-supervised Learning- Deep Neural Network는 많은 분야에서 괄목할만한 성과를 거두면서 점차 그 확장가능성을 보여왔지만, 이때 Network의 학습을 위해서는 Label이 달려있는 데이터, 즉 Supervised Learning을 위한 데이터가 많이 필요하다는 문제점이 있었습니다. - 이때 Labeling을 하는 작업은 많은 시간과 돈이 소모되며, 일반인들이 할 수 없는 전문적인 영역(의료 도메인, 생산공정 등)에서는 전문가들이 이러한 Labeling을 해야하다보니 더 많은 어려움이 있었습니다. - 이를 극복하기 위해 탄생한 학습 방법이 Self Supervised Learning(S.. 2024. 11. 14.
[딥러닝 with Python] 디퓨전 모델(Diffusion Model) (4) : Latent Diffusion Models 1. Latent Diffusion Models (LDMs)- Latent Diffusion Models는 이미지 생성에서 효율성과 품질을 모두 고려한 방법을 말합니다.  - 이때 두 가지 주요 학습 단계를 거치게 되는데, "Semantic Compression"과 "Perceptual Comperssion"입니다. 1) Semantic Compression * Semantic Compression은 데이터를 추상적인 형태로 표현하여 그 핵심적인 의미를 인코딩하는 단계로, 원래 이미지가 가지고 있는 맥락이나 구조를 최대한 보존하면서도 세부적인 요소는 생략하는 방식을 말합니다.  * 이 단계에서 이미지의 중요한 특징을 학습하며, 이미지의 전반적인 의미를 유지하는 방향으로 압축을 합니다. 2) Percept.. 2024. 11. 13.
반응형