본문 바로가기
반응형

불균형데이터처리3

[머신러닝 with Python] 불균형 데이터 처리(4) : ADASYN 활용 이번에 알아볼 불균형 데이터 처리 방법은  ADASYN입니다. 1. ADASYN이란?- ADASYN은 Adaptive Synthetic Sampling Approach for Imbalanced Learning 의 약자로, 불균형한 데이터셋에서 소수 클래스의 데이터를 보강하여 학습 성능을 개선하기 위해 사용되는 오버샘플링 기법을 말합니다. - ADASYN의 주요 특징과 동작 방식은 다음과 같습니다.1) 소수 클래스 샘플의 밀도 계산 * 먼저 각 소수 샘플 XI에 대해, 최당 샘플의 k-nearest neighbor 중 대다수 클래스 샘플의 비율을 측정합니다. 이를 통해 각 샘플이 결정 경계 근처에 위치하는지를 파악합니다. 2) 가중치 분포 계산 * 각 소수 클래스 샘플의 ri 비율을 기반으로, 소수 클래.. 2024. 11. 26.
[머신러닝 with Python] 불균형 데이터 처리(1) : Credit Card Fraud Detection Data에 대해 EDA 이번에는 불균형 데이터 처리에 대표적으로 사용되는 데이터 셋인 Credit Card Fraud Detection Data에 대해서 알아보겠습니다. 1. Credit Card Fraud Detection- 해당 데이터셋은 유럽의 신용카드 소지자들이 2013년 9월 동안 사용한 거래 데이터를 포함하고 있으며, 신용카드 사기 탐지를 위한 머신러닝 모델 학습에 적합하게 설계되어 있는 데이터 입니다. - 데이터 정보 요약 * 기간 : 2일 동안 발생한 거래 데이터 * 사기 거래 건수 : 492건 (전체 284,807건 중 약 0.172%) * 데이터 불균형 : 사기 거래 비율이 0.172%에 불과해 데이터의 클래스가 매우 불균형한 분류 문제를 해결해야 합니다. * 평가지표 : 클래스의 불균형성으로 인해 단순한 A.. 2024. 11. 20.
[불균형데이터처리] 오버샘플링(Oversampling) / SMOTE 이번에 알아볼 것은 불균형 데이터(Imbalanced Data) 처리에 대해서 알아보겠습니다. 불균형 데이터는 모델 학습에 좋지 않은 영향을 미치게되어 그 모델의 신뢰성을 떨어뜨리곤 하는데요. 그렇다면, 불균형 데이터가 가지고 있는 문제는 무엇이며, 이를 해결하기 위한 방법 중 오버샘플링에 대해서 알아보겠습니다. 추가적으로, 오버샘플링 기법 중 많이 활용되는 SMOTE(Synthetic Miniority Oversampling Technique)에 대해 알아보겠습니다. 1. 불균형 데이터와 불균형 데이터의 문제점- 불균형 데이터(Imbalanced Data)란, 불균형한 클래스 분포를 가진 데이터셋을 말합니다. - 불균형한 클래스 분포란, 하나의 클래스가 다른 클래스보다 훨씬 더 많은 샘플을 가지고 있는.. 2023. 9. 16.
반응형