본문 바로가기

불균형데이터3

[머신러닝 with Python] 불균형 데이터 처리(4) : ADASYN 활용 이번에 알아볼 불균형 데이터 처리 방법은 ADASYN입니다. 1. ADASYN이란?- ADASYN은 Adaptive Synthetic Sampling Approach for Imbalanced Learning 의 약자로, 불균형한 데이터셋에서 소수 클래스의 데이터를 보강하여 학습 성능을 개선하기 위해 사용되는 오버샘플링 기법을 말합니다. - ADASYN의 주요 특징과 동작 방식은 다음과 같습니다.1) 소수 클래스 샘플의 밀도 계산 * 먼저 각 소수 샘플 XI에 대해, 최당 샘플의 k-nearest neighbor 중 대다수 클래스 샘플의 비율을 측정합니다. 이를 통해 각 샘플이 결정 경계 근처에 위치하는지를 파악합니다. 2) 가중치 분포 계산 * 각 소수 클래스 샘플의 ri 비율을 기반으로, 소수 클래.. 2024. 11. 26.

[머신러닝 with Python] 불균형 데이터 처리(3) : TomekLink활용 이번에는 지난번 포스팅에 이어서 불균형 데이터 처리에 대해서 알아보도록 하겠습니다. [머신러닝 with Python] 불균형 데이터 처리(2) : 불균형 클래스 분류 문제 평가지표 이번에 알아볼 것은 TomekLink라는 기법입니다. 1. Tomek Link란?- Tomke Link는 데이터셋의 클래스 불균형을 줄이기 위해 언더샘플링을 하는 방식 중 하나로, 주로 이진 분류(Binary Classification)에서 사용됩니다. - 이는, 이상치나 경계에 위치한 샘플을 제거하여 두 클래스 간의 경계를 더 명확하게 만드는 것인데요 * 두 데이터 포인트 사이의 가까운 쌍을 기반으로 작동하며, 만약 두 포인트 A, B가 서로 다른 클래스에 속하고, 다른 데이터 포인트들보다 서로 더 가까운 경우, 이 두 포인.. 2024. 11. 23.

[머신러닝 with Python] 불균형 데이터 처리(1) : Credit Card Fraud Detection Data에 대해 EDA 이번에는 불균형 데이터 처리에 대표적으로 사용되는 데이터 셋인 Credit Card Fraud Detection Data에 대해서 알아보겠습니다. 1. Credit Card Fraud Detection- 해당 데이터셋은 유럽의 신용카드 소지자들이 2013년 9월 동안 사용한 거래 데이터를 포함하고 있으며, 신용카드 사기 탐지를 위한 머신러닝 모델 학습에 적합하게 설계되어 있는 데이터 입니다. - 데이터 정보 요약 * 기간 : 2일 동안 발생한 거래 데이터 * 사기 거래 건수 : 492건 (전체 284,807건 중 약 0.172%) * 데이터 불균형 : 사기 거래 비율이 0.172%에 불과해 데이터의 클래스가 매우 불균형한 분류 문제를 해결해야 합니다. * 평가지표 : 클래스의 불균형성으로 인해 단순한 A.. 2024. 11. 20.

이전 1 다음

티스토리툴바