반응형 Credit Card Fraud Detection3 [머신러닝 with Python] 불균형 데이터 처리(4) : ADASYN 활용 이번에 알아볼 불균형 데이터 처리 방법은 ADASYN입니다. 1. ADASYN이란?- ADASYN은 Adaptive Synthetic Sampling Approach for Imbalanced Learning 의 약자로, 불균형한 데이터셋에서 소수 클래스의 데이터를 보강하여 학습 성능을 개선하기 위해 사용되는 오버샘플링 기법을 말합니다. - ADASYN의 주요 특징과 동작 방식은 다음과 같습니다.1) 소수 클래스 샘플의 밀도 계산 * 먼저 각 소수 샘플 XI에 대해, 최당 샘플의 k-nearest neighbor 중 대다수 클래스 샘플의 비율을 측정합니다. 이를 통해 각 샘플이 결정 경계 근처에 위치하는지를 파악합니다. 2) 가중치 분포 계산 * 각 소수 클래스 샘플의 ri 비율을 기반으로, 소수 클래.. 2024. 11. 26. [머신러닝 with Python] 불균형 데이터 처리(1) : Credit Card Fraud Detection Data에 대해 EDA 이번에는 불균형 데이터 처리에 대표적으로 사용되는 데이터 셋인 Credit Card Fraud Detection Data에 대해서 알아보겠습니다. 1. Credit Card Fraud Detection- 해당 데이터셋은 유럽의 신용카드 소지자들이 2013년 9월 동안 사용한 거래 데이터를 포함하고 있으며, 신용카드 사기 탐지를 위한 머신러닝 모델 학습에 적합하게 설계되어 있는 데이터 입니다. - 데이터 정보 요약 * 기간 : 2일 동안 발생한 거래 데이터 * 사기 거래 건수 : 492건 (전체 284,807건 중 약 0.172%) * 데이터 불균형 : 사기 거래 비율이 0.172%에 불과해 데이터의 클래스가 매우 불균형한 분류 문제를 해결해야 합니다. * 평가지표 : 클래스의 불균형성으로 인해 단순한 A.. 2024. 11. 20. [머신러닝 with Python] Light GBM 실습 / 신용카드 사기 검출 데이터(Credit Card Fraud) 활용 이번 포스팅에서는 지난번에 알아봤던 Light GBM을 활용해서 실습을 진행해보겠습니다. 지난 포스팅에서는 작은 수의 데이터를 활용했기에 Light GBM의 성능향상을 크게 확인하지는 못했는데요. 이번에는 좀 더 큰 데이터를 활용해서 알아보겠습니다. 이번에 사용할 데이터는 Credit Card Fraud Detection (신용카드 사기 검출) 데이터 셋입니다. 1. Credit Card Fraud Detection 데이터 설명 - 해당 데이터는 2013년 9월 유럽 카드 소지자가 신용 카드로 거래한 내역을 포함한 데이터 입니다. - 이 데이터세트는 이틀 동안 발생한 거래를 보여주며, 총 284,807건의 거래 중 492건의 사기 사건 발생을 포함하고 있습니다. * 이는 전체 거래 중 0.172%의 사기.. 2023. 9. 15. 이전 1 다음 반응형