본문 바로가기
반응형

머신러닝 with Python25

[머신러닝 with Python] Light GBM 실습 / 신용카드 사기 검출 데이터(Credit Card Fraud) 활용(2) 이번에는 지난 포스팅에 이어서 신용카드 사기 검출 데이터 (Credict Card Fraud Detection Data)를 Light GBM으로 분석해보겠습니다. [머신러닝 with Python] Light GBM 실습 / 신용카드 사기 검출 데이터(Credit Card Fraud) 활용 [머신러닝 with Python] Light GBM 실습 / 신용카드 사기 검출 데이터(Credit Card Fraud) 활용 이번 포스팅에서는 지난번에 알아봤던 Light GBM을 활용해서 실습을 진행해보겠습니다. 지난 포스팅에서는 작은 수의 데이터를 활용했기에 Light GBM의 성능향상을 크게 확인하지는 못했는데요. 이 jaylala.tistory.com 이번 포스팅에서는 지난 포스팅에서 말씀드렸던 것처럼, 1) .. 2023. 9. 17.
[불균형데이터처리] 오버샘플링(Oversampling) / SMOTE 이번에 알아볼 것은 불균형 데이터(Imbalanced Data) 처리에 대해서 알아보겠습니다. 불균형 데이터는 모델 학습에 좋지 않은 영향을 미치게되어 그 모델의 신뢰성을 떨어뜨리곤 하는데요. 그렇다면, 불균형 데이터가 가지고 있는 문제는 무엇이며, 이를 해결하기 위한 방법 중 오버샘플링에 대해서 알아보겠습니다. 추가적으로, 오버샘플링 기법 중 많이 활용되는 SMOTE(Synthetic Miniority Oversampling Technique)에 대해 알아보겠습니다. 1. 불균형 데이터와 불균형 데이터의 문제점 - 불균형 데이터(Imbalanced Data)란, 불균형한 클래스 분포를 가진 데이터셋을 말합니다. - 불균형한 클래스 분포란, 하나의 클래스가 다른 클래스보다 훨씬 더 많은 샘플을 가지고 있.. 2023. 9. 16.
[머신러닝 with Python] Light GBM 실습 / 신용카드 사기 검출 데이터(Credit Card Fraud) 활용 이번 포스팅에서는 지난번에 알아봤던 Light GBM을 활용해서 실습을 진행해보겠습니다. 지난 포스팅에서는 작은 수의 데이터를 활용했기에 Light GBM의 성능향상을 크게 확인하지는 못했는데요. 이번에는 좀 더 큰 데이터를 활용해서 알아보겠습니다. 이번에 사용할 데이터는 Credit Card Fraud Detection (신용카드 사기 검출) 데이터 셋입니다. 1. Credit Card Fraud Detection 데이터 설명 - 해당 데이터는 2013년 9월 유럽 카드 소지자가 신용 카드로 거래한 내역을 포함한 데이터 입니다. - 이 데이터세트는 이틀 동안 발생한 거래를 보여주며, 총 284,807건의 거래 중 492건의 사기 사건 발생을 포함하고 있습니다. * 이는 전체 거래 중 0.172%의 사기.. 2023. 9. 15.
[머신러닝 with Python] 앙상블(Ensemble) 학습 (5) / LightGBM / 유방암(Breast Cancer) 데이터 활용 이번에 알아볼 앙상블 모델은 Light GBM입니다. Light GBM은 XGBoost가 나온 후 등장한 모델로, XGBoost의 장점은 살리고 단점은 보완된 모습이라고 볼 수 있는데요. 그렇지만, 무조건 XGBoost보다 좋다고 할 수는 없으니, 자세한 내용들을 한번 알아봅시다 1. Light GBM이란? - Light GBM이란, Light Gradient Boosting Machine의 약자로 이 역시 GBM(Gradient Boosting Machine)에 기반을 두고 있는 모델입니다. * GBM이란, Boosting 방식 중 약한 학습기를 결합해나가는 방식을 Gradient를 이용해서 모델을 개선하는 방식.(Ada Boost는 데이터에 중요한 데이터에 가중치(Weight)를 주는 방식이라는 점에.. 2023. 9. 14.
반응형