본문 바로가기
반응형

머신러닝8

[머신러닝 with Python] 상점 신용카드 매출 예측 (DACON 문제) (1/2) 이번에는 DACON에서 진행되었던 "상점 신용카드 매출 예측" 문제를 해결해가며, 머신러닝 기법을 익혀보도록 하겠습니다.  1. 문제 소개- 해당 대회는 2019년 7월 11일부터 10월 21일까지 이어진 대회입니다. - 해당 대회는 2016년 6월 1일부터 2019년 2월 28일까지의 카드 거래 데이터를 이용해 2019년 3월 1일부터 5월 31일까지의 각 상점별 3개월의 총 매출을 예측하는 문제입니다. * 이때 중요한 것은 3,4,5월이라는 것이며, 새 학기, 새 출발을 의미하는 월들이기에 여러 변수가 발생하고 황사 등 봄철 날씨의 영향을 받을 수 있으며, 가정의 달인 5월이 포함되어 있다는 것도 중요한 변수입니다.  - 문제 유형은 시계열 회귀분석이며, 평가 척도는 MAE(Mean Absolute .. 2024. 6. 10.
[불균형데이터처리] 오버샘플링(Oversampling) / SMOTE 이번에 알아볼 것은 불균형 데이터(Imbalanced Data) 처리에 대해서 알아보겠습니다. 불균형 데이터는 모델 학습에 좋지 않은 영향을 미치게되어 그 모델의 신뢰성을 떨어뜨리곤 하는데요. 그렇다면, 불균형 데이터가 가지고 있는 문제는 무엇이며, 이를 해결하기 위한 방법 중 오버샘플링에 대해서 알아보겠습니다. 추가적으로, 오버샘플링 기법 중 많이 활용되는 SMOTE(Synthetic Miniority Oversampling Technique)에 대해 알아보겠습니다. 1. 불균형 데이터와 불균형 데이터의 문제점 - 불균형 데이터(Imbalanced Data)란, 불균형한 클래스 분포를 가진 데이터셋을 말합니다. - 불균형한 클래스 분포란, 하나의 클래스가 다른 클래스보다 훨씬 더 많은 샘플을 가지고 있.. 2023. 9. 16.
[머신러닝 with Python] 앙상블(Ensemble) 학습 (5) / LightGBM / 유방암(Breast Cancer) 데이터 활용 이번에 알아볼 앙상블 모델은 Light GBM입니다. Light GBM은 XGBoost가 나온 후 등장한 모델로, XGBoost의 장점은 살리고 단점은 보완된 모습이라고 볼 수 있는데요. 그렇지만, 무조건 XGBoost보다 좋다고 할 수는 없으니, 자세한 내용들을 한번 알아봅시다 1. Light GBM이란? - Light GBM이란, Light Gradient Boosting Machine의 약자로 이 역시 GBM(Gradient Boosting Machine)에 기반을 두고 있는 모델입니다. * GBM이란, Boosting 방식 중 약한 학습기를 결합해나가는 방식을 Gradient를 이용해서 모델을 개선하는 방식.(Ada Boost는 데이터에 중요한 데이터에 가중치(Weight)를 주는 방식이라는 점에.. 2023. 9. 14.
[머신러닝 with Python] 앙상블(Ensemble) 학습 (3) / 부스팅(Boosting) / GBM 이번 시간에는 지난 시간에 이어서 앙상블(Ensemble) 기법에 대해서 알아보겠습니다. 이번에 알아볼 것은 부스팅 기법에 대해서 알아보겠습니다. 부스팅에도 여러 기법이 존재하지만, 이번 시간에는 가장 기본이 되는 GBM(Gradient Boosting Machine)에 대해서 알아보겠습니다. 1. 부스팅(Boosting)이란? - 부스팅이란, 여러 개의 약한 학습기(Weak Learner)를 순차적으로 학습 - 예측 하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식을 말합니다. - 부스팅의 초창기 모델은 에이다부스트(AdaBoost)입니다. 이는, 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 대표적인 알고리즘을 말합니다. 위 그림을 설명하면 아래와 같습니다. .. 2023. 9. 12.
반응형