본문 바로가기
반응형

머신러닝9

[머신러닝 with Python] 불균형 데이터 처리(3) : TomekLink활용 이번에는 지난번 포스팅에 이어서 불균형 데이터 처리에 대해서 알아보도록 하겠습니다. [머신러닝 with Python] 불균형 데이터 처리(2) : 불균형 클래스 분류 문제 평가지표 이번에 알아볼 것은 TomekLink라는 기법입니다. 1. Tomek Link란?- Tomke Link는 데이터셋의 클래스 불균형을 줄이기 위해 언더샘플링을 하는 방식 중 하나로, 주로 이진 분류(Binary Classification)에서 사용됩니다. - 이는, 이상치나 경계에 위치한 샘플을 제거하여 두 클래스 간의 경계를 더 명확하게 만드는 것인데요 * 두 데이터 포인트 사이의 가까운 쌍을 기반으로 작동하며, 만약 두 포인트 A, B가 서로 다른 클래스에 속하고, 다른 데이터 포인트들보다 서로 더 가까운 경우, 이 두 포인.. 2024. 11. 23.
[머신러닝 with Python] 상점 신용카드 매출 예측 (DACON 문제) (1/2) 이번에는 DACON에서 진행되었던 "상점 신용카드 매출 예측" 문제를 해결해가며, 머신러닝 기법을 익혀보도록 하겠습니다.  1. 문제 소개- 해당 대회는 2019년 7월 11일부터 10월 21일까지 이어진 대회입니다. - 해당 대회는 2016년 6월 1일부터 2019년 2월 28일까지의 카드 거래 데이터를 이용해 2019년 3월 1일부터 5월 31일까지의 각 상점별 3개월의 총 매출을 예측하는 문제입니다. * 이때 중요한 것은 3,4,5월이라는 것이며, 새 학기, 새 출발을 의미하는 월들이기에 여러 변수가 발생하고 황사 등 봄철 날씨의 영향을 받을 수 있으며, 가정의 달인 5월이 포함되어 있다는 것도 중요한 변수입니다.  - 문제 유형은 시계열 회귀분석이며, 평가 척도는 MAE(Mean Absolute .. 2024. 6. 10.
[불균형데이터처리] 오버샘플링(Oversampling) / SMOTE 이번에 알아볼 것은 불균형 데이터(Imbalanced Data) 처리에 대해서 알아보겠습니다. 불균형 데이터는 모델 학습에 좋지 않은 영향을 미치게되어 그 모델의 신뢰성을 떨어뜨리곤 하는데요. 그렇다면, 불균형 데이터가 가지고 있는 문제는 무엇이며, 이를 해결하기 위한 방법 중 오버샘플링에 대해서 알아보겠습니다. 추가적으로, 오버샘플링 기법 중 많이 활용되는 SMOTE(Synthetic Miniority Oversampling Technique)에 대해 알아보겠습니다. 1. 불균형 데이터와 불균형 데이터의 문제점- 불균형 데이터(Imbalanced Data)란, 불균형한 클래스 분포를 가진 데이터셋을 말합니다. - 불균형한 클래스 분포란, 하나의 클래스가 다른 클래스보다 훨씬 더 많은 샘플을 가지고 있는.. 2023. 9. 16.
[머신러닝 with Python] 앙상블(Ensemble) 학습 (5) / LightGBM / 유방암(Breast Cancer) 데이터 활용 이번에 알아볼 앙상블 모델은 Light GBM입니다. Light GBM은 XGBoost가 나온 후 등장한 모델로, XGBoost의 장점은 살리고 단점은 보완된 모습이라고 볼 수 있는데요. 그렇지만, 무조건 XGBoost보다 좋다고 할 수는 없으니, 자세한 내용들을 한번 알아봅시다 1. Light GBM이란? - Light GBM이란, Light Gradient Boosting Machine의 약자로 이 역시 GBM(Gradient Boosting Machine)에 기반을 두고 있는 모델입니다. * GBM이란, Boosting 방식 중 약한 학습기를 결합해나가는 방식을 Gradient를 이용해서 모델을 개선하는 방식.(Ada Boost는 데이터에 중요한 데이터에 가중치(Weight)를 주는 방식이라는 점에.. 2023. 9. 14.
반응형