반응형 EDA2 [머신러닝 with Python] 불균형 데이터 처리(1) : Credit Card Fraud Detection Data에 대해 EDA 이번에는 불균형 데이터 처리에 대표적으로 사용되는 데이터 셋인 Credit Card Fraud Detection Data에 대해서 알아보겠습니다. 1. Credit Card Fraud Detection- 해당 데이터셋은 유럽의 신용카드 소지자들이 2013년 9월 동안 사용한 거래 데이터를 포함하고 있으며, 신용카드 사기 탐지를 위한 머신러닝 모델 학습에 적합하게 설계되어 있는 데이터 입니다. - 데이터 정보 요약 * 기간 : 2일 동안 발생한 거래 데이터 * 사기 거래 건수 : 492건 (전체 284,807건 중 약 0.172%) * 데이터 불균형 : 사기 거래 비율이 0.172%에 불과해 데이터의 클래스가 매우 불균형한 분류 문제를 해결해야 합니다. * 평가지표 : 클래스의 불균형성으로 인해 단순한 A.. 2024. 11. 20. [머신러닝 with Python] 선형회귀(Linear Regression) / 당뇨병(Diabetes) 데이터 활용 / EDA 시각화 포함 이번에는 지난 포스팅에 이어서 선형회귀(Linear Regression)에 대해서 알아보겠습니다. 지난 포스팅에서는 선형회귀의 기본 개념과 예제 데이터를 만들어 파이썬 코딩을 통해, 모델을 구현해보고 이를 시각화 해보았는데요[머신러닝 with Python] 선형회귀(Linear Regression) / 최소제곱법(Least Square Methods) (1) 이번에는 실제 데이터를 활용해서 선형회귀를 구현해보겠습니다. 분석에 사용될 데이터는 당뇨병(Diabetes) 데이터 이며, 시각화를 위해 단순선형회귀로부터 시작하고 다중 선형회귀로 주어진 데이터를 최대한 활용하여 선형회귀 모델을 만들어 보겠습니다. 1. 당뇨병 데이터(Diabetes) 알아보기- 해당 데이터의 링크 : https://scik.. 2023. 9. 19. 이전 1 다음 반응형