본문 바로가기
반응형

전체 글87

[딥러닝 with 파이썬] 코랩에서 한국어용 Mecab 설치하기 이번에는 간단한 코드하나 공유합니다. 한국어 자연어분석을 위해 코랩을 사용하던 중 기존 코드들은 에러가 나서 Mecab을 설치하지 못했습니다. 형태소 분석을 위해 Mecab의 한국어용 버전 설치가 꼭 필요한데, 코랩에서 설치하는 코드를 공유합니다. (Redundant한 부분이 있을수도 있으니 필요없는 부분은 제거해서 이용하시면 되겠습니다 :) ) *깃허브에서 Mecab-ko 의 코랩 버전을 다운받기 !git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git * 코랩으로 디렉토리 변경 cd Mecab-ko-for-Google-Colab * Bash shell을 활용해 mecab-ko를 colab에 설치 !bash install_mecab-ko_.. 2023. 9. 20.
[머신러닝 with Python] 선형회귀(Linear Regression) / 당뇨병(Diabetes) 데이터 활용 / EDA 시각화 포함 이번에는 지난 포스팅에 이어서 선형회귀(Linear Regression)에 대해서 알아보겠습니다. 지난 포스팅에서는 선형회귀의 기본 개념과 예제 데이터를 만들어 파이썬 코딩을 통해, 모델을 구현해보고 이를 시각화 해보았는데요 [머신러닝 with Python] 선형회귀(Linear Regression) / 최소제곱법(Least Square Methods) (1) 이번에는 실제 데이터를 활용해서 선형회귀를 구현해보겠습니다. 분석에 사용될 데이터는 당뇨병(Diabetes) 데이터 이며, 시각화를 위해 단순선형회귀로부터 시작하고 다중 선형회귀로 주어진 데이터를 최대한 활용하여 선형회귀 모델을 만들어 보겠습니다. 1. 당뇨병 데이터(Diabetes) 알아보기 - 해당 데이터의 링크 : https://scikit-.. 2023. 9. 19.
[머신러닝 with Python] 선형회귀(Linear Regression) / 최소제곱법(Least Square Methods) (1) 이번에는 머신러닝의 기본 중 기본인 선형회귀에 대해서 알아보겠습니다. 여기서 "선형"(Linear)은 말 그대로 선의 형태로 결과를 도출함을 의미하며 회귀(Regression)은 특정 상태로 돌아가는 것을 의미합니다. (이는 연어가 다시 태어난 곳으로 돌아가는 것을 회귀라 말하는 것과 큰 범주에서 같은 의미라 보시면 되겠습니다.) 1. 선형회귀(Linear Regression)란? - 선형회귀는 머신러닝과 통계학에서 가장 기본적인 회귀분석 방법 중 하나로, 독립 변수와 종속 변수 간의 관계를 직선의 형태로 나타내는 것을 의미합니다. - 선형 회귀는 독립 변수가 1개인 경우를 단순선형회귀(Simple Linear Regression), 2개 이상인 경우를 다중선형회귀(Multiple)라고 부릅니다. - 이.. 2023. 9. 18.
[머신러닝 with Python] Light GBM 실습 / 신용카드 사기 검출 데이터(Credit Card Fraud) 활용(2) 이번에는 지난 포스팅에 이어서 신용카드 사기 검출 데이터 (Credict Card Fraud Detection Data)를 Light GBM으로 분석해보겠습니다. [머신러닝 with Python] Light GBM 실습 / 신용카드 사기 검출 데이터(Credit Card Fraud) 활용 [머신러닝 with Python] Light GBM 실습 / 신용카드 사기 검출 데이터(Credit Card Fraud) 활용 이번 포스팅에서는 지난번에 알아봤던 Light GBM을 활용해서 실습을 진행해보겠습니다. 지난 포스팅에서는 작은 수의 데이터를 활용했기에 Light GBM의 성능향상을 크게 확인하지는 못했는데요. 이 jaylala.tistory.com 이번 포스팅에서는 지난 포스팅에서 말씀드렸던 것처럼, 1) .. 2023. 9. 17.
[불균형데이터처리] 오버샘플링(Oversampling) / SMOTE 이번에 알아볼 것은 불균형 데이터(Imbalanced Data) 처리에 대해서 알아보겠습니다. 불균형 데이터는 모델 학습에 좋지 않은 영향을 미치게되어 그 모델의 신뢰성을 떨어뜨리곤 하는데요. 그렇다면, 불균형 데이터가 가지고 있는 문제는 무엇이며, 이를 해결하기 위한 방법 중 오버샘플링에 대해서 알아보겠습니다. 추가적으로, 오버샘플링 기법 중 많이 활용되는 SMOTE(Synthetic Miniority Oversampling Technique)에 대해 알아보겠습니다. 1. 불균형 데이터와 불균형 데이터의 문제점 - 불균형 데이터(Imbalanced Data)란, 불균형한 클래스 분포를 가진 데이터셋을 말합니다. - 불균형한 클래스 분포란, 하나의 클래스가 다른 클래스보다 훨씬 더 많은 샘플을 가지고 있.. 2023. 9. 16.
[머신러닝 with Python] Light GBM 실습 / 신용카드 사기 검출 데이터(Credit Card Fraud) 활용 이번 포스팅에서는 지난번에 알아봤던 Light GBM을 활용해서 실습을 진행해보겠습니다. 지난 포스팅에서는 작은 수의 데이터를 활용했기에 Light GBM의 성능향상을 크게 확인하지는 못했는데요. 이번에는 좀 더 큰 데이터를 활용해서 알아보겠습니다. 이번에 사용할 데이터는 Credit Card Fraud Detection (신용카드 사기 검출) 데이터 셋입니다. 1. Credit Card Fraud Detection 데이터 설명 - 해당 데이터는 2013년 9월 유럽 카드 소지자가 신용 카드로 거래한 내역을 포함한 데이터 입니다. - 이 데이터세트는 이틀 동안 발생한 거래를 보여주며, 총 284,807건의 거래 중 492건의 사기 사건 발생을 포함하고 있습니다. * 이는 전체 거래 중 0.172%의 사기.. 2023. 9. 15.
[머신러닝 with Python] 앙상블(Ensemble) 학습 (5) / LightGBM / 유방암(Breast Cancer) 데이터 활용 이번에 알아볼 앙상블 모델은 Light GBM입니다. Light GBM은 XGBoost가 나온 후 등장한 모델로, XGBoost의 장점은 살리고 단점은 보완된 모습이라고 볼 수 있는데요. 그렇지만, 무조건 XGBoost보다 좋다고 할 수는 없으니, 자세한 내용들을 한번 알아봅시다 1. Light GBM이란? - Light GBM이란, Light Gradient Boosting Machine의 약자로 이 역시 GBM(Gradient Boosting Machine)에 기반을 두고 있는 모델입니다. * GBM이란, Boosting 방식 중 약한 학습기를 결합해나가는 방식을 Gradient를 이용해서 모델을 개선하는 방식.(Ada Boost는 데이터에 중요한 데이터에 가중치(Weight)를 주는 방식이라는 점에.. 2023. 9. 14.
[머신러닝 with Python] 앙상블(Ensemble) 학습 (4) / XGBoost 이번에 알아볼 앙상블 학습은 부스팅(Boosting) 기법 중 대표적인 방법인 XGBoost 입니다. XGBoost는 트리 기반의 앙상블 학습에서 가장 각광받고 있는 알고리즘 중 하나입니다. 유명한 캐글 경연 대회(Kaggle Contest)에서 상위를 차지한 많은 데이터 과학자가 XGBoost를 이용하면서 널리 알려졌습니다. 이는, 일반적으로 다른 머신러닝보다 뛰어난 예측 성능을 가지고 있는데요 1. XGBoost란? - XGBoost는 eXtreme Gradient Boosting의 약어로, 머신러닝과 데이터 분석에서 널리 사용되는 강력한 앙상블 학습 방법 중 하나입니다. - 특히, 트리 기반의 앙상블 학습 방법 중 하나로서 그 성능과 효율성으로 유명합니다. - XGBoost는 지난 포스팅에서 알아본.. 2023. 9. 13.
반응형