본문 바로가기
반응형

전체 글165

[머신러닝 with 파이썬] PCA / 주성분 분석 / 차원축소 /iris 데이터 활용 이번에 알아볼 것은 차원축소 알고리즘의 대표적인 PCA(주성분 분석)에 대해서 알아보겠습니다.  Tabular type의 데이터에서 차원을 축소한다는 것은 곧, 변수의 개수(또는 피처의 개수)를 줄인다는 것을 의미하는데요. 너무 많은 피처들이 있을때 이들을 줄이는 것은 어떤 의미이며, 왜 해야되는지 등등에 대해서 PCA를 통해 알아보겠습니다.  1. PCA란- PCA는 Principal Component Analysis의 약자로 주성분 분석으로 불립니다.  - 이는 다차원의 데이터에서 차원을 줄이고 주요 정보를 추출하기 위한 통계적인 방법인데요 * 이때 차원은, 피처(feature) 혹은 변수(variable)의 숫자를 의미합니다.  * 차원이 높다는 것은 피처 혹은 변수가 많다는 것을 의미하며, 이는 .. 2023. 9. 26.
[딥러닝 with 파이썬] GAN (Generative Adversarial Networks) / 생성적 적대 신경망 / MNIST 데이터로 구현 이번에는 GAN, 생성적 적대 신경망에 대해서 알아보겠습니다. 1. GAN이란? - GAN은 Generative Adversarial Network의 약자로, 생성적 적대 신경망으로 불립니다. - 이는 딥러닝을 기반으로 한 모델로서, 이름에서 알 수 있듯이 생성, 즉 기존에 없던 것을 만들어내는 모델입니다. - GAN의 핵심 아이디어 * GAN의 핵심 아이디어는 생성자(Generator)와 구분자(Discriminator)라는 모델을 만들어 서로 경쟁시키는 것입니다. * 생성기는 더 실제와 유사한 데이터를 생성하려고 노력하고, 구분자는 생성기가 생성한 데이터와 실제 데ㅣ터를 구분하려고 노력하는 것입니다. 이러한 경쟁을 통해 생성기는 점차 더 정교한 데이터를 생성하게 되며, 결과적으로 생성된 데이터는 실제.. 2023. 9. 25.
[머신러닝 with 파이썬] Pycaret이란? Pycaret을 활용한 머신러닝 이번에 알아볼 것은 pycaret이라는 라이브러리 입니다. 이 라이브러린는 분석하고자하는 데이터에 대해 머신러닝 기법들을 하나씩 적용해서 비교하는 수고를 덜어버릴 수 있는 유용한 라이브러리 입니다. 이를 통해 더 빠르고 효율적으로 데이터를 분석하고 예측할 수 있습니다. 1. Pycaret이란? - Pycaret이란, Python 기반의 오픈 소스 머신러닝라이브러리 중 하나로, 머신 러닝 모델을 쉽게 구축하고 비교하며, 모델을 최적화하고 평가하는데 도움을 주는 도구입니다. - 이를 활용해서, 데이터 과학자는 최소한의 코드 작성으로 다양한 머신러닝 모델을 탐색하고 최적화해볼 수 있습니다. - Pycaret을 활용해서 머신러닝을 통해 구현되는 a) 분류, b) 회귀, c) 클러스터링, d) 이상치 탐지 등 다.. 2023. 9. 24.
[머신러닝 with 파이썬] 회귀 트리(Regression Tree) 이번에는 회귀 함수를 기반으로 하지 않고 결정 트리와 같이 트리를 기반으로 하는 회귀방식인, 회귀 트리(Regression Tree)에 대해서 알아보겠습니다.  분류에 사용되는 결정 트리에 관한 내용은 아래 포스팅을 참조하시면 도움이 되실 겁니다![머신러닝 with Python] 결정 트리(Decision Tree) (1/2) / 결정트리 시각화(Graphviz 활용) / 붓꽃(iris) 데이터 [머신러닝 with Python] 결정 트리(Decision Tree) (1/2) / 결정트리 시각화(Graphviz 활용) / 붓꽃(iris) 데이터이번에 알아볼 것은 분류(Classification) 모델의 대표격인 결정트리 / 결정나무 (Decision Tree) 입니다. 1. 결정트리 / 결정나무(Deci.. 2023. 9. 23.
[머신러닝 with 파이썬] 로지스틱 회귀(Logistic Regression) 이번에 알아볼 모델은 로지스틱 회귀(Logistic Regression)입니다. 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘을 말합니다. (이때, 회귀가 선형인가 비선형인가 하는 구분은 독립 변수가 아닌, 가중치(Weight) 변수가 선형인지 아닌지를 따릅니다.) 1. 로지스틱 회귀(Logistic Regression)란? - 로지스틱 회귀는 로지스틱 함수(시그모이드(Sigmoid) 함수라고도 불립니다)를 사용하는 알고리즘으로, 분류(Classification) 문제를 다루는데 사용되는 알고리즘 중 하나입니다. * 로지스틱(Logistic) 함수 ( 시그모이드(Sigmoid) 함수 라고도 불립니다)는 아래와 같습니다. * 이 함수에서 e는 자연 로그의 밑(약 2.71828)이며, x는 입력변.. 2023. 9. 22.
[머신러닝 with 파이썬] 경사하강법(Gradient Descent) / 확률적 경사하강법(Stochastic Gradient Descent) 이번에 알아볼 것은 경사 하강법입니다. 경사하강법은 최적의 회귀식을 구하기 위해 사용되는 방법인데요. 선형 회귀의 경우 변수가 많으면 많을수록, 최소제곱법을 통해 최적의 계수(Coefficient)와 절편(Intercept)를 계산하기 시간이 오래 걸리게되는 등 많은 코스트가 발생하게 되는데요. 이를 해결하는 방법 중 하나가 경사하강법입니다. 1. 경사하강법(Gradient Descent)란? - 경사하강법의 사전적인 의미는 '점진적인 하강' 입니다. 이 뜻에서 알 수 있듯이 점진적으로 반복적인 계산을 진행하여 비용함수의 w(Weight)를 최소화 시켜가는 것을 말합니다. (여기서 w는, w0는 y 절편, w1,w2....wp는 xp의 계수를 의미합니다) - 선형회귀 모델에서는 실제 값과 예측값의 차이(.. 2023. 9. 21.
[딥러닝 with 파이썬] 코랩에서 한국어용 Mecab 설치하기 이번에는 간단한 코드하나 공유합니다. 한국어 자연어분석을 위해 코랩을 사용하던 중 기존 코드들은 에러가 나서 Mecab을 설치하지 못했습니다. 형태소 분석을 위해 Mecab의 한국어용 버전 설치가 꼭 필요한데, 코랩에서 설치하는 코드를 공유합니다. (Redundant한 부분이 있을수도 있으니 필요없는 부분은 제거해서 이용하시면 되겠습니다 :) ) *깃허브에서 Mecab-ko 의 코랩 버전을 다운받기 !git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git * 코랩으로 디렉토리 변경 cd Mecab-ko-for-Google-Colab * Bash shell을 활용해 mecab-ko를 colab에 설치 !bash install_mecab-ko_.. 2023. 9. 20.
[머신러닝 with Python] 선형회귀(Linear Regression) / 당뇨병(Diabetes) 데이터 활용 / EDA 시각화 포함 이번에는 지난 포스팅에 이어서 선형회귀(Linear Regression)에 대해서 알아보겠습니다.  지난 포스팅에서는 선형회귀의 기본 개념과 예제 데이터를 만들어 파이썬 코딩을 통해, 모델을 구현해보고 이를 시각화 해보았는데요[머신러닝 with Python] 선형회귀(Linear Regression) / 최소제곱법(Least Square Methods) (1)   이번에는 실제 데이터를 활용해서 선형회귀를 구현해보겠습니다.   분석에 사용될 데이터는 당뇨병(Diabetes) 데이터 이며, 시각화를 위해 단순선형회귀로부터 시작하고 다중 선형회귀로 주어진 데이터를 최대한 활용하여 선형회귀 모델을 만들어 보겠습니다. 1. 당뇨병 데이터(Diabetes) 알아보기- 해당 데이터의 링크 : https://scik.. 2023. 9. 19.
반응형