본문 바로가기
반응형

머신러닝 with Python38

[머신러닝 with Python] Bag of Words란? (BoW) Bag of Words는 텍스트 데이터를 벡터 형태로 변호나하여 머신러닝과 자연어 처리 모델에 사용할 수 있도록 하는 기본적인 텍스트 표현 기법입니다.  간단하면서도 다양한 텍스트 처리 작업에 유용하게 활용되며, 특히 문서 분류, 감성 분석, 정보 검색 등에서 널리쓰이는 방법입니다. 1. Bag of Words란? Bag of Words는 주어진 텍스트에서 단어의 등장 여부 또는 빈도를 기반으로 숫자 벡터를 생성하는 방법입니다. 텍스트 데이터를 정형 데이터로 변환하는 가장 기본적인 방법으로, 텍스트 분석의 입문 단계에서 활용되는 방법입니다.  Bag of Words에서 주요 기본개념은 아래와 같습니다. 1) 어휘(Vocabulary) : 텍스트에 등장하는 고유 단어들의 집합을 말합니다.  2) 벡터화(V.. 2024. 12. 1.
[머신러닝 with Python] TF-IDF를 활용한 Text Regression(텍스트 회귀) - "청와대 국민청원" 데이터 활용 텍스트 데이터를 분석해 추천수와 같은 수치를 예측하는 것은 자연어 처리(NLP)와 회귀 분석이 결합된 분야입니다.  이번 포스팅에서는 지난번에 알아본 TF-IDF를 활용해 청와대 국민청원 데이터셋에서 추천수를 예측하는 방법을 소개하고자 합니다. 1. 프로젝트 목표 및 데이터셋 소개 이번 프로젝트의 목표는 청와대 국민청원 데이터셋 (Korean Petitions) 데이터셋에서 "청원 제목(title)"과 "청원 본문(content)" 텍스트를 분석하여, 추천수를 예측하는 모델을 구현하고자 하는 것입니다.  이를 위해  1) TF-IDF를 활용해 텍스트 데이터를 벡터화하고[머신러닝 with Python] TF-IDF를 활용한 텍스트 분류  2) 직관적인 해석력을 위해 선형 회귀계열 모델들(Linear Reg.. 2024. 11. 30.
[머신러닝 with Python] TF-IDF를 활용한 텍스트 분류 텍스트 데이터 분석에서 TF-IDF(Term Frequency -Inverse Document Frequency)는 단어의 중요도를 측정하는 대표적인 방법 중 하나입니다.  이번에는 TF-IDF의 개념과 이를 활용하여 텍스트를 분류하는 방법에 대해서 알아보겠습니다. 1. TF-IDF란? TF-IDF는 단순한 빈도수 기반의 텍스트 표현 방식인 Bag-of-Words를 개선한 방법으로, 각 단어가 문서와 전체 코퍼스에서 얼마나 중요한지를 측정해 가중치를 부여하는 방법입니다.  이를 통해 자주 등장하지만, 의미가 적은 단어(예를 들어, 조사, 접속사 등)을 걸러내고, 특정 문서에 중요한 단어에 높은 가중치를 부여하게 됩니다.  TF-IDF의 구성요소는 TF(Term Frequency)와 IDF(Inverse .. 2024. 11. 29.
[머신러닝 with Python] 불균형 데이터 처리(4) : ADASYN 활용 이번에 알아볼 불균형 데이터 처리 방법은  ADASYN입니다. 1. ADASYN이란?- ADASYN은 Adaptive Synthetic Sampling Approach for Imbalanced Learning 의 약자로, 불균형한 데이터셋에서 소수 클래스의 데이터를 보강하여 학습 성능을 개선하기 위해 사용되는 오버샘플링 기법을 말합니다. - ADASYN의 주요 특징과 동작 방식은 다음과 같습니다.1) 소수 클래스 샘플의 밀도 계산 * 먼저 각 소수 샘플 XI에 대해, 최당 샘플의 k-nearest neighbor 중 대다수 클래스 샘플의 비율을 측정합니다. 이를 통해 각 샘플이 결정 경계 근처에 위치하는지를 파악합니다. 2) 가중치 분포 계산 * 각 소수 클래스 샘플의 ri 비율을 기반으로, 소수 클래.. 2024. 11. 26.
반응형