본문 바로가기

TF2

[머신러닝 with Python] TF-IDF를 활용한 Text Regression(텍스트 회귀) - "청와대 국민청원" 데이터 활용 텍스트 데이터를 분석해 추천수와 같은 수치를 예측하는 것은 자연어 처리(NLP)와 회귀 분석이 결합된 분야입니다. 이번 포스팅에서는 지난번에 알아본 TF-IDF를 활용해 청와대 국민청원 데이터셋에서 추천수를 예측하는 방법을 소개하고자 합니다. 1. 프로젝트 목표 및 데이터셋 소개 이번 프로젝트의 목표는 청와대 국민청원 데이터셋 (Korean Petitions) 데이터셋에서 "청원 제목(title)"과 "청원 본문(content)" 텍스트를 분석하여, 추천수를 예측하는 모델을 구현하고자 하는 것입니다. 이를 위해 1) TF-IDF를 활용해 텍스트 데이터를 벡터화하고[머신러닝 with Python] TF-IDF를 활용한 텍스트 분류 2) 직관적인 해석력을 위해 선형 회귀계열 모델들(Linear Reg.. 2024. 11. 30.

[머신러닝 with Python] TF-IDF를 활용한 텍스트 분류 텍스트 데이터 분석에서 TF-IDF(Term Frequency -Inverse Document Frequency)는 단어의 중요도를 측정하는 대표적인 방법 중 하나입니다. 이번에는 TF-IDF의 개념과 이를 활용하여 텍스트를 분류하는 방법에 대해서 알아보겠습니다. 1. TF-IDF란? TF-IDF는 단순한 빈도수 기반의 텍스트 표현 방식인 Bag-of-Words를 개선한 방법으로, 각 단어가 문서와 전체 코퍼스에서 얼마나 중요한지를 측정해 가중치를 부여하는 방법입니다. 이를 통해 자주 등장하지만, 의미가 적은 단어(예를 들어, 조사, 접속사 등)을 걸러내고, 특정 문서에 중요한 단어에 높은 가중치를 부여하게 됩니다. TF-IDF의 구성요소는 TF(Term Frequency)와 IDF(Inverse .. 2024. 11. 29.

이전 1 다음

티스토리툴바