본문 바로가기
반응형

분류 전체보기165

[머신러닝 with Python] LDA란?(Latent Dirichlet Allocation란?) / 토픽 모델링을 위한 기법 이번에는 자연어처리(NLP)에서 토픽 모델링 방법 중 하나인 LDA에 대해서 알아보도록 하겠습니다. 1. LDA란? (Latent Dirichlet Allocation이란?)- LDA란 Latenet Dirichlet Allocation의 약자로, 문서 집합에서 숨겨진 주제(Latent Topic)을 찾아내는데 사용되는 토픽 모델링(Topic Modeling) 기법을 말합니다. - 이는 문서 내 단어들이 특정 주제에 속해있으며, 문서들이 여러 주제를 혼합한 형태로 구성된다는 확률적 가정에 기반하고 있습니다.- 이러한 LDA는 검색엔진 최적화(SEO), 콘텐츠 분석, 추천 시스템, 그리고 문서 요약과 같은 분야에서 널리 활용되고 있는 방법입니다.  - LDA에 핵심 메커니즘은 아래와 같이 요약해볼 수 있습.. 2024. 12. 2.
[머신러닝 with Python] Bag of Words란? (BoW) Bag of Words는 텍스트 데이터를 벡터 형태로 변호나하여 머신러닝과 자연어 처리 모델에 사용할 수 있도록 하는 기본적인 텍스트 표현 기법입니다.  간단하면서도 다양한 텍스트 처리 작업에 유용하게 활용되며, 특히 문서 분류, 감성 분석, 정보 검색 등에서 널리쓰이는 방법입니다. 1. Bag of Words란? Bag of Words는 주어진 텍스트에서 단어의 등장 여부 또는 빈도를 기반으로 숫자 벡터를 생성하는 방법입니다. 텍스트 데이터를 정형 데이터로 변환하는 가장 기본적인 방법으로, 텍스트 분석의 입문 단계에서 활용되는 방법입니다.  Bag of Words에서 주요 기본개념은 아래와 같습니다. 1) 어휘(Vocabulary) : 텍스트에 등장하는 고유 단어들의 집합을 말합니다.  2) 벡터화(V.. 2024. 12. 1.
[머신러닝 with Python] TF-IDF를 활용한 Text Regression(텍스트 회귀) - "청와대 국민청원" 데이터 활용 텍스트 데이터를 분석해 추천수와 같은 수치를 예측하는 것은 자연어 처리(NLP)와 회귀 분석이 결합된 분야입니다.  이번 포스팅에서는 지난번에 알아본 TF-IDF를 활용해 청와대 국민청원 데이터셋에서 추천수를 예측하는 방법을 소개하고자 합니다. 1. 프로젝트 목표 및 데이터셋 소개 이번 프로젝트의 목표는 청와대 국민청원 데이터셋 (Korean Petitions) 데이터셋에서 "청원 제목(title)"과 "청원 본문(content)" 텍스트를 분석하여, 추천수를 예측하는 모델을 구현하고자 하는 것입니다.  이를 위해  1) TF-IDF를 활용해 텍스트 데이터를 벡터화하고[머신러닝 with Python] TF-IDF를 활용한 텍스트 분류  2) 직관적인 해석력을 위해 선형 회귀계열 모델들(Linear Reg.. 2024. 11. 30.
[머신러닝 with Python] TF-IDF를 활용한 텍스트 분류 텍스트 데이터 분석에서 TF-IDF(Term Frequency -Inverse Document Frequency)는 단어의 중요도를 측정하는 대표적인 방법 중 하나입니다.  이번에는 TF-IDF의 개념과 이를 활용하여 텍스트를 분류하는 방법에 대해서 알아보겠습니다. 1. TF-IDF란? TF-IDF는 단순한 빈도수 기반의 텍스트 표현 방식인 Bag-of-Words를 개선한 방법으로, 각 단어가 문서와 전체 코퍼스에서 얼마나 중요한지를 측정해 가중치를 부여하는 방법입니다.  이를 통해 자주 등장하지만, 의미가 적은 단어(예를 들어, 조사, 접속사 등)을 걸러내고, 특정 문서에 중요한 단어에 높은 가중치를 부여하게 됩니다.  TF-IDF의 구성요소는 TF(Term Frequency)와 IDF(Inverse .. 2024. 11. 29.
반응형