본문 바로가기
반응형

nlp5

[머신러닝 with Python] Bag of Words란? (BoW) Bag of Words는 텍스트 데이터를 벡터 형태로 변호나하여 머신러닝과 자연어 처리 모델에 사용할 수 있도록 하는 기본적인 텍스트 표현 기법입니다.  간단하면서도 다양한 텍스트 처리 작업에 유용하게 활용되며, 특히 문서 분류, 감성 분석, 정보 검색 등에서 널리쓰이는 방법입니다. 1. Bag of Words란? Bag of Words는 주어진 텍스트에서 단어의 등장 여부 또는 빈도를 기반으로 숫자 벡터를 생성하는 방법입니다. 텍스트 데이터를 정형 데이터로 변환하는 가장 기본적인 방법으로, 텍스트 분석의 입문 단계에서 활용되는 방법입니다.  Bag of Words에서 주요 기본개념은 아래와 같습니다. 1) 어휘(Vocabulary) : 텍스트에 등장하는 고유 단어들의 집합을 말합니다.  2) 벡터화(V.. 2024. 12. 1.
[개념 정리] N-gram이란? N-gram 언어 모델이란? 1. N-gram 언어모델 이란?- N-gram 언어모델은 자연어 처리에서 많이 사용되는 확률 기반 언어 모델을 말합니다. * 언어모델(Language Model, LM)이란, 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측하거나 생성하는 모델을 말함 * 이 언어모델은 크게 a) 확률에 기초한 통계적 언어모델(Statistical Language Model / SLM)과 인공 신경망에 기초한 딥러닝 언어 모델(Deep Neural Network Language Model / DNN LM)으로 나뉩니다. 오늘 알아볼 N-gram은 통계적 언어모델, 즉 SLM의 하나 입니다 - N-gram은 주어진 텍스트에서 단어의 나열을 .. 2024. 7. 27.
[개념 정리] 형태소 분석(Morphological Analysis) 1. 형태소 분석이란?- 형태소 분석은 텍스트를 구성하는 기본 단위인 형태소(morpheme)를 분석하는 과정을 말합니다.- 이때 형태소란, 의미를 가지는 가장 작은 언어 단위로 단어 또는 단어의 일부분 일 수 있습니다.  - 형태소는 크게 자립 형태소와 의존 형태소로 나눌 수 있습니다.1) 자립 형태소 : 단독으로 사용될 수 있는 형태소 * 명사 : 사람, 책, 학교 * 동사 : 먹다, 가다 * 형용사 : 예쁘다, 크다 * 부사 : 빨리, 천천히, 정말 * 감탄사 : 아!, 야!, 우와!2) 의존 형태소 : 혼자서 사용될 수 없고 다른 형태소와 결합해야 의미를 가지는 형태소 * 조사 : 이, 가, 을, 를, 에, 에게 * 어미 : 다, 요, 니, 습니다. 겠, 고 - 예시를 통해서 알아보면  "철수는 .. 2024. 7. 26.
[딥러닝 with Python] LSTM (Long Short Term Memory) [본 포스팅은 "만들면서 배우는 생성 AI 2판"을 참조로 작성했습니다] 이번에 알아볼 모형은 자기회귀 모델의 대표적인 모형인 LSTM입니다. LSTM은 Long Short Term Memory의 줄임말로 기존의 순환 신경망(RNN)이 시퀀스(Sequence)가 긴 데이터에는 잘 맞지 않는다는 문제를 해결하기 위해 등장한 네트워크 입니다. 해당 LSTM은 시계열 예측, 감성 분석, 오디오 분류 등 순차 데이터와 관련된 다양한 문제에 적용되고 있는 여전히 실용성이 높은 모델 중 하나입니다.   LSTM에 대해서 알아보기 전, 텍스트 데이터와 이미지 데이터 간의 차이점에 대해서 알아보도록 하겠습니다.  텍스트 데이터와 이미지 데이터의 차이점 1) 텍스트 데이터는 개별적인 데이터 조각(문자나 단어)으로 구성되.. 2024. 6. 6.
반응형