본문 바로가기
반응형

자연어처리4

[개념 정리] N-gram이란? N-gram 언어 모델이란? 1. N-gram 언어모델 이란?- N-gram 언어모델은 자연어 처리에서 많이 사용되는 확률 기반 언어 모델을 말합니다. * 언어모델(Language Model, LM)이란, 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측하거나 생성하는 모델을 말함 * 이 언어모델은 크게 a) 확률에 기초한 통계적 언어모델(Statistical Language Model / SLM)과 인공 신경망에 기초한 딥러닝 언어 모델(Deep Neural Network Language Model / DNN LM)으로 나뉩니다. 오늘 알아볼 N-gram은 통계적 언어모델, 즉 SLM의 하나 입니다 - N-gram은 주어진 텍스트에서 단어의 나열을 .. 2024. 7. 27.
[개념 정리] 형태소 분석(Morphological Analysis) 1. 형태소 분석이란?- 형태소 분석은 텍스트를 구성하는 기본 단위인 형태소(morpheme)를 분석하는 과정을 말합니다.- 이때 형태소란, 의미를 가지는 가장 작은 언어 단위로 단어 또는 단어의 일부분 일 수 있습니다.  - 형태소는 크게 자립 형태소와 의존 형태소로 나눌 수 있습니다.1) 자립 형태소 : 단독으로 사용될 수 있는 형태소 * 명사 : 사람, 책, 학교 * 동사 : 먹다, 가다 * 형용사 : 예쁘다, 크다 * 부사 : 빨리, 천천히, 정말 * 감탄사 : 아!, 야!, 우와!2) 의존 형태소 : 혼자서 사용될 수 없고 다른 형태소와 결합해야 의미를 가지는 형태소 * 조사 : 이, 가, 을, 를, 에, 에게 * 어미 : 다, 요, 니, 습니다. 겠, 고 - 예시를 통해서 알아보면  "철수는 .. 2024. 7. 26.
[개념정리] 어텐션(Attention)이란 1. 어텐션(Attention)이란 - 어텐션 메커니즘의 기본 아이디어는 입력 시퀀스(Input sequence)에서 각 단어에 대한 '중요도'를 계산하여, 그 중요도에 기반해 출력 시퀀스(Output Sequence)를 생성하는 것입니다. 이를 통해 모델은 입력 시퀀스의 특정 부분에 주목(Attention) 할 수 있는 것입니다. - 이것을 Encoder - Decoder의 관점으로 본다면, Decoder에서 출력값을 예측하는 시점마다 Encoder에서의 전체 입력값을 다시 한번 참고하는 것을 말합니다. - 이 어텐션 메커니즘은 기존 자연어 처리에서 RNN 기반의 Encoder 와 Deocder 구조간의 정보 전달간, Hidden State의 전달이 원활하지 않았음에서 도출되었는데요. 아래 그림은 RN.. 2024. 2. 12.
[딥러닝 with 파이썬] 코랩에서 한국어용 Mecab 설치하기 이번에는 간단한 코드하나 공유합니다. 한국어 자연어분석을 위해 코랩을 사용하던 중 기존 코드들은 에러가 나서 Mecab을 설치하지 못했습니다. 형태소 분석을 위해 Mecab의 한국어용 버전 설치가 꼭 필요한데, 코랩에서 설치하는 코드를 공유합니다. (Redundant한 부분이 있을수도 있으니 필요없는 부분은 제거해서 이용하시면 되겠습니다 :) ) *깃허브에서 Mecab-ko 의 코랩 버전을 다운받기 !git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git * 코랩으로 디렉토리 변경 cd Mecab-ko-for-Google-Colab * Bash shell을 활용해 mecab-ko를 colab에 설치 !bash install_mecab-ko_.. 2023. 9. 20.
반응형