본문 바로가기
반응형

분류 전체보기167

[개념정리] 인코딩과 임베딩의 차이(Encoding vs Embedding) 이번에 알아볼 것은  인코딩(Encoding)과 임베딩(Embedding)의 차이 에 대해서 알아보고자 합니다. 인코딩과 임베딩은 둘 다 데이터를 다른 형식으로 변환하는 과정이지만, 그 목적과 방식에 차이가 있습니다. 1. 인코딩(Encoding)1) 인코딩(Encoding) - 인코딩은 데이터를 특정 형식으로 변환하는 과정을 말합니다. - 인코딩의 주요 목적은 데이터를 다른 시스템이나 저장 매체에서 처리할 수 있도록 변환하는 것입니다. - 예를 들어, 텍스트 데이터를 숫자 형식으로 변환하거나, 이진 데이터를 특정 문자셋으로 변환하는 것을 의미합니다. 아래는 대표적인 인코딩의 예시입니다  a) 텍스트 인코딩(UTF-8)  * UTF-8 인코딩은 텍스트 데이터를 바이트 형식으로 변환하는 일반적인 방법을 말.. 2024. 7. 28.
[개념 정리] N-gram이란? N-gram 언어 모델이란? 1. N-gram 언어모델 이란?- N-gram 언어모델은 자연어 처리에서 많이 사용되는 확률 기반 언어 모델을 말합니다. * 언어모델(Language Model, LM)이란, 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측하거나 생성하는 모델을 말함 * 이 언어모델은 크게 a) 확률에 기초한 통계적 언어모델(Statistical Language Model / SLM)과 인공 신경망에 기초한 딥러닝 언어 모델(Deep Neural Network Language Model / DNN LM)으로 나뉩니다. 오늘 알아볼 N-gram은 통계적 언어모델, 즉 SLM의 하나 입니다 - N-gram은 주어진 텍스트에서 단어의 나열을 .. 2024. 7. 27.
[개념 정리] 형태소 분석(Morphological Analysis) 1. 형태소 분석이란?- 형태소 분석은 텍스트를 구성하는 기본 단위인 형태소(morpheme)를 분석하는 과정을 말합니다.- 이때 형태소란, 의미를 가지는 가장 작은 언어 단위로 단어 또는 단어의 일부분 일 수 있습니다.  - 형태소는 크게 자립 형태소와 의존 형태소로 나눌 수 있습니다.1) 자립 형태소 : 단독으로 사용될 수 있는 형태소 * 명사 : 사람, 책, 학교 * 동사 : 먹다, 가다 * 형용사 : 예쁘다, 크다 * 부사 : 빨리, 천천히, 정말 * 감탄사 : 아!, 야!, 우와!2) 의존 형태소 : 혼자서 사용될 수 없고 다른 형태소와 결합해야 의미를 가지는 형태소 * 조사 : 이, 가, 을, 를, 에, 에게 * 어미 : 다, 요, 니, 습니다. 겠, 고 - 예시를 통해서 알아보면  "철수는 .. 2024. 7. 26.
[개념정리] MLE(Maximum Likelihood Estimation)와 MAP(Maximum A Posteriori Estimation) 이번에 알아볼 것은 MLE(Maximum Likelihood Estimation)과 MAP(Maximum A Posteriori Estimaiton) 입니다.  1. MLE (최대우도추정)- MLE는 주어진 데이터가 가장 설명될 수 있는 파라미터 값을 선택하는 것을 말하며, 이때 우도 함수(Likelihood Function)을 최대화하는 파라미터 값을 찾는 것을 말합니다. - MLE는 아래와 같이 3단계로 나누어서 진행됩니다.1) 우도 함수 정의2) 로그 우도 함수  * 계산을 간소화하기 위해 우도 함수의 로그를 취한 로그 우도함수가 자주 사용됩니다. 3) 로그 우도 함수 최대화 * 로그 우도 함수를 최대화하는 파라미터인 theta를 찾습니다.  * 보통 로그 우도 함수의 파라미터인 theta에 대한 .. 2024. 7. 25.
반응형