본문 바로가기
반응형

전체 글165

[개념 정리] 형태소 분석(Morphological Analysis) 1. 형태소 분석이란?- 형태소 분석은 텍스트를 구성하는 기본 단위인 형태소(morpheme)를 분석하는 과정을 말합니다.- 이때 형태소란, 의미를 가지는 가장 작은 언어 단위로 단어 또는 단어의 일부분 일 수 있습니다.  - 형태소는 크게 자립 형태소와 의존 형태소로 나눌 수 있습니다.1) 자립 형태소 : 단독으로 사용될 수 있는 형태소 * 명사 : 사람, 책, 학교 * 동사 : 먹다, 가다 * 형용사 : 예쁘다, 크다 * 부사 : 빨리, 천천히, 정말 * 감탄사 : 아!, 야!, 우와!2) 의존 형태소 : 혼자서 사용될 수 없고 다른 형태소와 결합해야 의미를 가지는 형태소 * 조사 : 이, 가, 을, 를, 에, 에게 * 어미 : 다, 요, 니, 습니다. 겠, 고 - 예시를 통해서 알아보면  "철수는 .. 2024. 7. 26.
[개념정리] MLE(Maximum Likelihood Estimation)와 MAP(Maximum A Posteriori Estimation) 이번에 알아볼 것은 MLE(Maximum Likelihood Estimation)과 MAP(Maximum A Posteriori Estimaiton) 입니다.  1. MLE (최대우도추정)- MLE는 주어진 데이터가 가장 설명될 수 있는 파라미터 값을 선택하는 것을 말하며, 이때 우도 함수(Likelihood Function)을 최대화하는 파라미터 값을 찾는 것을 말합니다. - MLE는 아래와 같이 3단계로 나누어서 진행됩니다.1) 우도 함수 정의2) 로그 우도 함수  * 계산을 간소화하기 위해 우도 함수의 로그를 취한 로그 우도함수가 자주 사용됩니다. 3) 로그 우도 함수 최대화 * 로그 우도 함수를 최대화하는 파라미터인 theta를 찾습니다.  * 보통 로그 우도 함수의 파라미터인 theta에 대한 .. 2024. 7. 25.
[딥러닝 with Python] Multiple Instance Learning을 활용한 이미지 분류[개념 정리] [해당 포스팅은 https://keras.io/examples/vision/attention_mil_classification/을 참조하였습니다] 이번에 알아볼 내용은 Multiple Instance Learning을 활용하여 이미지를 분류하는 작업에 대해서 알아보겠습니다. 1. Multiple Instance Learning이란?- Multiple Instance Learning이란, 전통적인 지도학습방식과는 다른 방식으로 레이블이 되어있는 학습데이터를 분할하여 개별 인스턴스를 만들고 그 인스턴스를 활용하는 방식입니다. * 일반적인 지도학습은, 학습 데이터인 개별 인스턴스에 대해 레이블을 가지고 있습니다. 예를 들어, 개별 인스턴스를 개나 고양이 등 각 사진 1장을 의미하고, 그 사진 1장에 대한 이름.. 2024. 7. 23.
[딥러닝 with Python] Vision Transformer를 활용한 이미지 분류 이번에는 간단한 비전 트랜스포머 코드를 활용해 CIFAR-100 Dataset에 대한 분류를 해보겠습니다. Vision Transformer에 대한 이론적인 내용은 아래 포스팅을 참조 바랍니다. [개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (1/2) [개념 정리] 비전 트랜스포머 / Vision Transformer(ViT) (1/2)이번에 알아보 내용은 Vision Transformer입니다. 해당 모델은 "An Image is worth 16x16 words: Transformers for image recognition at scale" 이라는 논문에서 등장했습니다. 해당 논문은 2021년 ICLR에서 발표된 이후, 많은jaylala.tistory.com[개념 정리].. 2024. 7. 23.
[딥러닝 with Python] KL Divergence Loss란? 이번에 알아볼 것은 KL Divergence Loss 입니다.  1. KL Divergence란?- KL Divergence는 Kullback-Leibler Divergence의 줄임말로, 두 확률 분포간의 차이를 측정하는 비대칭적인 척도를 의미합니다.* 여기서 비대칭성이란, 두 확률분포 P와 Q의 순서를 바꾸어서 KL Divergence를 계산하면 다른 결과가 나올 수 있다는 것을 의미합니다. - 이는 주로 모델이 예측한 분포와 실제 분포간의 차이를 측정하는데 사용됩니다. - KL Divergence 계산식은 다음과 같습니다 1) 두 이산형 확률 분포 P와 Q의 KL Divergence 2) 두 연속형 확률 분포의 P와 Q의 KL Divergence  - KL Divergence의 특징1) 비대칭성 :.. 2024. 7. 22.
[머신러닝 with Python] t-SNE란? (차원축소, 시각화) 이번에 알아볼 내용은 차원축소를 통해 고차원의 데이터의 시각화를 할때 많이 사용하는 t-SNE 입니다. 1. t-SNE란?- t-SNE는 t-distributed Stochastic Neighbor Embedding의 약자로, 고차원 데이터를 저차원 공간으로 시각화하기 위해 사용되는 비선형 차원축소 기법입니다.- 이는 데이터의 클러스터링이나 구조적 관계를 시각적으로 이해하는데 유용한 방법입니다. - t-SNE의 주요 작동 원리는 다음과 같습니다.1)  고차원 데이터에서의 유사성 계산 * 고차원 공간에서 데이터 포인트 간의 유사성은 아래와 같은 조건부 확률 로 표현되며, 이는 데이터 포인트i 가 데이터 포인트 j를 선택할 확률을 의미합니다. (이 확률은 가우시안 분포를 기반으로 계산됩니다) * 이때 포인트.. 2024. 7. 8.
[웹크롤링 with Python] 페이지에서 원하는 정보들 추출하기 / GlobalFirePower 사이트 정보 추출해보기 이번에는 지난 번에 알아본 정보들을 바탕으로 페이지 내에 있는 특정 정보들에 대해서 크롤링하고 데이터프레임으로 정리해보는 시간을 가져보도록 하겠습니다.  오늘 크롤링을 해 볼 사이트는  GlobalFirePower 입니다.해당 사이트는 2006년부터 매년 본인들의 기준으로 세계 각국의 군사력 지수를 산정하여 발표하는 사이트인데요 최근에는 군사력지수 뿐만 아니라 이를 계산할때 사용했던 제반적인 정보들까지 제공하기에 여러 유용한 정보들이 국가별로 잘 정리되어있다고 볼 수 있겠습니다.  이번에 크롤링 해볼 페이지는 아래와 같습니다. https://www.globalfirepower.com/countries-listing.php 2024 Military Strength RankingRanking the nati.. 2024. 6. 15.
[딥러닝 with Python] 이미지 분류(Image Classification) Computer Vision의 기본인 이미지 분류부터 다시 기본을 잡아가고자 합니다.  이번에는 이미지 분류(Image Classification)에 대해서 알아보겠습니다. 이번에 사용할 데이터는 Kaggle에 있는 Cats vs Dogs binary classifciation dataset 입니다. 이미지 전처리 및 간단한 신경망 구현을 코드와 함께 알아보겠습니다. 먼저 사용할 기본 라이브러리를 임포트 해줍니다.import osimport numpy as npimport kerasfrom keras import layersfrom tensorflow import data as tf_dataimport matplotlib.pyplot as plt 다음은 raw data를 다운로드 받아줍니다.!curl -.. 2024. 6. 14.
반응형