본문 바로가기
반응형

전체 글165

[딥러닝 with Python] NCE란?(Noise Contrastive Estimation) NCE는 Noise Contrastive Estimation의 약자로, 머신러닝 및 자연어 처리(NLP)에서 자주 사용되는 확률 밀도 추정 기법을 말합니다.  NCE는 특히 복잡한 확률 분포를 추정하는 과정을 간단히 하고 계산량을 줄이는데 초점을 맞추고 있는데요.   이번편에서는 NCE의 개념과 작동 방식, 그리고 예시를 통해서 보다 심층적으로 이해해보도록 하겠습니다. 1. NCE란?- NCE란, 데이터를 기반으로 한 실제 분포와 노이즈 분포를 구별하도록 학습하는 방법을 말합니다.- 일반적인 확률 모델은 확률 분포 p(x)를 직접적으로 추정하려고 하지만, NCE는 이 분포를 추정하는 대신 실제 분포와 노이즈 분포를 분류하는 이진 분류 문제로 전환하여 계산 및 성능적으로 효율성을 보이는데요 - NCE의 핵.. 2024. 12. 15.
[머신러닝 with Python] TPOT을 활용한 Iris 데이터 분류(AutoML) 이번에는 지난번에 알아본 여러 AutoML 라이브러리 중 TPOT을 활용해 Iris 데이터에 대한 분류를 진행해보고자 합니다. 1. TPOT이란?- TPOT은 자동화된 머신러닝, 즉 AutoML의 도구로, 데이터를 전처리하고 최적의 머신러닝 모델과 하이퍼파라미터를 튜닝할 수 있는 라이브러리입니다. - 자세한 내용은 아래 포스팅을 참조하시면 되겠습니다.[머신러닝 with Python] AutoML이란? (AutoML의 정의, 종류 등) [머신러닝 with Python] AutoML이란? (AutoML의 정의, 종류 등)AutoML은 머신러닝 모델 개발 과정을 자동화하여 효율성을 극대화하는 도구입니다. 모델 선택, 하이퍼파라미터 튜닝, 데이터 전처리 등을 자동으로 처리하기에 머신러닝의 진입 장벽을 낮추어주j.. 2024. 12. 11.
[머신러닝 with Python] 유전 알고리즘이란? TPOT에서 최적화 활용(AutoML) 1. 유전 알고리즘이란?(Genetic Algorithm, GA)- 유전 알고리즘(GA)은 진화론의 자연 선택원리에서 영감을 얻은 최적화 기법으로, 주어진 문제의 최적 해를 탐색할때 활용됩니다.- 이 알고리즘은 생물학적 진화 과정인 유전자 선택, 교차, 변이를 모방하여 작동하며, 복잡한 문제를 해결할 때, 전통적인 방법 대신 유전 알고리즘을 활용 시 효율적으로 최적화를 수행할 수 있습니다.  - 이와 같은 유전 알고리즘을 통해 TPOT에서는 최적 파이프라인 및 하이퍼 파라미터 튜닝을 하고 있는데요[머신러닝 with Python] TPOT을 활용한 Iris 데이터 분류(AutoML)  - 유전 알고리즘의 핵심 개념을 TPOT 알고리즘에서 적용되는 내용과 함께 알아보도록 하겠습니다.1) 개체(Populati.. 2024. 12. 11.
[머신러닝 with Python] AutoML이란? (AutoML의 정의, 종류 등) AutoML은 머신러닝 모델 개발 과정을 자동화하여 효율성을 극대화하는 도구입니다. 모델 선택, 하이퍼파라미터 튜닝, 데이터 전처리 등을 자동으로 처리하기에 머신러닝의 진입 장벽을 낮추어주며, 전문가들에게도 반복적인 작업을 줄여주기에 업무 효율성을 높여주는데요 1. AutoML이란-  AutoML은 머신러닝의 반복적이고 복잡한 작업을 자동화하여 모델 개발 시간을 줄이고, 성능을 최적화하는 기술을 말합니다.- AutoML  도구를 사용하면 아래와 같은 작업들이 자동으로 이루어지게 됩니다. a) 모델 선택 : 데이터에 적합한 알고리즘 탐색 b) 하이퍼파라미터 튜닝 : 성능 향상을 위한 최적의 매개변수 조합 탐색 c) 데이터 전처리 : 결측치 처리, feature selection, scaling 등 d) 성.. 2024. 12. 10.
[딥러닝 with Python] GraphSAGE를 활용한 논문 분류(Node Classification) 이번에는 지난번에 알아본 GNN 중 GraphSAGE 방법을 활용해서 노드 분류(Node Classification)을 진행해보겠습니다. 실습에 활용할 데이터는 Cora 입니다. 1. Cora Dataset 설명 Cora 데이터셋은 그래프 데이터 분석에서 널리 사용되는 표준 데이터 중 하나입니다. 특히, 논문 간의 인용 관계를 나타내는 정보와 함께 그래프 신경망(GNN)을 학습하고 평가하는데 자주 사용됩니다. Cora 데이터셋의 구성은 아래와 같습니다. 1) 노드 : Cora 데이터셋에서의 각 노드는 개별 논문을 의미합니다. 2) 엣지 : 노드 간의 엣지는 논문 간의 인용 관계를 나타냅니다. 예를 들어, 논문 A가 논문 B를 인용했다면 A와 B 사이에 엣지가 존재합니다. 3) 노드 특징(Node Feat.. 2024. 12. 9.
[업무자동화 with Python] PDF Plumber로 PDF 표 추출하기 (실습) 이번에는 실제 자료를 바탕으로 PDF Plumber의 활용성을 알아보겠습니다. 1. 실습 간 활용할 데이터 : 24년 네이버 반기 보고서 이번에 사용할 자료는 네이버의 2024년 반기 사업보고서 입니다.  https://kind.krx.co.kr/common/disclsviewer.do?method=search&acptno=20240318001166 [NAVER] 사업보고서(일반법인)본 문서는 최종문서가 아니므로, 최종 정정문서를 반드시 확인하시기 바랍니다.kind.krx.co.kr 공개된 자료입니다. 위 데이터는 총 442페이지이며 수백개의 표로 구성되어있는 자료 입니다.   2. PDF Plumber를 통해서 표 추출하기  표 추출을 위해서 코랩에서 PDF Plumber를 활용해 보았습니다. [업무자.. 2024. 12. 8.
[딥러닝 with Python] LangGraph란? 1. LangGraph란? LangGraph는 자연어 처리(NLP)와 인공지능(AI) 응용 프로그램 개발을 위한 프레임워크로, 복잡한 언어 모델과 상호작용하면서 데이터를 효율적으로 처리하고 활용할 수 있는 시스템을 제공하고 있습니다. https://www.langchain.com/langgraph LangGraphDeploy your LLM app instantly with LangServe.www.langchain.com Lang Graph의 주요 특징은 아래와 같습니다. 1) 복잡한 언어 모델 통합 - GPT, BERT와 같은 대규모 언어 모델과 손쉽게 통합하여, 언어 모델의 강력한 기능을 활용하 수 있도록 지원 - 여러 모델 간의 상호작용을 효율적으로 관리하여, 응답 생성 및 데이터 분석 2) 다양.. 2024. 12. 7.
[딥러닝 with Python] LSTM을 활용한 회귀 분석 이번 포스팅은 지난번에 알아본 LSTM의 개념을 바탕으로 실습을 해보는 내용입니다. 1. LSTM을 활용한 회귀 분석- LSTM은 RNN의 한 종류로, 시계열 데이터 분석에 효과적인 구조를 가지고 있습니다. LSTM은 시간 의존성이 긴 데이터에서도 중요한 패턴을 학습할 수 있도록 설계되었으며, 회귀 분석에서는 연속적인 값 예측, 주가 분석, 온도 예측 등 다양한 연속형 데이터 문제에 활용될 수 있습니다. - LSTM을 시계열 데이터의 회귀 분석에 활용 시 다음과 같은 장점들이 있습니다. 1) 시간 의존성 학습 : 시계열 데이터에서 이전 시점의 정보를 사용해 현재 시점의 결과를 예측할 수 있습니다. 2) 장기 의존성 해결 : LSTM의 게이트 구조(입력, 망각, 출력 게이트)는 RNN의 단점인 장기 의존성.. 2024. 12. 3.
반응형