본문 바로가기
반응형

분류 전체보기167

[딥러닝 with Python] GRPO란? (Group Relative Policy Optimization) 오늘 알아볼 것은 GRPO(Group Relative Policy Optimization)입니다. 1. GRPO란?- Group Relative Policy Optimization(GRPO)는 강화학습(Reinforcement Learning, RL)에서 정책 최적화(Policy Optimization)를 수행할 때, 기존의 Proximal Policy Optimization(PPO)과 달리,상대적인 그룹 기준(Group-relative criterion)**을 활용하여 안정적인 학습을 유도하는 방법입니다. - 이는 정책(policy)의 업데이트를 더 효과적으로 제어하고, 불필요한 정책 변화(excessive policy shifts)를 방지하며, 샘플 효율성(sample efficiency)을 향상시키.. 2025. 1. 30.
[딥러닝 with Python] 논문 리뷰 : DeepSeek-R1 이번에 알아볼 논문은 25년 1월 22일 따끈따끈하게 나와서 큰 파장을 주고 있는 "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" 이라는 논문이 되겠습니다.   1. DeepSeek-R1 : 들어가기 전 "DeepSeek-R1"은 강화 학습(Reinforcement Learning, RL)을 통해 대형 언어 모델(LLM)의 추론 능력을 향상시키는 방법론을 제안하고 있습니다. 이 논문은 LLM의 reasoning(추론) 능력을 개선하는 데 있어 RL의 강력한 잠재력을 보여주었습니다. 본격적으로 논문 리뷰를 하기 전에 기존에 LLM을 학습하는 방식인 Self-Supervised Learning 기반 방법과.. 2025. 1. 28.
[딥러닝 with Python] NCE란?(Noise Contrastive Estimation) NCE는 Noise Contrastive Estimation의 약자로, 머신러닝 및 자연어 처리(NLP)에서 자주 사용되는 확률 밀도 추정 기법을 말합니다.  NCE는 특히 복잡한 확률 분포를 추정하는 과정을 간단히 하고 계산량을 줄이는데 초점을 맞추고 있는데요.   이번편에서는 NCE의 개념과 작동 방식, 그리고 예시를 통해서 보다 심층적으로 이해해보도록 하겠습니다. 1. NCE란?- NCE란, 데이터를 기반으로 한 실제 분포와 노이즈 분포를 구별하도록 학습하는 방법을 말합니다.- 일반적인 확률 모델은 확률 분포 p(x)를 직접적으로 추정하려고 하지만, NCE는 이 분포를 추정하는 대신 실제 분포와 노이즈 분포를 분류하는 이진 분류 문제로 전환하여 계산 및 성능적으로 효율성을 보이는데요 - NCE의 핵.. 2024. 12. 15.
[머신러닝 with Python] TPOT을 활용한 Iris 데이터 분류(AutoML) 이번에는 지난번에 알아본 여러 AutoML 라이브러리 중 TPOT을 활용해 Iris 데이터에 대한 분류를 진행해보고자 합니다. 1. TPOT이란?- TPOT은 자동화된 머신러닝, 즉 AutoML의 도구로, 데이터를 전처리하고 최적의 머신러닝 모델과 하이퍼파라미터를 튜닝할 수 있는 라이브러리입니다. - 자세한 내용은 아래 포스팅을 참조하시면 되겠습니다.[머신러닝 with Python] AutoML이란? (AutoML의 정의, 종류 등) [머신러닝 with Python] AutoML이란? (AutoML의 정의, 종류 등)AutoML은 머신러닝 모델 개발 과정을 자동화하여 효율성을 극대화하는 도구입니다. 모델 선택, 하이퍼파라미터 튜닝, 데이터 전처리 등을 자동으로 처리하기에 머신러닝의 진입 장벽을 낮추어주j.. 2024. 12. 11.
반응형