반응형 ppo2 [딥러닝 with Python] DPO(Direct Preference Optimization)와 RLHF(Reinforcement Learning with Human Feedback) 이번에는 DPO(Direct Preference Optimization)와 RLHF(Reinforcement Learning with Human Feedback)에 대해서 알아보고자 합니다. 둘 다 LLM의 성능 향상을 위해 사용자의 선호도(Preference)에 맞게 최적화하는 기법을 의미하지만 차이가 존재하는데요 각각 어떤 것들이며, 차이점이 무엇인지에 대해서 알아보도록 하겠습니다. 1. RLHF(Reinforcement Learning with Human Feedback)와 DPO(Direct Preference Optimization)(1) RLHF - RLHF는 강화학습을 활용해서 사람이 선호하는 응답을 생성하도록 AI 모델을 훈련하는 방법을 말합니다.- 이 방식은 ChatGPT, Claud.. 2025. 2. 22. [딥러닝 with Python] GRPO란? (Group Relative Policy Optimization) 오늘 알아볼 것은 GRPO(Group Relative Policy Optimization)입니다. 1. GRPO란?- Group Relative Policy Optimization(GRPO)는 강화학습(Reinforcement Learning, RL)에서 정책 최적화(Policy Optimization)를 수행할 때, 기존의 Proximal Policy Optimization(PPO)과 달리,상대적인 그룹 기준(Group-relative criterion)**을 활용하여 안정적인 학습을 유도하는 방법입니다. - 이는 정책(policy)의 업데이트를 더 효과적으로 제어하고, 불필요한 정책 변화(excessive policy shifts)를 방지하며, 샘플 효율성(sample efficiency)을 향상시키.. 2025. 1. 30. 이전 1 다음 반응형