반응형 RLHF1 [딥러닝 with Python] DPO(Direct Preference Optimization)와 RLHF(Reinforcement Learning with Human Feedback) 이번에는 DPO(Direct Preference Optimization)와 RLHF(Reinforcement Learning with Human Feedback)에 대해서 알아보고자 합니다. 둘 다 LLM의 성능 향상을 위해 사용자의 선호도(Preference)에 맞게 최적화하는 기법을 의미하지만 차이가 존재하는데요 각각 어떤 것들이며, 차이점이 무엇인지에 대해서 알아보도록 하겠습니다. 1. RLHF(Reinforcement Learning with Human Feedback)와 DPO(Direct Preference Optimization)(1) RLHF - RLHF는 강화학습을 활용해서 사람이 선호하는 응답을 생성하도록 AI 모델을 훈련하는 방법을 말합니다.- 이 방식은 ChatGPT, Claud.. 2025. 2. 22. 이전 1 다음 반응형