반응형 MDP1 [딥러닝 with Python] [강화학습] 강화학습의 핵심, 벨만 방정식 [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 이전 포스팅에서는 에이전트의 '행동'이 배제된 채, 상태가 확률적으로 변하며 보상이 주어지는 마르코프 보상 과정(MRP)에 대해서 알아보았습니다.[딥러닝 with Python] [강화학습] 강화학습의 기본: MDP와 벨만 방정식 MRP의 가치 함수와 벨만 방정식을 통해 우리는 특정 상태가 미래에 얼마나 가치 있을지 계산할 수 있었습니다. 하지만 강화학습의 진정한 묘미는 에이전트가 주어진 상황에서 어떤 '정책(Policy)'을 가지고 최적의 '행동(Action)'을 선택하는 과정에 있습니다. 이번 포스팅에서는 MRP에 행.. 2025. 9. 9. 이전 1 다음 반응형