반응형 Montecarlo1 [딥러닝 with Python] [강화학습] Model Free #1. 몬테카를로 (Monte Carlo) 예측 (경험으로 배우기) [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 이전 포스팅에서 다룬 동적 계획법(Dynamic Programming)은 환경에 대한 완벽한 지도(모델)가 있을 때 최적 정책을 찾는 강력한 방법이었습니다. 하지만 현실 세계는 어떨까요? 우리는 보통 게임의 규칙이나 자율주행차가 마주할 모든 상황의 확률을 미리 알지 못합니다.[딥러닝 with Python] [강화학습] Model Free 강화학습: 몬테카를로(Monte Carlo) 학습과 시간차(Temporal Difference) 학습 이처럼 환경에 대한 사전 지식, 즉 모델이 없을 때(Model-Free) 에이전트는 어.. 2025. 9. 14. 이전 1 다음 반응형