본문 바로가기
반응형

분류 전체보기313

[딥러닝 with Python] [강화학습] Model Free Control #3. 함수 근사(Function Approximation)와 DQN [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 지난 포스팅까지 우리는 모든 상태-행동의 가치를 테이블에 일일이 저장하고 업데이트하는 방식으로 최적 정책을 찾아왔습니다.[딥러닝 with Python] [강화학습] Model Free Control #2. TD Control: SARSA와 Q-러닝 하지만 상태의 수가 수백만, 수십억 개에 달하는 현실 문제 (예: 바둑, 자율주행)에서는 이런 방식은 계산상 불가능합니다. 이번 포스팅에서는 이 한계를 돌파하기 위한 함수 근사(Function Approximation) 개념을 소개하고, 강화학습과 딥러닝의 성공적인 결합을 알린 .. 2025. 9. 20.
[딥러닝 with Python] [강화학습] Model Free Control #2. TD Control: SARSA와 Q-러닝 [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 지난 포스팅에서는 몬테카를로 제어(MC Control)를 통해 모델 없는 환경에서 최적 정책을 찾는 법을 배웠습니다.[딥러닝 with Python] [강화학습] Model Free Control #1. MC Control과 Exploitation의 딜레마 이때, MC Control은 에피소드가 끝난 뒤에야 학습이 가능하다는 단점이 있었죠. 이번에는 TD(Temporal Difference) 학습의 장점을 제어 문제에 적용해, 한 스텝마다 더 빠르게 배우는 시간차(TD) 제어 알고리즘들을 소개합니다. 특히, 강화학습에서 가장.. 2025. 9. 19.
[딥러닝 with Python] [강화학습] Model Free Control #1. MC Control과 Exploitation의 딜레마 [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 지난 포스팅에서는 환경의 규칙(Model)을 모를 때 정책의 가치를 '평가'하는 방법으로 몬테카를로(MC)와 시간차(TD) 학습을 다루었습니다.[딥러닝 with Python] [강화학습] Model Free #3. MC와 TD 심층 비교 및 배치(Batch) 학습 하지만 우리의 최종 목표는 단순히 정책을 평가하는 것을 넘어, 최고의 정책을 찾아내는 것, 즉 제어(Control)입니다. 이번 포스팅부터는 모델 없는(Model-Free) 환경에서 최적의 정책을 찾아 나서는 방법에 대해서 알아보겠습니다. 그 첫 번째 스텝으로.. 2025. 9. 18.
[딥러닝 with Python] [강화학습] On-Policy vs. Off-Policy 지금까지 강화학습 에이전트가 경험을 통해 정책의 가치를 평가하는 방법(MC, TD)을 배웠습니다. 에이전트는 환경을 돌아다니며 데이터, 즉 경험 (s, a, r, s′) 를 수집하고 이를 바탕으로 학습합니다. 여기서 한 가지 중요한 질문이 생깁니다. "학습에 사용하는 경험 데이터는 누가 만든 것일까?" 에이전트가 현재 자신이 따르는 정책으로 직접 만든 경험으로만 학습해야 할까요? 아니면 과거의 정책이 만들었던 '오래된' 경험이나, 심지어 사람이 직접 플레이한 데이터 같은 '남의' 경험으로도 학습할 수 있을까요? 이 질문에 어떻게 답하느냐에 따라 강화학습 알고리즘은 On-Policy와 Off-Policy라는 두 가지 큰 흐름으로 나뉩니다. 1. On-Policy Learninig On-Policy 학.. 2025. 9. 17.
반응형