본문 바로가기
반응형

전체 글313

[딥러닝 with Python] [강화학습] Model Free Control #3. 함수 근사(Function Approximation)와 DQN [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 지난 포스팅까지 우리는 모든 상태-행동의 가치를 테이블에 일일이 저장하고 업데이트하는 방식으로 최적 정책을 찾아왔습니다.[딥러닝 with Python] [강화학습] Model Free Control #2. TD Control: SARSA와 Q-러닝 하지만 상태의 수가 수백만, 수십억 개에 달하는 현실 문제 (예: 바둑, 자율주행)에서는 이런 방식은 계산상 불가능합니다. 이번 포스팅에서는 이 한계를 돌파하기 위한 함수 근사(Function Approximation) 개념을 소개하고, 강화학습과 딥러닝의 성공적인 결합을 알린 .. 2025. 9. 20.
[딥러닝 with Python] [강화학습] Model Free Control #2. TD Control: SARSA와 Q-러닝 [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 지난 포스팅에서는 몬테카를로 제어(MC Control)를 통해 모델 없는 환경에서 최적 정책을 찾는 법을 배웠습니다.[딥러닝 with Python] [강화학습] Model Free Control #1. MC Control과 Exploitation의 딜레마 이때, MC Control은 에피소드가 끝난 뒤에야 학습이 가능하다는 단점이 있었죠. 이번에는 TD(Temporal Difference) 학습의 장점을 제어 문제에 적용해, 한 스텝마다 더 빠르게 배우는 시간차(TD) 제어 알고리즘들을 소개합니다. 특히, 강화학습에서 가장.. 2025. 9. 19.
[딥러닝 with Python] [강화학습] Model Free Control #1. MC Control과 Exploitation의 딜레마 [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 지난 포스팅에서는 환경의 규칙(Model)을 모를 때 정책의 가치를 '평가'하는 방법으로 몬테카를로(MC)와 시간차(TD) 학습을 다루었습니다.[딥러닝 with Python] [강화학습] Model Free #3. MC와 TD 심층 비교 및 배치(Batch) 학습 하지만 우리의 최종 목표는 단순히 정책을 평가하는 것을 넘어, 최고의 정책을 찾아내는 것, 즉 제어(Control)입니다. 이번 포스팅부터는 모델 없는(Model-Free) 환경에서 최적의 정책을 찾아 나서는 방법에 대해서 알아보겠습니다. 그 첫 번째 스텝으로.. 2025. 9. 18.
[딥러닝 with Python] [강화학습] On-Policy vs. Off-Policy 지금까지 강화학습 에이전트가 경험을 통해 정책의 가치를 평가하는 방법(MC, TD)을 배웠습니다. 에이전트는 환경을 돌아다니며 데이터, 즉 경험 (s, a, r, s′) 를 수집하고 이를 바탕으로 학습합니다. 여기서 한 가지 중요한 질문이 생깁니다. "학습에 사용하는 경험 데이터는 누가 만든 것일까?" 에이전트가 현재 자신이 따르는 정책으로 직접 만든 경험으로만 학습해야 할까요? 아니면 과거의 정책이 만들었던 '오래된' 경험이나, 심지어 사람이 직접 플레이한 데이터 같은 '남의' 경험으로도 학습할 수 있을까요? 이 질문에 어떻게 답하느냐에 따라 강화학습 알고리즘은 On-Policy와 Off-Policy라는 두 가지 큰 흐름으로 나뉩니다. 1. On-Policy Learninig On-Policy 학.. 2025. 9. 17.
[딥러닝 with Python] [강화학습] Model Free #3. MC와 TD 심층 비교 및 배치(Batch) 학습 [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 지난 두 포스팅에 걸쳐 우리는 모델-프리 정책 평가의 두 핵심 축인 몬테카를로(MC)와 시간차(TD) 학습을 살펴보았습니다. MC는 에피소드가 끝난 뒤의 '실제 경험'을, TD는 매 순간의 '추정된 예측'을 바탕으로 학습했습니다.[딥러닝 with Python] [강화학습] Model Free #1. 몬테카를로 (Monte Carlo) 예측 (경험으로 배우기)[딥러닝 with Python] [강화학습] Model Free #2. Temporal Difference (한 스텝마다 배우기) 이번 마지막 시리즈에서는 이 둘을 배.. 2025. 9. 16.
[딥러닝 with Python] [강화학습] Model Free #2. Temporal Difference (한 스텝마다 배우기) [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 지난 포스팅에서는 모델-프리 예측 방법인 몬테카를로(MC) 학습을 배웠습니다. MC는 에피소드가 끝난 후 얻어지는 실제 반환값(return)을 통해 학습하는 직관적인 방법이었습니다. 하지만 에피소드가 끝날 때까지 기다려야 한다는 점, 그리고 종료되지 않는 연속적인(continuous) 문제에는 적용하기 어렵다는 단점이 있었죠. [딥러닝 with Python] [강화학습] Model Free #1. 몬테카를로 (Monte Carlo) 예측 (경험으로 배우기) 만약 강화학습의 핵심 아이디어를 단 하나만 꼽으라면, 바로 이번에 다.. 2025. 9. 15.
[딥러닝 with Python] [강화학습] Model Free #1. 몬테카를로 (Monte Carlo) 예측 (경험으로 배우기) [해당 포스팅은 Stanford University CS234 강의 "Reinforcement Learning" (http://cs234.stanford.edu)를 참조했습니다.] 이전 포스팅에서 다룬 동적 계획법(Dynamic Programming)은 환경에 대한 완벽한 지도(모델)가 있을 때 최적 정책을 찾는 강력한 방법이었습니다. 하지만 현실 세계는 어떨까요? 우리는 보통 게임의 규칙이나 자율주행차가 마주할 모든 상황의 확률을 미리 알지 못합니다.[딥러닝 with Python] [강화학습] Model Free 강화학습: 몬테카를로(Monte Carlo) 학습과 시간차(Temporal Difference) 학습 이처럼 환경에 대한 사전 지식, 즉 모델이 없을 때(Model-Free) 에이전트는 어.. 2025. 9. 14.
[개념 정리] 부트스트래핑(Bootstrapping) 의미 비교: 통계 vs 강화학습 1. 부트스트래핑(Bootstrapping)이란? 부트스트래핑(Bootstrapping)이라는 단어는 본래 "자신의 부츠 끈을 당겨 스스로를 들어올린다"라는 비유에서 나온 용어입니다. 공통 핵심은 현재 가지고 있는 정보나 데이터로부터 스스로 개선해 나간다는 아이디어입니다. 하지만 통계와 강화학습(RL)에서는 그 의미와 적용 방식이 다릅니다. 2. 통계에서의 부트스트래핑1) 개념- 주어진 표본 데이터에서 다시 표본을 뽑아(resampling) 통계량의 분포를 추정하는 기법입니다.- 표본이 하나밖에 없어도, 중복을 허용한 무작위 재추출을 통해 여러 "가상 표본"을 만들어 통계적 불확실성을 추정합니다. (복원추출) 2) 수식 예시 3) 특징- 데이터 기반 불확실성을 추정- 데이터의 분포를 몰라도 통계량의 .. 2025. 9. 12.
반응형