[딥러닝 with Python] 논문 리뷰 : DeepSeek-R1

이번에 알아볼 논문은 25년 1월 22일 따끈따끈하게 나와서 큰 파장을 주고 있는

"DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning"

이라는 논문이 되겠습니다.

1. DeepSeek-R1 : 들어가기 전

"DeepSeek-R1"은 강화 학습(Reinforcement Learning, RL)을 통해 대형 언어 모델(LLM)의 추론 능력을 향상시키는 방법론을 제안하고 있습니다. 이 논문은 LLM의 reasoning(추론) 능력을 개선하는 데 있어 RL의 강력한 잠재력을 보여주었습니다.

본격적으로 논문 리뷰를 하기 전에 기존에 LLM을 학습하는 방식인 Self-Supervised Learning 기반 방법과, DeepSeek-R1에서 제안하는 방법에 대해서 간략히 비교해보겠습니다.

1) Self-Supervised Learning(SSL) 기반 학습 방식

- SSL은 대량의 비라벨(unlabeled) 데이터에서 자체적으로 학습 신호를 생성하여 모델을 학습하는 방식입니다. 주로 데이터의 구조를 기반으로 한 예측 문제(Pretext Task)를 통해 학습이 이루어집니다.

- 특징

* 일반화된 학습: 광범위한 데이터 패턴을 학습하여 다목적 사용 가능.
* 라벨이 불필요: 대량의 비라벨 데이터를 활용하여 확장 가능.
* 사전 학습 단계: 주로 특정 태스크에 직접적으로 최적화되기보다는 사전 학습(pretraining)으로 활용됨.
* LLM에서의 적용: SSL은 언어 모델이 방대한 텍스트 데이터를 기반으로 문맥이나 패턴을 이해하도록 학습합니다. 대표적으로, GPT와 같은 모델은 SSL로 사전 학습되며, 이후 특정 태스크에서 미세 조정(fine-tuning)됩니다.
ex) GPT: Pretext Task로 다음 단어 예측(Next Word Prediction)을 사용.
예: "오늘 날씨가 매우" → 모델이 "좋다"를 예측.
BERT: Masked Language Modeling(MLM)을 사용하여 랜덤으로 가린 단어를 예측.
예: "나는 [MASK]에 갔다" → "학교"를 예측.

2) Reinforcement Learning(RL) 기반 학습 방식의 개념
- 강화 학습(RL)은 보상 신호(reward signal)를 활용하여 모델이 특정 작업에서 성능을 최적화하도록 학습하는 방법입니다. 여기서 모델은 환경과 상호작용하며 행동(policy)을 학습하고, 각 행동에 대해 보상을 받아 다음 행동을 더 나은 방향으로 조정합니다.

- 특징

* 목표 지향적: 특정 작업에서 성능을 직접적으로 개선하도록 보상을 설계.
* 데이터 효율성: 적은 데이터로도 보상을 기반으로 학습 가능.
* 지속적 상호작용: 모델이 환경(데이터)과 상호작용하면서 스스로 학습.
* LLM에서의 적용: RL은 모델이 '출력의 품질'을 기준으로 학습하게 만듭니다. 예를 들어, 모델이 논리적으로 일관된 답변을 생성하거나, 수학 문제를 풀 때 정답을 내놓는 경우 높은 보상을 받습니다.

ex) DeepSeek-R1: LLM은 <think> 태그 안에 추론 과정을 작성하며, 답이 정확하면 높은 보상을 받음.
예: "문제: 2x + 5 = 15. <think> 양변에서 5를 뺍니다. x = 5. </think> 답변: 5"에서 정확한 풀이 과정과

답을 보상으로 강화.
ChatGPT: RLHF(Rewarded Learning from Human Feedback)를 활용하여 사람의 피드백에 기반해

모델 출력을 개선. 잘못된 답변(불친절한 응답 등)에 대해 낮은 보상을 부여하며 학습.

LLM을 학습시킬때 이 두가지 학습 방식에 대한 차이를 요약정리해보면 아래표와 같습니다.

특징	RL 기반학습	SSL 기반 학습
목적	특정 태스크(수학, 코딩 등)에서 성능 최적화	광범위한 데이터에서 일반적 언어 패턴 학습
학습 신호	보상(reward)을 기반으로 행동(poliycy) 학습	데이터에서 생성된 예측 문제(Pretext task)로 학습신호 생성
데이터 의존성	적은 양의 고품질 데이터로도 학습 가능	대량의 비라벨 데이터 필요
유연성	특정 작업에 맞게 즉각적으로 학습	태스크에 맞춰 별도로 Fine tuning이 필요
모델 행동의 제어가능성	보상 설계를 통해 모델 출력 품질을 직접적으로 개선 가능	사전 학습 단계에서는 모델의 출력 품질을 간접적으로 제어
예시	ChapGTP(RLHF), AlphaGo, DeepSeek-R1	GPT, BERT, RoBERTa

3) 예시를 통한 LLM 학습 간 RL 방식과 SSL 방식의 차이점 확인

예시 1) 수학 문제 풀이
- RL 기반 학습:
*모델이 수학 문제 풀이 과정을 직접 생성.
* 잘못된 풀이 단계에서 낮은 보상을 받고, 정확한 풀이를 통해 높은 보상을 얻음.
* 결과: 모델이 점차 추론 과정(Chain of Thought)을 학습하여 논리적인 풀이를 생성.

- SSL 기반 학습:
* 대량의 수학 관련 데이터를 기반으로 학습.
* 학습된 모델은 기존 데이터에서 본 패턴에 따라 정답을 예측하지만, 풀이 과정이 명확하지 않을 수 있음.
* 결과: 정답률은 높을 수 있으나, 풀이 단계가 명확하지 않아 추론 능력이 부족.

예시 2) 고객 서비스 챗봇
- RL 기반 학습:
* 고객의 긍정적 피드백이 보상으로 작용. 모델이 친절하고 정확한 응답을 생성하도록 학습.
* 결과: 실시간 상호작용과 피드백을 통해 대화 품질 지속 향상.
- SSL 기반 학습:
* 기존 대화 데이터로부터 문맥 패턴을 학습.
* 결과: 특정한 응답을 잘 생성하지만, 실시간 피드백 반영은 어려움.

2. DeepSeek-R1 : 논문 리뷰

1) DeepSeek-R1
- DeepSeek-R1은 LLM의 추론 능력을 강화하기 위해 혁신적인 접근법을 제안합니다. **자기 지도 학습(Self-Supervised Learning)**이 주로 대량의 비라벨 데이터와 사전 과제를 사용해 일반적인 데이터 패턴을 학습하는 데 초점을 맞춘 반면, **강화 학습(RL)**은 명시적 피드백 신호를 통해 특정 태스크에서의 성능을 직접적으로 최적화합니다. RL은 모델이 작업별 목표(예: 정답 정확성, 논리적 일관성)에 따라 출력을 개선하도록 유도합니다.

2) 주요 내용
- DeepSeek-R1-Zero: RL만을 사용해 학습된 모델로, 감독 학습 데이터를 전혀 사용하지 않음.
- DeepSeek-R1: 다단계 학습과 Cold Start 단계를 통해 추론과 가독성을 개선한 강화형 모델.

이 논문은 Reflection과 Self-Verification 같은 자율 추론 행동을 강화하기 위해 RL을 활용하며, 기존의 데이터 중심 감독 학습 접근법(SSL 등)과 차별화를 두고 있습니다.

3) 주요 Contributions

a) 대규모 RL 후속 학습 : DeepSeek-R1-Zero는 초기 감독 학습 없이 RL을 직접 적용하여 다음과 같은 강력한 추론 패턴을 학습합니다

* 자체 검증(Self-Verification): 출력 결과를 재검토하여 정확성을 평가.
* 반사(Reflection): 이전 추론 단계를 다시 살펴보고 개선.
* 연쇄 추론(Chain-of-Thought, CoT): 문제 해결을 위한 단계별 상세 설명 생성.

b) DeepSeek-R1의 향상된 학습 파이프라인
* DeepSeek-R1은 4단계 학습 파이프라인을 통합합니다:
* Cold Start: 긴 CoT 예제를 포함한 소량의 고품질 데이터로 초기 RL 학습 안정화.
* Reasoning-Oriented RL: 코딩, 수학, 논리 문제 등 특정 태스크를 중심으로 RL 수행.
* Supervised Fine-Tuning(SFT): Rejection Sampling을 활용해 고품질 추론 데이터를 선별.
* Reinforcement Learning for All Scenarios: 다양한 태스크에서 인간 선호도를 반영하도록 최적화.

c) 소형 모델로의 지식 전이(Distillation)
* DeepSeek-R1의 추론 능력은 Qwen 및 Llama 시리즈와 같은 소형 모델로 증류됩니다. 이를 통해 소형 모델에서도 고성능 추론이 가능하며, 확장성과 접근성을 입증합니다.

3) 방법론

- DeepSeek-R1-Zero: 순수 RL 학습
* DeepSeek-R1-Zero는 GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 RL을 적용합니다.
*보상 모델링(Reward Modeling):
정확도 보상(Accuracy Rewards): 규칙 기반 방식으로 정답을 검증.
형식 보상(Format Rewards): 구조화된 추론 프로세스를 준수할 경우 보상.
학습 템플릿(Training Template):
모델이 <think> 태그 안에 추론 과정을 명시적으로 기록하도록 설계.

* 예시 : "방정식의 해를 구하라 : X^2 = 16"

<think> 방정식을 풀기 위해 양변의 제곱근을 취합니다. x = ±4 </think>
답변: ±4

* 성과

AIME 2024 벤치마크에서 RL만으로 Pass@1 정확도가 **15.6% → 71.0%**로 상승.
모델이 스스로 추론 전략을 개발하는 "Aha Moments" 경험.

- Cold Start 및 다단계 학습
* DeepSeek-R1은 초기 RL 학습의 불안정을 해결하기 위해 Cold Start 데이터를 사용합니다
* 고품질 데이터: 명확하고 가독성 높은 추론 예제로 구성.
* Rejection Sampling: 품질이 낮은 데이터를 걸러내고 고품질 데이터를 선택.

4) 실험결과 (벤치마크 대비 성능)

각각의 성능 테스트에서 OpenAI의 GTP 01 series에 대비해서 좋은 성능을 보이고 있음.

- AIME 2024 성능

* RL 학습 후 Pass@1 정확도가 **15.6% → 71.0%**로 상승.
* 추론 과정의 가독성과 정확성이 모두 개선.
- "Aha Moments" 발견
* 모델이 스스로 문제 해결 전략(예: 재검토, 대안 탐색)을 학습하며 전환점(Aha Moments)을 경험.
- Distillation 성능
* Distilled 모델(Qwen-32B)은 Pass@1 성능에서 **72.6%**를 달성하며, 작은 모델에서도 높은 성능을 보임.

저작자표시 비영리 변경금지

'딥러닝 with Python' 카테고리의 다른 글

[개념정리] FLOPS란? FLOPS(Floating Pont Operations Per Second) (0)	2025.02.18
[딥러닝 with Python] GRPO란? (Group Relative Policy Optimization) (0)	2025.01.30
[딥러닝 with Python] NCE란?(Noise Contrastive Estimation) (1)	2024.12.15
[딥러닝 with Python] GraphSAGE를 활용한 논문 분류(Node Classification) (1)	2024.12.09
[딥러닝 with Python] LangGraph란? (0)	2024.12.07