오랜만에 굉장히 설레는 논문 포스팅인 것 같다. 이 논문 이전에는 아무래도 미국 빅테크들의 LLM들만 주목받았었다면, DeepSeek가 R1을 공개하고 나서는 중국의 LLM 연구가 우수하다는 것을 전 세계에 알린 기점이 되었다고 생각한다. 실제로 엔비디아와 같은 주식이 폭락하기도 했고, 나 역시도 이 소식을 듣고 "진짜 중국이 이 정도로...?" 하면서 출시 당시 논문을 슬쩍 보기도 했었다. 실제로 순수 RL을 이용한 LLM incentivization은, 당시 RLHF가 최신 트렌드였던 업계에서 breakthrough가 되었다고 생각할 뿐만 아니라 강화학습의 활용성에 대해서도 다시 생각해보게 된 계기가 되었던 것 같다. 다들 참 대단하다. 나도 저런 연구자가 되고 싶다..ㅠ

Main Contribution
Group Relative Policy Optimization (GRPO): A novel Reinforcement Learning (RL) algorithm that enhances mathematical reasoning while reducing memory usage by eliminating the critic (value) model required in PPO.
High Performance through Knowledge Distillation: Reasoning patterns distilled from DeepSeek-R1 applied to smaller models like Qwen 1.5B, LLama 8B shows high performence with less resources.
논문의 구성 자체가 GRPO를 apply한 DeepSeek-R1-Zero에 대해서 소개해주고, 여기서 발생하는 가독성이나 혼합된 언어와 같은 문제점들에 대해서 추가적으로 조정 및 학습을 시켜준 DeepSeek-R1의 소개, 그리고 DeepSeek-R1의 추론 패턴을 증류하여 소규모 모델에 적용한 결과를 소개하는 순서로 되어있다.
Group Relative Policy Optimization (GRPO)
이 논문의 하이라이트라고 생각한다. 저자들의 설명을 한 번 보자.

보면 without any supervised data에 하이라이트가 되어있는데, 이는 RLHF 방법론을 이야기하는 것이다. 딥시크 이전만 해도 RLHF 방식이 LLM에서 지배적이었는데, 이제는 Human feedback을 생략하고도 성능을 내는 방식이 나온 것이다.
이제 어떤 방법론인지를 볼 것인데, PPO에 대한 이해가 대략적으로 되어있다고 가정하도록 하겠다. 알다시피 PPO는 Advantage를 쓰는데, 여기서 Critic network가 필요하다. 문제는 이 critic이 이 정도 크기쯤 되면 Policy network와 비슷하게 커진다는 것이다. GRPO는 이 Advantage 계산 과정에서 Critic을 빼버리고 group score-based baseline 들을 사용하여 advantage를 estimate 한 다는 것이 중요 요지이다.

PPO를 보면, Advantage를 Value model을 이용해서 estimate 하는데,

GRPO는 위의 그림에서 볼 수 있듯이 value model을 없애버린 것이다.
실제 수식을 들여다보자.

(1) 수식을 보면, 앞에 G가 있다. 하나의 policy에서 G개의 output을 내고, 이걸 그룹으로 묶어서 생각한다. 예를 들면 하나의 prompt에 대해 G번의 stochastic sampling을 하는 것이다.
나머지는 PPO와 동일하다. 처음에 나오는 importance ratio 부분 (old policy와의 비교), 그리고 뒤에 trust region의 epsilon을 hyperparam으로 한 clipping 부분, 그리고 KL divergence의 regularization term까지이다.
중요하게 봐야할 것은 (3)의 Advantage 계산 부분이다.

advantage가 양수로 나온다는 것은 그 그룹의 평균보다 결과가 좋다는 것이고, 음수로 나온다는 것은 그 그룹의 평균보다 결과가 나쁘다는 뜻이다. 당연히 평균보다 높은 친구들을 우대해주는게 맞고, 이런식으로 baseline을, 따로 value model 없이 순수하게 내재적으로 구하는 것이 포인트이다.
Performance

재미있는 부분은 강화학습만으로 모델이 자연적으로 추론 능력의 향상을 보인다는 것이다. Step이 올라가면서 평균 응답 길이가 늘어나는데, 이는 생각하는 시간이 길어진다는 뜻이다. 따로 추론에 대한 설계를 하지 않았음에도 불구하고 이러한 emerging ability를 보인다는 것은 흥미로운 부분이다.
DeepSeek-R1
처음에 말했듯이, DeepSeek-R1-Zero에서는 가독성 문제와 언어 혼용 문제가 있었다. 그래서 가독성을 위한 cold start data (형식이 보기 편한 형식으로 정해져 있다), 추론 정확도와 언어 일관성에 보상을 주는 추가적인 대규모 강화학습, fine-tuning, 그리고 마지막으로 답변의 위해성 등에 대한 대규모 강화학습 처리를 해준 것이 바로 DeepSeek-R1이다.
1) Cold Start (SFT bootstrap): They first fine-tune the base model on a small, high-quality set of long chain-of-thought (CoT) demonstrations to avoid the unstable early phase of pure RL and to make outputs more readable. The cold-start data is collected via prompting strategies (few-shot long-CoT, reflection/verification prompting, reformatting R1-Zero outputs) plus human post-processing, and filtered to enforce a consistent, user-friendly format with an explicit final summary (e.g., special-token-delimited CoT followed by a summary).
2) Reasoning-oriented RL (plus language consistency reward): Starting from the cold-start model, they run large-scale RL focused on reasoning-intensive tasks (math, code, science, logic) where correctness is well-defined. They observed RL could cause language-mixed CoT, so they add a language-consistency reward (fraction of target-language words in the CoT) and combine it with the task-accuracy reward by summation, prioritizing readability/alignment even if it slightly hurts peak task performance.
3) Rejection Sampling + Large SFT (data expansion and cleanup): After reasoning-RL converges, they use the resulting checkpoint to generate a much larger supervised dataset for the next training round. For reasoning prompts, they sample multiple solutions and keep only correct ones (rejection sampling), expanding beyond purely rule-graded tasks by using a model-based judging signal for some items, while filtering unreadable trajectories (mixed language, messy long text, code blocks); this yields about 600k reasoning samples. They then add about 200k non-reasoning samples (writing, factual QA, translation, self-cognition) largely via the DeepSeek-V3 pipeline and reuse of prior SFT data, and fine-tune the base model for two epochs on the combined ~800k dataset.
4) RL for All Scenarios (final alignment): They run a second RL stage to align the model broadly across real user scenarios—improving helpfulness and harmlessness while retaining strong reasoning. For reasoning prompts they continue to use rule-based rewards; for general prompts they rely on reward models reflecting human preferences. Helpfulness is judged primarily on the final summary to avoid disrupting the underlying reasoning process, while harmlessness is judged on the entire output (reasoning + summary) to catch risky or biased content.
Distillation

Table 5에서 볼 수 있듯이, 단순히 DeepSeek-R1에서 distillation을 한 모델들도 non-reasoning GPT 모델의 성능을 한참 앞지르는 것을 볼 수 있다. 이는 distillation의 잠재성을 충분히 보여주는 결과라고 할 수 있고, 특히 이 distilled model에 RL을 수행하는 것이 더욱 더 성능을 올릴 수 있는 방식이라고 한다.
Conclusion
말도 많고 논란도 많은 DeepSeek의 논문이었다. 하지만 이걸 처음 봤을 때 다시 한 번 강화학습의 중요성을 느꼈던, 그리고 확실히 AI 분야에서는 Cross-Domain적인 요소들이 매우 많다는 것을 느꼈던 것 같다. RLHF가 mainstream인 판에서 GRPO로 업계의 standard를 차지한 부분이 대단하다고 생각하며, 리뷰를 마친다.
'LLM' 카테고리의 다른 글
| [NeurIPS] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (1) | 2026.01.04 |
|---|---|
| [OpenAI 2020] Scaling Laws for Neural Language Models (0) | 2026.01.03 |