Research Technical Daily Life Game

Academic Projects Links About Travellings 🚇

Back

Tags: #grpo

Jan 7, 2026

RL笔记（29）：推理模型的崛起 (GRPO & PRM)

大模型训练的新范式：详解 DeepSeek 提出的 GRPO 如何彻底省去 Critic 网络，以及 PRM 如何通过过程监督让模型学会正确推理。

7 min read

© 2026 菊花花 & Site policy Astro theme powered