Hana's Blog
Blog
Research
Technical
Daily Life
Game
Academic
Projects
Links
About
Travellings
🚇
Search
切换到English
中文
Dark Theme
Menu
Back
Tags:
#grpo
Jan 7, 2026
RL笔记(29):推理模型的崛起 (GRPO & PRM)
大模型训练的新范式:详解 DeepSeek 提出的 GRPO 如何彻底省去 Critic 网络,以及 PRM 如何通过过程监督让模型学会正确推理。
7 min read
强化学习
rl笔记
grpo