Hana's Blog
Blog
Research
Technical
Daily Life
Game
Academic
Projects
Links
About
Travellings
🚇
Search
切换到English
中文
Dark Theme
Menu
Back
Tags:
#rlhf
Jan 6, 2026
RL笔记(28):大语言模型与强化学习 (LLM + RLHF)
大模型的最后一块拼图:详解基于人类反馈的强化学习 (RLHF)。涵盖从 SFT 到奖励模型,以及利用 PPO 算法进行策略对齐的完整流程。
8 min read
强化学习
rl笔记
rlhf