Research Technical Daily Life Game

Academic Projects Links About Travellings 🚇

Back

Tags: #rlhf

Jan 6, 2026

RL笔记（28）：大语言模型与强化学习 (LLM + RLHF)

大模型的最后一块拼图：详解基于人类反馈的强化学习 (RLHF)。涵盖从 SFT 到奖励模型，以及利用 PPO 算法进行策略对齐的完整流程。

8 min read

© 2026 菊花花 & Site policy Astro theme powered