Hana's Blog
Blog
Research
Technical
Daily Life
Game
Academic
Projects
Links
About
Travellings
🚇
Search
切换到English
中文
Dark Theme
Menu
Back
Tags:
#trpo
Dec 20, 2025
RL笔记(11):TRPO
深度强化学习的里程碑:详解 TRPO 如何通过信任区域约束保证策略更新的单调性。涵盖目标函数推导、二阶泰勒近似、共轭梯度法及 HVP 技巧。
8 min read
强化学习
rl笔记
trpo