Research Technical Daily Life Game

Academic Projects Links About Travellings 🚇

Back

Tags: #trpo

Dec 20, 2025

RL笔记（11）：TRPO

深度强化学习的里程碑：详解 TRPO 如何通过信任区域约束保证策略更新的单调性。涵盖目标函数推导、二阶泰勒近似、共轭梯度法及 HVP 技巧。

8 min read

© 2026 菊花花 & Site policy Astro theme powered