Back
Model-Based RL 的集大成者:深度解析 MBPO 的理论边界。从单调性保证到分支推演 (Branched Rollout),论证如何通过控制推演步长来解决模型偏差带来的二次误差累积问题。
强化学习
rl笔记
mbpo