Back
策略梯度与价值函数的完美结合:详解 Actor-Critic 架构。从 Baseline 减小方差的数学证明,到优势函数 (Advantage) 的推导及 A2C 算法流程。
强化学习
rl笔记
actor-critic