Back
从连续控制到离散博弈:详解 CTDE 架构在 Actor-Critic 中的应用。涵盖 MADDPG 的多面手 Critic 设计与 MAPPO 的工程化胜利。
强化学习
rl笔记
maddpg