Research Technical Daily Life Game

Academic Projects Links About Travellings 🚇

Back

Tags: #happo

Jan 4, 2026

RL笔记（26）：异构智能体信任区域优化 (HAPPO & HATRPO)

从经验主义回归理论严谨性：详解 HAPPO 如何解决 MARL 中的单调提升难题。涵盖多智能体优势分解引理、序列更新机制以及与 MAPPO 的本质区别。

7 min read

© 2026 菊花花 & Site policy Astro theme powered