Back
数据驱动的强化学习:当不能与环境交互时,如何从静态数据集中学习?深度解析分布偏移 (Distribution Shift) 问题,以及 BCQ 和 CQL 算法的理论推导。
强化学习
rl笔记
离线强化学习