Back
范式转移:当强化学习遇上 Transformer。详解 Decision Transformer 如何抛弃贝尔曼方程,利用 Return-to-Go 将 RL 重构为条件序列建模问题。
强化学习
rl笔记
decision transformer