Research Technical Daily Life Game

Academic Projects Links About Travellings 🚇

Back

Tags: #时序差分

Dec 15, 2025

RL笔记（6）：时序差分

结合了蒙特卡洛与动态规划的精华：详解时序差分 (TD) 学习。涵盖 SARSA、Q-Learning 及其多步扩展，深入对比 On-Policy 与 Off-Policy 的本质区别。

8 min read

© 2026 菊花花 & Site policy Astro theme powered