2026
23 posts
- Vibe Coding For AI 3: Codex CLI 安装与使用指南
- Vibe Coding For AI 2: Claude CLI 安装与使用指南
- Vibe Coding For AI 4: Gemini CLI 安装与使用指南
- SSH 断连不掉任务:tmux 入门教程
- Ubuntu 24.04 安装 MATLAB R2024a
- 如何把本地项目上传到 GitHub 仓库(完整教程)
- A800 服务器深度学习环境标准配置教程
- 在 VSCode 上配置 SSH 远程开发
- Paper Reading: Embodied AI 4
- Vibe Coding For AI 1: Windows 上配置 Coding Agent 指南
- Paper Reading: Embodied AI 3
- RL笔记(29):推理模型的崛起 (GRPO & PRM)
- RL笔记(28):大语言模型与强化学习 (LLM + RLHF)
- Paper Reading: Embodied AI 2
- RL笔记(27):MARL 最后的波纹 (MAT & HASAC)
- RL笔记(26):异构智能体信任区域优化 (HAPPO & HATRPO)
- Paper Reading: Embodied AI 1
- RL笔记(25):多智能体策略梯度 (MADDPG & MAPPO)
- RL笔记(24):超越单调性 (QTRAN, WQMIX, QPLEX)
- RL笔记(23):多智能体值分解 (VDN & QMIX)
- Slay the Spire: Silent Cards 评测
- Galgame 简评系列 1
- Galgame 简评系列 2
2025
33 posts
- RL笔记(22):初入多智能体强化学习 (MARL)
- RL笔记(21):目标导向的强化学习 (Goal-Conditioned RL)
- Paper Reading: LLM 1
- Paper Reading: LLM 2
- Paper Reading: MLLM 1
- Paper Reading: Unify MLLM 1
- Paper Reading: MLLM 2
- Paper Reading: Unify MLLM 1
- RL笔记(20):Decision Transformer
- RL笔记(19):离线强化学习 (Offline RL)
- RL笔记(18):基于模型的策略优化 (MBPO)
- Paper Reading: VLM 1
- Paper Reading: VLM 2
- Paper Reading: Basic Method 1
- Paper Reading: CV 1
- Paper Reading: MARL 1
- RL笔记(17):模型预测控制 (MPC)
- RL笔记(16):模仿学习 (Imitation Learning)
- RL笔记(15):SAC
- RL笔记(14):SQL
- RL笔记(13):DDPG
- RL笔记(12):PPO
- RL笔记(11):TRPO
- RL笔记(10):Actor-Critic
- RL笔记(9):REINFORCE
- RL笔记(8):DQN
- RL笔记(7):Dyna-Q
- RL笔记(6):时序差分
- RL笔记(5):蒙特卡洛
- RL笔记(4):动态规划
- RL笔记(3):马尔可夫决策过程
- RL笔记(2):多臂老虎机
- RL笔记(1):初入强化学习