AI Engineer Toolbox
Back to course

Stage 6 / Chapter 25

第25章 强化学习基础

目标

理解序列决策的学习方法。

---

必学内容

MDP 框架

# State, Action, Reward, Next State
# 目标:最大化累积回报

状态-动作价值函数

Q(s,a) = 在状态 s 执行动作 a 后的期望回报

DQN (Deep Q-Network)

# 用神经网络近似 Q 函数
# 经验回放 + 目标网络稳定训练

---

AI联系

强化学习 = 从试错中学习。

RLHF 的基础:

人类反馈训练奖励模型,再用强化学习优化。

这是 ChatGPT 的核心技术之一。

---