通过 Q(s,a) = r + γ·max_a' Q(s',a') 逼近最优策略
# 伪代码
while not converged:
s = env.reset()
while not done:
a = ε-greedy(Q, s)
s', r, done = env.step(a)
Q(s,a) = Q(s,a) + α[r + γ·max_a' Q(s',a') - Q(s,a)]
| 算法 | 平均奖励 | 收敛速度 | 稳定性 |
|---|---|---|---|
| Q-Learning | 85.2 | 中等 | 低 |
| DQN | 92.7 | 快 | 高 |
| Double DQN | 94.1 | 更快 | 很高 |