探索神经网络的数学本质,从 Q-Learning 到 PPO,记录每一步 AI 学习旅程中的思考与实践。
通过经验回放和目标网络解决强化学习中的稳定性问题,深入理解 DQN 如何实现从像素到决策的端到端学习。
使用 PyTorch 实现 PPO 算法,实现机器人在复杂地形的自适应行走,探索策略梯度方法的强大表现力。
从基础 Q-Learning 到 DQN 再到 Double DQN,通过交互式幻灯片全面对比不同算法的性能表现。