
基于深度强化学习与Double DQN的Pendulum-v0环境实现(Pytorch)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本研究采用深度强化学习及Double DQN算法,在Pytorch框架下实现了对Pendulum-v0环境的有效控制,展示了该方法在连续动作空间中的优越性能。
普通的 DQN 算法通常会导致对值的过高估计问题,由于神经网络在估算 Q 值时可能会产生正向或负向误差,在 DQN 的更新方式下,这些正向误差会被累积起来。对于动作空间较大的任务而言,DQN 中的过估计问题会变得尤为严重,进而导致算法无法有效工作。为解决这一难题,Double DQN 算法提出使用两个独立训练的神经网络来估算值函数:其中一个作为 Double DQN 的第一套神经网络用于选择动作;另一个则作为目标网络用来计算值,从而显著缓解了DQN中的过估计问题。该程序完整实现了 Double DQN 算法,并在Pendulum-v0环境中验证了其对过估计问题的改善效果。从实验结果来看,Double DQN 显著地缓解了 DQN 的过估计现象。
全部评论 (0)
还没有任何评论哟~


