
MP-DQN:论文提供的源代码。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
该存储库包含了用于参数化动作空间马尔可夫决策过程 (MDP) 的多种强化学习算法,包括 P-DQN、MP-DQN、SP-DQN、PA-DDPG、豪 Q-PAMDP 以及多遍深层 Q 网络 (MP-DQN)。为了克服 P-DQN 存在的过度参数化问题,MP-DQN 通过并行批处理的方式,将动作参数分配到 Q 网络中进行多次遍历。此外,拆分深度 Q 网络 (SP-DQN) 是一种更为复杂的方案,它采用包含和不包含共享特征提取层的多个 Q 网络。 此外,该存储库还为 P-DQN 提供了一个基于加权索引的动作参数损失函数。 该项目依赖于 Python 3.5 或更高版本(已通过 3.5 和 3.6 版本进行测试),以及 PyTorch 0.4.1(虽然 1.0 版本也可以使用,但可能会降低运行速度)。 体育馆环境版本为 0.10.5。 麻木点击域提供了实验脚本,允许用户通过参数化操作在以下领域运行每种算法:平台环境、机器人足球进球、半场进攻。 以下是使用 OpenAI Gym 环境的最简便安装方法:`pip install`。
全部评论 (0)
还没有任何评论哟~


