
A3C-LSTM: 在CartPole OpenAI Gym环境中的测试结果
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
简介:本文介绍了一种名为A3C-LSTM的算法,并在经典的强化学习问题CartPole环境中进行了实验验证,展示了该模型的有效性和优越性。
使用长期短期记忆网络(A3C-LSTM)的异步优势参与者关键算法实现的重要说明:此处展示的模型在当前环境下无法收敛。要查看融合模型,请参考Arthur的相关论文。
该训练仅适用于小批量大于30的情况,这有助于防止表现不佳的数据影响整体训练效果。奖励机制被设计用来加速学习过程,并提高效率。每完成100个回合后会保存一次模型状态。通过将全局参数中的任意一个设置为True,可以重新加载这些保存的模型进行进一步培训或直接用于测试。
这只是为了展示A3C-LSTM实现的一个示例代码。请注意,在这种环境下使用该方法并不意味着是学习的最佳途径!
全部评论 (0)
还没有任何评论哟~


