
基于广义优势估计的强化学习算法(GAE)
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
本研究提出了一种基于广义优势估计(GAE)的创新性强化学习算法,旨在优化价值函数评估与策略更新过程,有效提升模型在复杂环境中的表现和适应能力。
具有广义优势估计的强化学习算法
在最近发布的文献中使用TensorFlow实现了一些最新的强化学习算法示例。我的研究主要集中在连续领域,并且没有太多时间花在Atari等离散环境中进行测试。
我利用带LSTM层的PPO解决了BipedalWalker-v2问题。
已实现的算法包括:
- PPO
除DPPG之外的所有算法均使用广义优势估计(Generalized Advantage Estimation, GAE)技术。尽可能地在策略和价值函数中加入了LSTM层,这通常会使复杂环境下的训练更加稳定(尽管速度较慢)。PPO已完全实现,并且可以在MuJuCo环境中进行测试。
所有的Python脚本都是独立编写的。只需像运行单个文件或IDE中的代码那样执行它们即可。模型与TensorBoard摘要保存在同一目录下。
全部评论 (0)
还没有任何评论哟~


