
DRL-2018实验结合了策略梯度方法,包括香草PG、Actor-Critic和PPO,以及进化策略。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
DRL-2018,该存储库记录了2018年夏季针对深度强化学习研究项目的成果,该项目由Keith Ross教授倡议并获得纽约大学上海分校本科研究基金的资助。 在此研究中,我们着手探索将“策略梯度”方法——包括香草策略梯度(通常被称为REINFORCE)、Actor-Critic以及PPO——与“进化策略”相结合,旨在开发一种能够显著提升样本效率的混合算法。 为了验证所提出的算法的有效性,我们在MuJoCo基准环境中进行了性能评估。 相关参考资料包括:增强学习领域的经典论文——罗纳德·J·威廉姆斯《用于连接符增强学习的简单统计梯度跟踪算法》,发表于《机器学习》杂志第8卷第3-4期,共计229-256页,出版于1992年;以及理查德·萨顿、大卫·麦卡莱斯特、萨特德·辛格和伊谢·曼苏撰写的评论性文章《通过函数逼近进行强化学习的策略梯度方法》,发表于《神经信息处理系统的进步》等文献。
全部评论 (0)
还没有任何评论哟~


