
好奇心驱动的PPO:利用导向性弱好奇心进行探索
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本研究提出了一种基于导向性弱好奇心机制的PPO算法改进方案,旨在增强智能体在复杂环境中的自主探索能力与学习效率。
本段落是对OpenAI论文的一个宽松的复述。该算法训练一种策略,在游戏中完全依赖于由内部预测错误产生的奖励进行操作。这一过程可以被视作策略与试图预测环境未来状态的模型(称为前向动力学模型)之间的较量,而这种较量中,策略是通过将环境中的原始奖励替换为前向动力学模型误差来训练的。具体而言,在PPO算法应用时,所使用的奖励即为该前向动力学模型预测结果与实际值之间平方差的形式。
此方法下,前向动力学模型的目标是对环境中下一个状态进行低维度表示的准确预测,并将其错误视为内在激励机制的一部分:如果这个模型越不精确地作出预测,则在给定时间点上策略所获得的奖励就越大。这使得政策倾向于探索那些未被预见的状态,从而推动建立一个更强大的前向动力学预测体系。
本段落实现的一个特点是没有采用Hindsight Experience Replay技术,并且在PPO更新中应用广义优势估计(GAE)之前对内在激励进行了标准化处理,以减少由于值预测误差导致的损失差异。
全部评论 (0)
还没有任何评论哟~


