
超级马里奥兄弟使用PPO-pytorch算法的源码。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
[PYTORCH] 运用近端策略优化(PPO)算法训练特工玩超级马里奥兄弟的战术策略优化方案,现提供我的Python源代码,该代码用于训练智能体在超级马里奥兄弟游戏中表现。 该方案的核心在于采用纸张近端策略优化算法,从而推导出近端政策优化(PPO)算法。 值得一提的是,经过PPO训练的代理能够成功完成游戏的29个级别中的29个,这一成果远超我最初的预期。 为了便于理解,请知悉PPO是OpenAI提出的一个算法,它被应用于训练OpenAI Five,这款人工智能程序是第一款在电竞游戏中战胜世界冠军的系统。 实际上,OpenAI Five于2018年8月组建了一支由MMR评分高的辅助玩家和前职业选手组成的队伍,并在Dota 2玩家中占据了99.95%的排名。 以下展示部分实验结果的动机...
全部评论 (0)
还没有任何评论哟~


