
Reinforcement Learning Mario: 本项目旨在应用先进的深度强化学习技术,特别是近端策略优化(PPO),来...
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
简介:该项目运用先进深度强化学习技术,尤其是近端策略优化(PPO)算法,使经典游戏《超级马里奥》中的角色自主学习并提高游戏表现。
超级马里奥兄弟(SMB)是一款流行的动作游戏,它拥有“真实”的环境和广阔的可能状态空间,非常适合用来设计能够玩计算机游戏的强化学习代理。这款游戏要求玩家与各种对象及障碍进行互动,从而鼓励采用知识丰富的学习方法。
在研究中,我们使用了OpenAI Gym提供的框架,并利用超级马里奥兄弟体育馆从游戏中提取信息以训练一种名为PPO(Proximal Policy Optimization)的RL特工。为了提升代理的表现力,我们在环境中引入了一些预处理技术,比如帧缩放、随机跳帧、帧堆叠和噪声网络等方法。
此外,我们通过增加回滚操作来提高训练过程中的稳定性,并创建了PPO的一种变体。实验结果表明,在经过20小时的训练后,特工能够成功完成游戏关卡。我们的研究证明了一种比常规PPO实施更有效的方案:在不进行数据预处理的情况下性能提高了50%,而在应用数据预处理技术时则提升了10%。
在整个项目中,我们主要使用PyTorch作为机器学习的库。
全部评论 (0)
还没有任何评论哟~


