
Matlab游戏代码-深度强化学习纳米学位项目3:合作与竞争
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目是Matlab中利用深度强化学习进行游戏开发的一部分,专注于探索智能体间的合作与竞争策略,展现高级算法在复杂环境下的应用。
在Matlab代码项目DeepRL-Nanodegree-Project3(合作与竞争)中,我们将使用多代理深度确定性策略梯度(MADDPG)算法训练两个代理打网球。
环境设置:这是一个两人游戏,在其中代理人控制球拍来回弹跳。目标是特工必须相互反弹,同时不能让球落地或出界。在环境中包含有两个链接到一个名为TennisBrain的单个大脑的代理。经过训练后,可以将另一个称为MyBrain的大脑附加到其中一个代理上以与您已训练好的模型进行对战。
奖励功能(独立):每当特工成功击中网球时获得+0.1分;如果球落地或出界,则扣-0.1分给导致这种情况的特工。大脑具有以下观察和动作空间:
向量观测空间包括8个变量,分别对应于球的位置、速度及拍子的位置、速度。
连续的动作空间大小为2,代表朝网方向移动或者远离网的方向并跳跃。
没有视觉观测信息。
重置参数:仅有一个关于球的大小的相关参数需要调整。基准平均奖励值是2.5分。
如果您想在计算机上尝试这个算法,请确保系统中已安装Python3.6,并且还需一些库来帮助运行代码。
全部评论 (0)
还没有任何评论哟~


