
基于MADDPG的网球模拟:在Pytorch中的实现
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本研究利用MADDPG算法,在Pytorch框架下开发了一套网球运动模拟系统,实现了多智能体间的复杂互动与策略学习。
项目3:合作与竞争介绍
在这种环境下,两名特工控制球拍在球网上弹跳球。如果探员将球击中网,则得到+0.1的奖励;如果让一个球击中地面或越界,则其收益为-0.01。每个特工的目标是保持比赛中的球权。
观察空间由8个变量组成,分别对应于球和球拍的位置及速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用:朝向(或远离)网络的运动以及跳跃动作。
环境在经过约1820次集中训练后可以解决该问题。为了解决此环境,我实现了Multi-DDPG算法。具体实现如下:
每个特工都有独立的演员和评论家进行集中培训;每个代理的批评者不仅将自己的演员的行为和状态作为输入,而且还将所有其他代理的状态和行为作为输入。在测试过程中仅使用参与者,并且参与者只取决于相应参与者的状态,因此代理可以自由地学习自己的奖励结构。
全部评论 (0)
还没有任何评论哟~


