Advertisement

RL-MPE: 在OpenAI MPE环境中使用DDPG, MADDPG, DQN, MADDPG+Advantage进行实验

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
本文介绍了在OpenAI多智能体环境(MPE)中,采用DDPG、MADDPG和DQN等算法进行的RL-MPE实验,并探讨了MADDPG结合优势法的效果。 在RL-MPE实验中使用了DDPG、MADDPG、DQN以及MADDPG+advantage算法,在OpenAI的多智能体环境(Multi-Agent Particle Environment, MPE)下进行测试。我们在此基础上加入了自己的改进,包括引入DQN和优势函数(Advantage Function),但最终发现其性能不如原始的MADDPG算法。此外,我们在游戏中添加了“吃掉消失”的机制,然而这一改动对训练策略及游戏得分产生了较大影响,并且在增加“吃掉消失”与“输赢”评判后,整体训练效果有所下降。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • RL-MPE: OpenAI MPE使DDPG, MADDPG, DQN, MADDPG+Advantage
    优质
    本文介绍了在OpenAI多智能体环境(MPE)中,采用DDPG、MADDPG和DQN等算法进行的RL-MPE实验,并探讨了MADDPG结合优势法的效果。 在RL-MPE实验中使用了DDPG、MADDPG、DQN以及MADDPG+advantage算法,在OpenAI的多智能体环境(Multi-Agent Particle Environment, MPE)下进行测试。我们在此基础上加入了自己的改进,包括引入DQN和优势函数(Advantage Function),但最终发现其性能不如原始的MADDPG算法。此外,我们在游戏中添加了“吃掉消失”的机制,然而这一改动对训练策略及游戏得分产生了较大影响,并且在增加“吃掉消失”与“输赢”评判后,整体训练效果有所下降。
  • MPE-Multiagent-RL-Algos: OpenAI MPE多智能体RL的简易代码
    优质
    MPE-Multiagent-RL-Algos 是一个针对OpenAI多智能体环境(MPE)设计的简化版多智能体强化学习(Reinforcement Learning, RL)算法实现项目,便于研究者快速进行实验与验证。 MPE(多主体强化学习算法)是一个使用OpenAI Multi-Agent RL的简单验证实验代码环境。该环境包含多个基准测试,并且最初为新算法的设计提供准备条件。由于其设置相对简洁,MPE被认为是对新的Multi-Agent RL算法进行验证并与其他标准方法比较的良好玩具实验平台。 我已经为您编写了一些著名的多主体RL算法,这样您只需少量修改就可以实现自己的算法并通过代码来检验结果的有效性。请注意,在成功运行此MPE环境前,请确保已下载必要的文件;不过我将基准的文件已经添加到了项目中,因此如果您在从OpenAI下载时遇到任何问题,可以使用我的版本。 要求: - Python >= 3.6.0 - PyTorch == 1.2.0 - OpenAI Gym==0.10.5 算法和待办事项清单包括了评估、渲染以及数字与比较等功能。此外,您还可以上传训练好的模型(文件格式为.pt)。 我一直以硕士生的身份进行学习,在撰写代码的过程中可能会出现一些错误或不准确之处,请多指教。
  • MADDPG的不同场景
    优质
    本文探讨了MADDPG(多智能体分布式多代理深度强化学习)在不同环境中的应用案例与场景,分析其优势和挑战。 多智能体强化学习涉及在复杂环境中训练多个相互作用的代理。每个代理通过与环境交互来学习如何实现目标,同时考虑其他代理的行为及其对自身策略的影响。这种学习方式广泛应用于机器人协作、交通管理及游戏等领域中,以解决需要协调和合作的问题。
  • MPE与MSE.rar
    优质
    本资源包含MPE与MSE相关的研究资料和计算方法,适用于学术探讨和技术应用,涵盖误差分析、预测模型评估等内容。 在撰写论文时,我使用过多尺度排列熵和多尺度样本熵作为参考。
  • 多种强化学习算法汇总(包括DQNDDPG、SAC、TD3、MADDPG、QMIX等)
    优质
    本资料全面总结了当前主流的强化学习算法,涵盖DQN、DDPG、SAC、TD3、MADDPG和QMIX等多种技术,旨在为研究者提供深入理解与应用指导。 强化学习算法合集包括DQN、DDPG、SAC、TD3、MADDPG、QMIX等多种经典算法,并附带超过20个相关代码示例。关于这些算法的使用教程,可以参考多智能体(前沿算法+原理)以及强化学习基础篇(单智能体算法)等博客文章。
  • Machin:专为PyTorch打造的强化学习库,支持DQNDDPG、A2C、PPO、SAC、MADDPG、A3C等算法
    优质
    Machin是一款专门为PyTorch设计的强化学习库,提供包括DQN、DDPG在内的多种经典算法实现,助力研究与应用。 Machin 是为 PyTorch 设计的一个增强库,支持包括循环网络在内的各种模型。目前实现的算法列表还在不断增长: - 单代理算法: - 多主体算法: - 大规模并行算法: **特性:** 1. **可读性**: Machin 尝试提供简单的、清晰易懂的强化学习(RL)算法实现,所有在其中的算法都以最小化抽象的方式设计,并且文档详细,附带各种有用的教程。 2. **可重用性**: 该库采用与 PyTorch 类似的方法将算法和数据结构封装到自己的类中。用户可以方便地使用它们而无需设置一系列 data collectors、trainers、runners 和 samplers 等组件。对于模型的唯一限制在于输入/输出格式,不过这些限制较小且容易适应。 Machin 当前实现的支持算法包括进化策略和基于模型的方法等强化学习技术。
  • MAProj: PyTorch的多智能体粒子项目(CommNet, BiCNet, MADDPG
    优质
    MAProj是基于PyTorch开发的一个研究平台,专注于多智能体系统的协同学习。该项目实现了多种先进的算法,包括CommNet、BiCNet和MADDPG,用于解决复杂环境中多智能体的合作与竞争问题。 马普里是一个使用Pytorch的多代理项目(commnet),针对“simple_spread”粒子环境。 推理: 通讯网: - Bicnet: - Maddpg: 训练曲线: 如何使用: 1. 点安装依赖项 `-r requirements.txt` 2. 进入目录 `cd MAProj` 3. 执行命令 `python ma_main.py --algo maddpg --mode train` 待办事项清单 - 更多地图的训练工作 - 修复图形内存泄漏问题
  • 深度强化学习:PyTorchDQN、SAC、DDPG、TD3等深度RL
    优质
    本书深入讲解了如何使用PyTorch框架实现多种深度强化学习算法,包括DQN、SAC、DDPG和TD3,是掌握现代智能决策系统技术的绝佳资源。 使用Pytorch实现的深度强化学习算法列表如下: 关于深入探讨实验结果: - 离散环境:LunarLander-v2 - 连续环境:Pendulum-v0 所涉及的具体算法包括: 1. DQN(Deep Q-Network) 2. VPG(Vanilla Policy Gradient) 3. DDPG(Deterministic Policy Gradient) 4. TD3(Twin Delayed Deep Deterministic Policy Gradient) 5. SAC(Soft Actor-Critic) 6. PPO(Proximal Policy Optimization) 使用方法: 只需直接运行文件中的相应算法。 在学习这些算法的过程中,由于它们来自不同的来源,因此各个算法之间没有通用的结构。 未来计划:如果有时间,我将为电梯控制系统添加一个简单的强化学习程序,并改进实验结果展示图形。
  • 基于MADDPG的网球模拟:Pytorch
    优质
    本研究利用MADDPG算法,在Pytorch框架下开发了一套网球运动模拟系统,实现了多智能体间的复杂互动与策略学习。 项目3:合作与竞争介绍 在这种环境下,两名特工控制球拍在球网上弹跳球。如果探员将球击中网,则得到+0.1的奖励;如果让一个球击中地面或越界,则其收益为-0.01。每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置及速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用:朝向(或远离)网络的运动以及跳跃动作。 环境在经过约1820次集中训练后可以解决该问题。为了解决此环境,我实现了Multi-DDPG算法。具体实现如下: 每个特工都有独立的演员和评论家进行集中培训;每个代理的批评者不仅将自己的演员的行为和状态作为输入,而且还将所有其他代理的状态和行为作为输入。在测试过程中仅使用参与者,并且参与者只取决于相应参与者的状态,因此代理可以自由地学习自己的奖励结构。
  • 基于DQN的迷宫现(使tkinter构建
    优质
    本项目采用深度Q网络(DQN)算法训练智能体在自定义的迷宫环境中自主导航,并利用Python的Tkinter库创建可视化界面。 使用Python实现走迷宫的功能,并且可以将迷宫环境可视化。代码参考了莫烦python的教程内容,可以直接运行。DQN网络采用TensorFlow进行搭建,每一句代码都有详细的注释以便于理解。此外,还可以通过tensorboard来查看日志信息,只要设置log_out参数为true即可启用该功能。