Advertisement

Pytorch框架下,整合了多种强化学习算法。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
PyTorch框架主要涵盖一系列算法,包括Q-Learning、Sarsa、DQN、DQN-cnn、DoubleDQN、Hierarchical DQN、PG、A2C、SAC、PPO、DDPG和TD3等。该框架设计能够适应GPU和CPU两种不同的计算环境,并支持模型保存以及断点续训功能,同时具备测试结果的可视化绘图能力。此外,用户还可以根据自身需求对该框架进行定制化修改,以构建理想的环境,其性能相当出色。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • PyMARL:Python智能体
    优质
    PyMARL是一款专为研究设计的Python库,旨在简化和加速多智能体系统的强化学习实验。它提供了丰富的算法实现、灵活的环境接口以及强大的工具包,以支持研究人员轻松探索复杂的协作与竞争场景。 请确保您在实验中使用的《星际争霸II》版本是正确的。 不同版本的性能可能不具有可比性。 SMAC 中的结果使用的是 SC2.4.6.2.69232 版本,而非 SC2.4.10。PyMARL 是一个用于深度多智能体强化学习的框架,包括多种算法的实现,并且是用 PyTorch 编写的,使用的环境为《星际争霸II》和 SMAC。 安装说明: 使用以下命令构建 Dockerfile: cd docker bash build.sh 设置《星际争霸II》和SMAC: bash install_sc2.sh
  • ERL-pytorch:融与深度
    优质
    ERL-pytorch是一款结合了进化算法和深度强化学习技术的框架,旨在利用进化计算的优势来优化神经网络参数及策略,在PyTorch平台上实现高效、灵活的学习模型。 进化强化学习的Pytorch实现
  • 基于Python和PyTorch
    优质
    本项目汇集了多种使用Python及PyTorch实现的强化学习算法,旨在为研究者与开发者提供便捷的学习与实验平台。 PyTorch实现的强化学习算法集。
  • Pytorch实现全家桶
    优质
    本项目汇集了在PyTorch平台上多种经典和现代的强化学习算法的高效实现,旨在为研究人员与实践者提供一套全面、灵活且易于使用的工具集。 该框架基于PyTorch实现了一系列算法,包括Q-Learning、Sarsa、DQN、DQN-CNN、Double DQN、Hierarchical DQN、PG(策略梯度)、A2C(异步优势演员评论家)、SAC(软演员批评)、PPO( proximal 政策优化)和TD3等。框架能够适应GPU与CPU的不同条件,支持模型保存及断点续训功能,并具备测试结果绘图能力。此外,用户可以根据自己的需求对环境进行定制化修改,具有较高的灵活性和实用性。
  • Huskarl:深度-源码
    优质
    Huskarl是一款先进的深度强化学习框架,它提供了丰富的算法库和高效的实验工具,适用于研究者和开发者快速构建智能代理。此项目包含了详细的文档和示例代码,帮助用户深入理解并应用各种前沿的强化学习技术。源码开源,社区活跃,持续更新中。 胡斯卡尔(Huskarl)是一个专注于模块化和快速原型设计的深度强化学习框架。它基于TensorFlow 2.0构建,并尽可能使用tf.keras API以提高简洁性和可读性。Huskarl使得在多个CPU内核上并行动态计算环境变得简单,这对于加速从多并发经验来源受益的策略型学习算法(如A2C或PPO)非常有用。对于物理等高计算需求的环境来说特别适用。 该框架实现了几种强化学习算法,并计划增加更多种类: - 深度Q网络 (DQN) - 多步深度Q网络 - 双重深度Q网络 - 对抗性架构下的深度Q网络 - 优势演员批评方法(A2C) - 确定性的策略梯度 此框架设计为与环境无缝集成,未来还将支持多代理系统的开发。
  • NCS-RL:含负相关搜索实现。包括四
    优质
    《NCS-RL: 强化学习中利用负相关搜索框架的创新方法》简介:本文提出一种基于负相关搜索策略的新型强化学习算法NCS-RL,内含四大核心算法变体,旨在提升复杂环境下的决策效率与准确性。 README NCS(Negative Correlated Search)框架包含了以下组件: - NCS-C:核心搜索算法实现。 - NCSCC:可能指特定的应用或扩展模块。 - NCNES:可能是环境设置或者配置文件。 - NCSREsrc/decomposer.py: 变量分组类 - env_wrappers.py: gym环境中atari游戏的预处理操作 - ops.py: 辅助定义atari游戏策略模型的相关函数和工具方法 - models.py: 定义了atari游戏的策略模型架构。 - policy.py: 包含封装好的atari游戏策略类,支持rollout(测试策略)功能。 - testfunc.py:CEC测试环境相关代码或辅助函数。 - logger.py:日志记录工具文件。 其余文件位于data/test/scripts/目录下。运行此框架需要满足以下要求: 1. 支持mpi和run的执行环境 2. Python语言,推荐使用tensorflow 1.x版本
  • PredatorPrey: 用于Unity中主体(MARL)的
    优质
    PredatorPrey是一款专为Unity设计的多智能体强化学习框架,旨在促进复杂环境下的MARL研究与应用开发。 当前可用的多主体强化学习(MARL)模型包括QMIX和COMA。使用Unity进行多主体强化学习提供了一个基于Unity的框架,并通过ML-Agent实现。此框架旨在帮助需要在Unity中创建MARL环境的人们。 为了安装必要的软件包,请输入以下命令,它会自动完成安装: ``` pip install -r requirements.txt ``` 所需规范包括Python 3.6和Unity 3D版本2020.2.2f1。此外还需要Unity ML-Agent版本为ml-agents-release_12。 对于PredatorPrey环境,请运行main.py文件,并在Unity中使用路径打开项目,该项目位于Unity_PredatorPrey目录下。PredatorPrey游戏的可执行文件可以在envs/PredatorPr找到。
  • 基于PyTorch的在线11常用代码实现
    优质
    本项目提供了基于PyTorch框架下多种在线强化学习算法的完整实现代码,包括但不限于DQN、DDPG等十一种经典模型。每种算法都经过详细设计与调试,可直接应用于实际问题解决中。 这个资源包含了一个使用 PyTorch 实现的11种常见在线强化学习算法的代码集合。每个算法都有独立的文件夹,并且可以单独运行以测试其在不同环境中的性能。以下是该资源中包括的具体算法: 1. Q-learning 2. SARSA 3. DQN (Deep Q-Network) 4. Double-DQN 5. Dueling-DQN 6. PG (Policy Gradient) 7. AC (Actor-Critic) 8. PPO (Proximal Policy Optimization) 9. DDPG (Deep Deterministic Policy Gradient) 10. TD3 (Twin Delayed DDPG) 11. SAC (Soft Actor-Critic)
  • PyMARL:基于WhiRL的深度智能体
    优质
    PyMARL是一款采用WhiRL架构设计的深度多智能体强化学习平台,旨在促进复杂环境下的协同策略研究与开发。 本代码已更新至 https://gitee.com/gingkg/QPLEX/tree/master/pymarl-master 分支。使用此代码需安装 StarCraft II 和 SMAC,具体安装方法请参考相关文档。 该代码已在 Windows 10 系统和 PyTorch 1.x 版本的环境下通过了所有算法与游戏测试,并修复了原代码在 Windows 下无法运行的问题。此外,在原有基础上添加了一些默认算法和游戏选项。 QPLEX 使用 Duplex Dueling Multi-Agent Q-Learning 技术,基于开源项目进行改进并进行了详细的说明。
  • PyTorch-ActorCriticRL: 连续动作中DDPGPyTorch实现
    优质
    简介:本项目为连续动作空间下的强化学习提供了基于PyTorch框架的DDPG算法实现,适用于各类动态环境中的智能体控制任务。 PyTorch-ActorCriticRL 是一个使用 PyTorch 实现的连续动作 actor-critic 算法框架。该算法采用 DeepMind 的深度确定性策略梯度(DDPG)方法来更新演员网络与评论者网络,并在执行确定性策略的同时于连续动作空间中进行探索。 具体来说,DDPG 是一种基于策略梯度的方法,它利用随机行为策略来进行探索,在这种情况下是使用了 Ornstein-Uhlenbeck 方法。同时输出一个确定性的目标策略,这使得学习过程更加稳定和有效。 政策估算(演员部分):Actor 网络由三层神经网络构成,该网络接收状态输入,并输出应该执行的动作 a 作为 Pi 的结果。 政策评估(批评者部分):评论者网络同样包含三层结构的神经网络,它接受状态 s 和相应的动作 a 输入,然后计算出 Q(s, a) 表示的状态-动作值函数。 演员优化的目标是通过最小化损失来调整策略: \[ \min -Q(s,\pi (s)) \] 对于批评者的优化,则旨在减少如下形式的损失以改进价值估计: \[ L2(r + \gamma * Q(s,\pi_{target}(s))) - Q(s,a) \] 这里,\(r\) 是即时奖励,而 \(γ\) 则是折扣因子。