Pytorch框架下，整合了多种强化学习算法。

5星

浏览量: 0

大小:None

文件类型：None

简介：
PyTorch框架主要涵盖一系列算法，包括Q-Learning、Sarsa、DQN、DQN-cnn、DoubleDQN、Hierarchical DQN、PG、A2C、SAC、PPO、DDPG和TD3等。该框架设计能够适应GPU和CPU两种不同的计算环境，并支持模型保存以及断点续训功能，同时具备测试结果的可视化绘图能力。此外，用户还可以根据自身需求对该框架进行定制化修改，以构建理想的环境，其性能相当出色。

全部评论 (0)

还没有任何评论哟~

客服

PyMARL：Python多智能体强化学习框架

优质

PyMARL是一款专为研究设计的Python库，旨在简化和加速多智能体系统的强化学习实验。它提供了丰富的算法实现、灵活的环境接口以及强大的工具包，以支持研究人员轻松探索复杂的协作与竞争场景。请确保您在实验中使用的《星际争霸II》版本是正确的。不同版本的性能可能不具有可比性。 SMAC 中的结果使用的是 SC2.4.6.2.69232 版本，而非 SC2.4.10。PyMARL 是一个用于深度多智能体强化学习的框架，包括多种算法的实现，并且是用 PyTorch 编写的，使用的环境为《星际争霸II》和 SMAC。安装说明：使用以下命令构建 Dockerfile： cd docker bash build.sh 设置《星际争霸II》和SMAC: bash install_sc2.sh

ERL-pytorch：融合进化算法与深度强化学习

优质

ERL-pytorch是一款结合了进化算法和深度强化学习技术的框架，旨在利用进化计算的优势来优化神经网络参数及策略，在PyTorch平台上实现高效、灵活的学习模型。进化强化学习的Pytorch实现

基于Python和PyTorch的强化学习算法集合

优质

本项目汇集了多种使用Python及PyTorch实现的强化学习算法，旨在为研究者与开发者提供便捷的学习与实验平台。 PyTorch实现的强化学习算法集。

Pytorch下的强化学习算法实现全家桶

优质

本项目汇集了在PyTorch平台上多种经典和现代的强化学习算法的高效实现，旨在为研究人员与实践者提供一套全面、灵活且易于使用的工具集。该框架基于PyTorch实现了一系列算法，包括Q-Learning、Sarsa、DQN、DQN-CNN、Double DQN、Hierarchical DQN、PG（策略梯度）、A2C（异步优势演员评论家）、SAC（软演员批评）、PPO（ proximal 政策优化）和TD3等。框架能够适应GPU与CPU的不同条件，支持模型保存及断点续训功能，并具备测试结果绘图能力。此外，用户可以根据自己的需求对环境进行定制化修改，具有较高的灵活性和实用性。

Huskarl：深度强化学习框架与算法-源码

优质

Huskarl是一款先进的深度强化学习框架，它提供了丰富的算法库和高效的实验工具，适用于研究者和开发者快速构建智能代理。此项目包含了详细的文档和示例代码，帮助用户深入理解并应用各种前沿的强化学习技术。源码开源，社区活跃，持续更新中。胡斯卡尔（Huskarl）是一个专注于模块化和快速原型设计的深度强化学习框架。它基于TensorFlow 2.0构建，并尽可能使用tf.keras API以提高简洁性和可读性。Huskarl使得在多个CPU内核上并行动态计算环境变得简单，这对于加速从多并发经验来源受益的策略型学习算法（如A2C或PPO）非常有用。对于物理等高计算需求的环境来说特别适用。该框架实现了几种强化学习算法，并计划增加更多种类： - 深度Q网络 (DQN) - 多步深度Q网络 - 双重深度Q网络 - 对抗性架构下的深度Q网络 - 优势演员批评方法（A2C） - 确定性的策略梯度此框架设计为与环境无缝集成，未来还将支持多代理系统的开发。

NCS-RL：含负相关搜索框架的强化学习算法实现。包括四种算法

优质

《NCS-RL: 强化学习中利用负相关搜索框架的创新方法》简介：本文提出一种基于负相关搜索策略的新型强化学习算法NCS-RL，内含四大核心算法变体，旨在提升复杂环境下的决策效率与准确性。 README NCS（Negative Correlated Search）框架包含了以下组件： - NCS-C：核心搜索算法实现。 - NCSCC：可能指特定的应用或扩展模块。 - NCNES：可能是环境设置或者配置文件。 - NCSREsrc/decomposer.py: 变量分组类 - env_wrappers.py: gym环境中atari游戏的预处理操作 - ops.py: 辅助定义atari游戏策略模型的相关函数和工具方法 - models.py: 定义了atari游戏的策略模型架构。 - policy.py: 包含封装好的atari游戏策略类，支持rollout（测试策略）功能。 - testfunc.py：CEC测试环境相关代码或辅助函数。 - logger.py：日志记录工具文件。其余文件位于data/test/scripts/目录下。运行此框架需要满足以下要求： 1. 支持mpi和run的执行环境 2. Python语言，推荐使用tensorflow 1.x版本

PredatorPrey: 用于Unity中多主体强化学习(MARL)的框架

优质

PredatorPrey是一款专为Unity设计的多智能体强化学习框架，旨在促进复杂环境下的MARL研究与应用开发。当前可用的多主体强化学习（MARL）模型包括QMIX和COMA。使用Unity进行多主体强化学习提供了一个基于Unity的框架，并通过ML-Agent实现。此框架旨在帮助需要在Unity中创建MARL环境的人们。为了安装必要的软件包，请输入以下命令，它会自动完成安装： ``` pip install -r requirements.txt ``` 所需规范包括Python 3.6和Unity 3D版本2020.2.2f1。此外还需要Unity ML-Agent版本为ml-agents-release_12。对于PredatorPrey环境，请运行main.py文件，并在Unity中使用路径打开项目，该项目位于Unity_PredatorPrey目录下。PredatorPrey游戏的可执行文件可以在envs/PredatorPr找到。

基于PyTorch的在线强化学习11种常用算法代码实现

优质

本项目提供了基于PyTorch框架下多种在线强化学习算法的完整实现代码，包括但不限于DQN、DDPG等十一种经典模型。每种算法都经过详细设计与调试，可直接应用于实际问题解决中。这个资源包含了一个使用 PyTorch 实现的11种常见在线强化学习算法的代码集合。每个算法都有独立的文件夹，并且可以单独运行以测试其在不同环境中的性能。以下是该资源中包括的具体算法： 1. Q-learning 2. SARSA 3. DQN (Deep Q-Network) 4. Double-DQN 5. Dueling-DQN 6. PG (Policy Gradient) 7. AC (Actor-Critic) 8. PPO (Proximal Policy Optimization) 9. DDPG (Deep Deterministic Policy Gradient) 10. TD3 (Twin Delayed DDPG) 11. SAC (Soft Actor-Critic)

PyMARL：基于WhiRL的深度多智能体强化学习框架

优质

PyMARL是一款采用WhiRL架构设计的深度多智能体强化学习平台，旨在促进复杂环境下的协同策略研究与开发。本代码已更新至 https://gitee.com/gingkg/QPLEX/tree/master/pymarl-master 分支。使用此代码需安装 StarCraft II 和 SMAC，具体安装方法请参考相关文档。该代码已在 Windows 10 系统和 PyTorch 1.x 版本的环境下通过了所有算法与游戏测试，并修复了原代码在 Windows 下无法运行的问题。此外，在原有基础上添加了一些默认算法和游戏选项。 QPLEX 使用 Duplex Dueling Multi-Agent Q-Learning 技术，基于开源项目进行改进并进行了详细的说明。

PyTorch-ActorCriticRL: 连续动作强化学习中DDPG算法的PyTorch实现

优质

简介：本项目为连续动作空间下的强化学习提供了基于PyTorch框架的DDPG算法实现，适用于各类动态环境中的智能体控制任务。 PyTorch-ActorCriticRL 是一个使用 PyTorch 实现的连续动作 actor-critic 算法框架。该算法采用 DeepMind 的深度确定性策略梯度（DDPG）方法来更新演员网络与评论者网络，并在执行确定性策略的同时于连续动作空间中进行探索。具体来说，DDPG 是一种基于策略梯度的方法，它利用随机行为策略来进行探索，在这种情况下是使用了 Ornstein-Uhlenbeck 方法。同时输出一个确定性的目标策略，这使得学习过程更加稳定和有效。政策估算（演员部分）：Actor 网络由三层神经网络构成，该网络接收状态输入，并输出应该执行的动作 a 作为 Pi 的结果。政策评估（批评者部分）：评论者网络同样包含三层结构的神经网络，它接受状态 s 和相应的动作 a 输入，然后计算出 Q(s, a) 表示的状态-动作值函数。演员优化的目标是通过最小化损失来调整策略： \[ \min -Q(s,\pi (s)) \] 对于批评者的优化，则旨在减少如下形式的损失以改进价值估计： \[ L2(r + \gamma * Q(s,\pi_{target}(s))) - Q(s,a) \] 这里，\(r\) 是即时奖励，而 \(γ\) 则是折扣因子。

是否确定退出登录?

Pytorch框架下，整合了多种强化学习算法。

全部评论 (0)