
Mujoco-PG: Mujoco环境中Vanilla PG、TNPG、TRPO和PPO的PyTorch实现
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目提供了在MuJoCo物理仿真环境下的经典策略梯度算法(原生PG、TNPG、TRPO及PPO)的PyTorch版本,便于研究与学习。
pytorch-trpo 是一个使用 PyTorch 实现的库,包括香草策略梯度(Vanilla Policy Gradient)、截断自然策略梯度(Truncated Natural Policy Gradient)、信任区域策略优化(Trust Region Policy Optimization)以及近端策略优化算法(Proximal Policy Optimization)。支持的环境有 Ant-v2、HalfCheetah-v2、Hopper-v2、Humanoid-v2、HumanoidStandup-v2、InvertedPendulum-v2、Reacher-v2、Swimmer-v2 和 Walker2d-v2。运行代码时,可以使用命令 `python train.py --algorithm 算法名称 --env 环境名称` 来指定使用的训练算法和环境。
全部评论 (0)
还没有任何评论哟~


