
基于PyTorch的模仿学习:若干强化学习算法的实现——包括优势演员评论(A2C)和近距离策略优化(PPO)...
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目使用PyTorch实现模仿学习及多种强化学习算法,重点在于A2C与PPO算法的应用,以提升智能体决策效能。
此仓库包含一些基于PyTorch的简单强化学习算法实现:优势演员评论家(A2C)同步变体、近端策略优化(PPO)——一种非常受欢迎的方法,以及DeepMind在其最近的工作中使用的最大后验策略优化(V-MPO)。此外还包括行为克隆(BC),这是一种将专家行为复制到新策略中的简单技术。每种算法都支持向量或图像观察空间及离散和连续动作空间。
为什么这个仓库被称为“模仿学习”?当我开始此项目时,我计划主要关注模仿学习,并且无模型方法仅用于初始阶段的“专家”训练。然而,在实现PPO过程中花费的时间比我预期的要长得多,因此目前大部分代码与PPO相关。尽管如此,我对模仿学习仍然很感兴趣,并打算在未来添加更多相关的算法。
当前功能包括几种基于策略、无需建模的方法:A2C、PPO、V-MPO和BC。这些方法支持离散(如分类、伯努利或GumbelSoftmax)及连续(例如贝塔分布、正态分布和tanh(正态))的策略分布,以及向量或图像类型的观察环境。在我的实验中发现Beta和tanh(Normal)表现最佳,在BipedalWalker等环境中尤为突出。
全部评论 (0)
还没有任何评论哟~


