
PyTorch-A2C:基于Pytorch的通用优势演员评论器实现
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
PyTorch-A2C是一款基于Pytorch框架开发的强化学习算法库,专注于Actor-Critic方法的实现与优化,为研究人员和开发者提供了一个灵活、高效的实验平台。
A2C描述了这是使用OpenAI体育馆环境以PyTorch编写的实现。此实现包括卷积模型、原始A3C模型、完全连接的模型(基于Karpathy的Blog)以及基于GRU的递归模型的选择项。BPTT循环训练可选择采用时间反向传播(BPTT),它可以在一系列状态而非当前状态下建立梯度依赖关系。初步结果表明,使用BPTT不会提升训练效果。有关两种培训方法的比较,请参考相关资料。
该算法在Pong-v0上进行了训练。奖励图展示了在训练期间首次收集到的移动平均值奖励情况。对于Pong而言,基于游戏结束时所获得的分数计算出运行平均值作为评估指标而非完整的21分比赛,这使得最低奖励为-1,最高奖励为+1。移动平均因子设置为0.99。
在训练过程中,使用GRU模型对Pong-v0进行4000万个时间步长后得出的平均奖励图显示了该算法的表现情况。同样,在采用BPTT方法训练GRU模型的过程中,在进行了约400次迭代后也得到了类似的结果展示。
全部评论 (0)
还没有任何评论哟~


