Advertisement

PyTorch-A2C:基于Pytorch的通用优势演员评论器实现

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
PyTorch-A2C是一款基于Pytorch框架开发的强化学习算法库,专注于Actor-Critic方法的实现与优化,为研究人员和开发者提供了一个灵活、高效的实验平台。 A2C描述了这是使用OpenAI体育馆环境以PyTorch编写的实现。此实现包括卷积模型、原始A3C模型、完全连接的模型(基于Karpathy的Blog)以及基于GRU的递归模型的选择项。BPTT循环训练可选择采用时间反向传播(BPTT),它可以在一系列状态而非当前状态下建立梯度依赖关系。初步结果表明,使用BPTT不会提升训练效果。有关两种培训方法的比较,请参考相关资料。 该算法在Pong-v0上进行了训练。奖励图展示了在训练期间首次收集到的移动平均值奖励情况。对于Pong而言,基于游戏结束时所获得的分数计算出运行平均值作为评估指标而非完整的21分比赛,这使得最低奖励为-1,最高奖励为+1。移动平均因子设置为0.99。 在训练过程中,使用GRU模型对Pong-v0进行4000万个时间步长后得出的平均奖励图显示了该算法的表现情况。同样,在采用BPTT方法训练GRU模型的过程中,在进行了约400次迭代后也得到了类似的结果展示。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • PyTorch-A2CPytorch
    优质
    PyTorch-A2C是一款基于Pytorch框架开发的强化学习算法库,专注于Actor-Critic方法的实现与优化,为研究人员和开发者提供了一个灵活、高效的实验平台。 A2C描述了这是使用OpenAI体育馆环境以PyTorch编写的实现。此实现包括卷积模型、原始A3C模型、完全连接的模型(基于Karpathy的Blog)以及基于GRU的递归模型的选择项。BPTT循环训练可选择采用时间反向传播(BPTT),它可以在一系列状态而非当前状态下建立梯度依赖关系。初步结果表明,使用BPTT不会提升训练效果。有关两种培训方法的比较,请参考相关资料。 该算法在Pong-v0上进行了训练。奖励图展示了在训练期间首次收集到的移动平均值奖励情况。对于Pong而言,基于游戏结束时所获得的分数计算出运行平均值作为评估指标而非完整的21分比赛,这使得最低奖励为-1,最高奖励为+1。移动平均因子设置为0.99。 在训练过程中,使用GRU模型对Pong-v0进行4000万个时间步长后得出的平均奖励图显示了该算法的表现情况。同样,在采用BPTT方法训练GRU模型的过程中,在进行了约400次迭代后也得到了类似的结果展示。
  • PyTorch模仿学习:若干强化学习算法——包括(A2C)和近距离策略化(PPO)...
    优质
    本项目使用PyTorch实现模仿学习及多种强化学习算法,重点在于A2C与PPO算法的应用,以提升智能体决策效能。 此仓库包含一些基于PyTorch的简单强化学习算法实现:优势演员评论家(A2C)同步变体、近端策略优化(PPO)——一种非常受欢迎的方法,以及DeepMind在其最近的工作中使用的最大后验策略优化(V-MPO)。此外还包括行为克隆(BC),这是一种将专家行为复制到新策略中的简单技术。每种算法都支持向量或图像观察空间及离散和连续动作空间。 为什么这个仓库被称为“模仿学习”?当我开始此项目时,我计划主要关注模仿学习,并且无模型方法仅用于初始阶段的“专家”训练。然而,在实现PPO过程中花费的时间比我预期的要长得多,因此目前大部分代码与PPO相关。尽管如此,我对模仿学习仍然很感兴趣,并打算在未来添加更多相关的算法。 当前功能包括几种基于策略、无需建模的方法:A2C、PPO、V-MPO和BC。这些方法支持离散(如分类、伯努利或GumbelSoftmax)及连续(例如贝塔分布、正态分布和tanh(正态))的策略分布,以及向量或图像类型的观察环境。在我的实验中发现Beta和tanh(Normal)表现最佳,在BipedalWalker等环境中尤为突出。
  • Pytorch-Pose:Pytorch姿估计
    优质
    Pytorch-Pose是一款使用Pytorch开发的开源库,专注于人体姿态识别和跟踪。它提供高效、灵活的姿态估计解决方案,适用于各种应用场景。 Pytorch-Pose是一个使用Pytorch进行姿势估计的项目。
  • pytorch_sac: PyTorch关键(SAC)
    优质
    pytorch_sac是一款基于PyTorch框架的开源软件包,实现了先进的深度强化学习算法——软演员关键(SAC),为研究和应用提供了高效工具。 如果您在研究项目中使用此代码,请引用我们为: @misc{pytorch_sac, author = {Yarats, Denis and Kostrikov, Ilya}, title = {Soft Actor-Critic (SAC) implementation in PyTorch}, year = {2020}, publisher = {GitHub}, journal = {GitHub repository} } 我们假设您有权访问可以运行CUDA 9.2的GPU。
  • SiamRPN-PyTorch: PyTorchSiamRPN
    优质
    SiamRPN-PyTorch是一款基于PyTorch框架开发的代码库,实现了Siamese Region Proposal Network(SiamRPN)算法。该工具为视觉追踪任务提供了高效、灵活的解决方案。 SiamRPN-PyTorch 使用 PyTorch 框架为对象跟踪应用程序重新实现了 SiamRPN。开发的代码基于先前的一些实现工作,并且为了测试所开发的代码,使用了 VOT-2013 体操子数据集。要求 Python 版本 >= 3.6、PyTorch 版本 >= 1.0.1、torchvision 和 cv2 库。 训练和追踪:已实现的代码以 [x1, y1, w, h] 的形式接收地面真实值(ground truth)。数据集结构如下: ``` dataset_path/Gymnastics/img1.jpg /img2.jpg ... /imgN.jpg /groundtruth.txt ``` 运行命令: $ python3 SiamRPN_train.py
  • EfficientNet-PyTorchPyTorchEfficientNet
    优质
    EfficientNet-PyTorch是使用PyTorch框架开发的EfficientNet模型的高效实现,适用于图像分类任务。它通过自动模型缩放策略优化了网络结构和参数大小。 使用EfficientNet PyTorch可以通过pip install efficientnet_pytorch命令安装,并通过以下代码加载预训练的模型: ```python from efficientnet_pytorch import EfficientNet model = EfficientNet.from_pretrained(efficientnet-b0) ``` 更新记录如下: - 2020年8月25日:新增了一个`include_top(默认为True)`选项,同时提高了代码质量和修复了相关问题。 - 2020年5月14日:增加了全面的注释和文档支持(感谢@workingcoder贡献)。 - 2020年1月23日:基于对抗训练添加了新的预训练模型类别,名为advprop。
  • SMOTE-PytorchPytorchSMOTE
    优质
    SMOTE-Pytorch 是一个利用 PyTorch 框架高效实现 SMOTE (Synthetic Minority Over-sampling Technique) 算法的项目,旨在解决类别不平衡问题,适用于深度学习任务的数据预处理。 当分类标签的分布不均衡时,数据集就会出现不平衡状态,在诸如欺诈检测之类的大量现实问题中,这种不平衡往往达到100比1的程度。尽管已经采取了多种方法来解决这一难题,但这个问题仍然备受关注,并且是研究的一个活跃领域。这里展示的是SMOTE(综合少数族裔过采样技术)的Pytorch实现版本。 关于SMOTE算法的相关内容和原理可以参考其原始论文《SMOTE: Synthetic Minority Over-sampling Technique》。
  • ERNIE-PytorchPytorchERNIE
    优质
    ERNIE-Pytorch是一个基于PyTorch框架构建的开源项目,它实现了百度的预训练语言模型ERNIE,为自然语言处理任务提供强大的工具支持。 ERNIE是基于Bert模型构建的,在中文自然语言处理任务上表现出色。 您可以采用以下三种方式来使用这些强大的模型: 直接加载(推荐) 以ernie-1.0为例: ```python from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained(nghuyong/ernie-1.0) model = AutoModel.from_pretrained(nghuyong/ernie-1.0) ``` 您可以访问Hugging Face的模型中心以查找所有支持的ERNIE版本。 以下是几个模型及其在Transformer中的标识符: | 模型 | Transformer中的标识符 | 描述 | |-----------|----------------------|----------| | ernie-1.0(中文) | nghuyong/ernie-1.0 | 中文版ERNIE,性能优越 | 下载模型的权重文件可以通过访问相应的链接来完成。
  • Flownet2-PytorchPytorchFlowNet 2.0
    优质
    Flownet2-Pytorch是利用PyTorch框架重现的FlowNet 2.0项目。该项目提供了一个灵活且高效的平台,用于学习和研究光流估计技术。 Flownet2-pytorch是FlowNet的PyTorch实现版本。它支持多GPU训练,并提供有关干净数据集与最终数据集的训练或推理示例。相同的命令可用于其他数据集的训练或推断,详情请参考相关文档。此外,该库还支持使用fp16(半精度)进行推理。 网络架构部分提供了多种不同的Flownet神经网络结构选项:FlowNet2S、FlowNet2C、FlowNet2CS、FlowNet2CSS 和 FlowNet2SD。每个网络的BatchNorm版本也可用。需要注意的是,FlowNet2或其衍生模型(如FlowNet2C*)依赖于自定义层Resample2d和Correlation 。这些定制层与CUDA内核的PyTorch实现可供使用。 数据加载器部分提供了相关说明和支持。
  • SuperPoint-PytorchHTTPSSuperPoint PyTorch
    优质
    SuperPoint-Pytorch 是一个基于HTTPS的项目,提供了用PyTorch框架实现的SuperPoint算法代码。此项目便于研究者和开发者在图像特征检测任务中使用与改进该模型。 超点火炬是Superpoint模型的PyTorch实现和评估文件。我们在Rémi Pautrat的TensorFlow实现中得到了很大的帮助。 在兴趣点检测方面,我们的模型似乎没有完全收敛,但与同形加法结合使用时结果看起来不错。 与其他点检测模型相比,虽然总体效果不如原始模型,但在匹配点的数量上有所差异:对于原始模型而言是这样的情况;而在我们实施的版本中则是另一番景象。尽管目前的整体表现不尽如人意,但我们希望将来能够利用不同的模块(例如数据生成、单应性调整等)进行改进。 该文件涵盖了实现的所有阶段: 1. 生成综合数据集 - 创建一个包含100,000个人造合成形状图像的数据集,并附带名称和标签的相应文件。此步骤在Tesla V-100上大约需要耗时12小时。 2. 使用合成数据集进行Magicpoint训练。