Advertisement

Stargan:StarGAN的官方PyTorch实现(CVPR 2018)

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
简介:StarGAN是首个多至多领域图像到图像转换模型,本文提供其官方PyTorch实现,适用于跨域风格迁移和数据增强。发表于CVPR 2018。 该存储库提供了以下论文的官方PyTorch实现: StarGAN:用于多域图像到图像翻译的统一生成对抗网络 此研究由1,2、1,2、2,3、2、2,4以及1,2的研究人员合作完成,他们分别来自韩国大学、Clova AI Research和NAVER Corp. 新泽西学院及香港科技大学。 摘要:最近的研究表明,在两个领域的图像到图像翻译中取得了巨大的成功。然而,现有方法在处理超过两个领域时存在有限的可扩展性和鲁棒性问题,因为需要为每对图像域分别构建不同的模型。为了克服这一限制,我们提出了StarGAN——一种新颖且具有高度伸缩性的解决方案,能够使用单一模型实现多个领域的图像到图像翻译。通过这种统一的架构设计,StarGAN能够在单个网络中同时处理和训练来自不同领域的一系列数据集,并且相比现有方法而言,其生成的质量更高、表现更佳。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Stargan:StarGANPyTorchCVPR 2018
    优质
    简介:StarGAN是首个多至多领域图像到图像转换模型,本文提供其官方PyTorch实现,适用于跨域风格迁移和数据增强。发表于CVPR 2018。 该存储库提供了以下论文的官方PyTorch实现: StarGAN:用于多域图像到图像翻译的统一生成对抗网络 此研究由1,2、1,2、2,3、2、2,4以及1,2的研究人员合作完成,他们分别来自韩国大学、Clova AI Research和NAVER Corp. 新泽西学院及香港科技大学。 摘要:最近的研究表明,在两个领域的图像到图像翻译中取得了巨大的成功。然而,现有方法在处理超过两个领域时存在有限的可扩展性和鲁棒性问题,因为需要为每对图像域分别构建不同的模型。为了克服这一限制,我们提出了StarGAN——一种新颖且具有高度伸缩性的解决方案,能够使用单一模型实现多个领域的图像到图像翻译。通过这种统一的架构设计,StarGAN能够在单个网络中同时处理和训练来自不同领域的一系列数据集,并且相比现有方法而言,其生成的质量更高、表现更佳。
  • Stargan-V2: StarGAN v2PyTorchCVPR 2020)
    优质
    简介:StarGAN-v2是继StarGAN之后的升级版模型,本项目提供了其官方的PyTorch实现。该代码在CVPR 2020上展示,并包含多种先进的图像到图像翻译功能。 StarGAN v2:多个域的多样化图像合成*,* *,*,在CVPR 2020中。(*表示相等贡献) 良好的图像到图像转换模型应学习不同视觉领域之间的映射,并且满足以下属性:1)生成图像的多样性和2)多领域的可扩展性。现有方法解决了其中一个问题——对于所有域而言,其多样性有限或需要多个独立模型。我们提出了StarGAN v2框架,它同时解决这两个问题并在基线之上显示出明显改善的结果。 在CelebA-HQ和新的动物面部Kong数据集(AFHQ)上的实验验证了我们在视觉质量、多样性和可伸缩性方面的优越表现。为了更好地评估图像到图像的翻译模型,我们发布了具有较大领域间及域内差异的高质量动物脸的数据集AFHQ。 StarGAN v2的相关代码、预训练模型和数据集可在clovaai stargan-v2中找到。
  • StyleGAN2-ADA-PyTorchPyTorch
    优质
    StyleGAN2-ADA-PyTorch是基于PyTorch框架的官方实现版本,它提供了高效且灵活的方式来训练和应用StyleGAN2模型,并加入了自适应数据增强功能。 StyleGAN2-ADA——官方PyTorch实施 作者:Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen 和 Timo Aila 摘要: 训练生成对抗网络(GAN)时,如果使用的数据量过小,通常会导致判别器过度拟合。这进而导致了模型在训练过程中的不稳定。 我们提出了一种自适应鉴别器增强机制来显著稳定有限数据环境下的训练。该方法不需要对损失函数或网络架构进行任何修改,并适用于从头开始的训练以及现有GAN在其他数据集上的微调操作。 我们在多个数据集中证明,仅使用几千张训练图像就能够取得良好效果;通常情况下,与需要更多数量级图片的传统StyleGAN2相比,我们的模型能够达到相似的效果。我们希望这项技术将为生成对抗网络开辟新的应用领域。 另外值得注意的是,在广泛使用的CIFAR-10基准测试中,实际上它只是一个有限数据集的示例。我们在该数据集中实现了FID分数从5.59显著提高到2.4的成绩。
  • RDN-pytorch:基于PyTorch残差密集网络图像超分辨率CVPR 2018
    优质
    RDN-pytorch是基于PyTorch框架实现的残差密集网络(Residual Dense Network)项目,用于提升图像超分辨率效果。该代码库实现了CVPR 2018论文中的方法。 RDN 存储库要求使用以下软件版本:PyTorch 1.0.0、脾气暴躁的1.15.4(这里的“脾气暴躁”可能是指另一个特定版本或组件,原文如此)、枕具5.4.1、h5py 2.8.0 和 tqdm 4.30.0。DIV2K和Set5数据集可以转换为HDF5格式,并且可以从指定链接下载相关文件。 以下是数据集的规模类型关联: - DIV2K:训练用(x2, x3, x4)、评估用(x2, x3, x4) - Set5:训练用、评估用 或者,您可以使用prepare.py脚本创建自定义数据集。运行命令如下所示: ``` python train.py --train-file BLAH_BLAH/DIV2K_x4.h5 \ --eval-file BLAH_BLAH/Set5_x4.h5 \ --outputs-dir BLAH_BLAH/outputs ```
  • FixMatch-pytorch:非PyTorch版本
    优质
    FixMatch-pytorch是由社区维护的一个非官方项目,提供了用PyTorch框架实现的FixMatch半监督学习算法。此代码库旨在为机器学习爱好者和研究者提供一个易于使用的实验平台。 这是FixMatch的非官方PyTorch实现。Tensorflow的官方实现在另一处提供。 该代码仅在使用RandAugment的情况下适用于FixMatch。 结果如下: CIFAR10数据集: 标签数量:40,250,4000 论文(RA)的结果为:86.19±3.37, 94.93±0.65, 95.74±0.05 本代码实现结果为:93.60, 95.31, 95.77 CIFAR100数据集: 标签数量:400,2500,10000 论文(RA)的结果为:51.15±1.75, 71.71±0.11, 77.40±0.12 本代码实现结果为:57.50, 72.93, 78.12 使用以下选项进行训练--amp --opt_level O2 --wdecay 0.001。 用法: 通过CIFAR-10数据集的4000个标记数据来训练模型。
  • PolyRNN-PP-PyTorch:Polygon-RNN++PyTorch训练代码(CVPR 2018
    优质
    PolyRNN-PP-PyTorch是基于CVPR 2018论文《Polygon-RNN++》的PyTorch实现,提供了一个高效的神经网络框架用于生成矢量图形表示。 Polyrnn-pp-pytorch:用于Polygon-RNN++的PyTorch培训工具代码(CVPR 2018)。
  • FastAutoAugmentPyTorch(Python版)
    优质
    简介:本文提供FastAutoAugment算法的官方PyTorch实现代码,助力于图像分类任务中的数据增强处理。 **Python FastAutoAugment官方PyTorch实现详解** 在机器学习领域,数据增强是一种非常重要的技术,用于扩大训练集的多样性,从而提升模型的泛化能力。Fast AutoAugment是数据增强的一种高效策略,它通过自动搜索算法来寻找最优的数据增强策略。本段落将深入探讨Fast AutoAugment的基本原理及其在PyTorch中的官方实现。 ### 1. Fast AutoAugment简介 Fast AutoAugment是一种基于自动机器学习(AutoML)的方法,旨在自动化地发现最佳数据增强策略。传统的数据增强方法如随机旋转、裁剪和翻转等通常需要人工设定参数,而Fast AutoAugment的目标是通过搜索算法找到最优的参数组合以最大化模型性能。 ### 2. 工作原理 Fast AutoAugment由两个主要部分组成:子政策(Sub-policies)和控制器(Controller)。子政策是由一系列操作组成的序列,每个操作都有特定的概率和强度。控制器负责生成并评估这些子策略,并通过强化学习优化整个策略的性能。 ### 3. PyTorch实现 `fast-autoaugment-master`是Fast AutoAugment在PyTorch环境下的官方实现版本,包含以下主要部分: - **Policy Search**: 负责生成和评估子政策,使用基于RNN的控制器进行强化学习。 - **Data Augmentation Operations**: 实现了各种数据增强操作如剪切、缩放以及色彩调整等。 - **Training Loop**: 设计了一个训练循环,包括模型训练、应用数据增强策略及性能评估步骤。 - **Utils**: 提供了一些辅助函数,例如日志记录、参数设置和结果可视化。 ### 4. 使用流程 1. 安装依赖:首先确保已安装PyTorch和其他必要的库如torchvision。 2. 配置参数:修改配置文件以设定模型类型、数据集及搜索策略等参数。 3. 运行搜索:运行搜索算法,让控制器生成并评估不同的子政策,并记录最佳性能的策略。 4. 训练模型:使用找到的最佳策略对训练数据进行增强,并用这些增强的数据来训练模型。 5. 评估结果:计算验证集或测试集中模型的表现,对比不同策略的效果。 ### 5. 实战应用 Fast AutoAugment适用于各种图像识别任务,例如ImageNet分类和COCO对象检测等。通过使用这个官方实现版本,开发者可以快速集成到自己的项目中并提高有限数据条件下模型的性能表现。 ### 6. 总结 作为数据增强领域的重大进展之一,Fast AutoAugment通过自动化搜索最优策略减少了人工调参的工作量。PyTorch提供的官方实现在理解与应用方面更加便捷。掌握这一技术对于提升机器学习模型在处理图像任务时的表现具有显著帮助作用。
  • PSP_CVPR_2021: CVPR-2021论文PyTorch-源码
    优质
    简介:PSP_CVPR_2021是CVPR 2021年一篇论文的PyTorch版本实现,包含完整源代码。此项目便于研究者学习和复现实验结果。 CVPR-2021论文的PyTorch实现:沿视听事件线的正样本传播 视听事件(AVE)本地化任务旨在找出包含特定视听事件的视频片段,并对其进行分类。这类事件既包括视觉元素也包括听觉元素,也就是说声源必须同时出现在视觉图像和音频部分中。 为了进行这项研究,需要准备以下资料: - AVE数据集 - 提取的音频特征文件(audio_feature.h5) - 提取的视频特征文件(visual_feature.h5) 此外还需要其他预处理文件: - audio_feature_noisy.h5 - visual_feature_noisy.h5 - right_label.h5 - prob_label.h5 - labels_noisy.h5 - mil_labels.h5 所有这些必需的数据应放置在名为data的文件夹中。 同时,还包括训练顺序文件(train_order.h5)。
  • CutMix-PyTorch: PytorchCutMix正则化器
    优质
    CutMix-PyTorch是基于官方Pytorch库开发的一个实现CutMix数据增强技术的项目,能够有效提升模型泛化能力。 在ICCV 2019(口头演讲)上被接受的论文《CutMix:一种正则化策略以训练具有可本地化功能的强大分类器》提出了CutMix正则化程序的官方Pytorch实现,作者包括桑、韩东云、吴成俊、桑赫俊、崔俊淑和柳永jo。该工作由NAVER Corp.的Clova AI Research团队完成。 论文基于先前提出的区域辍学策略来提升卷积神经网络分类器的表现,并指出这些方法能够有效引导模型聚焦于对象不太具有区分性的部分(例如,腿而不是人的头部),从而提高模型泛化能力和定位能力。然而,现有的区域丢弃方法通过覆盖黑色像素或随机噪声的补丁来移除训练图像上的信息像素,这会导致信息丢失和效率低下。 为解决这一问题,作者提出了CutMix增强策略:在训练图像之间剪切并粘贴补丁,并且根据补丁所占的比例混合其地面真相标签。这种方法通过有效利用更多的训练数据同时保留区域丢弃的优点来提高模型性能。
  • RTM3D: PyTorchRTM3D
    优质
    RTM3D是一款基于PyTorch开发的非官方实现工具,专为三维重建和理解任务设计,提供高效灵活的深度学习解决方案。 RTM3D-PyTorch是ECCV 2020论文的PyTorch实现版本,它基于单眼RGB图像进行实时3D对象检测,并支持张量板。该模型使用RESNET与关键点特征金字塔网络(KFPN),可以通过设置参数--arch fpn_resnet_18来选择架构。此外,还可以通过调整use_left_cam_prob参数来控制左右摄像机的图像输入。 在公式(3)中,由于log运算符不接受负值作为输入,因此不需要对dim进行归一化处理(因为归一化的dim值可能小于0)。为了适应这一情况,我直接回归到以米为单位的绝对尺寸值。对于深度估计,使用L1损失函数,并首先将sigmoid激活应用于深度输出。 在公式(5)中,我没有采用地面真实值的绝对值而是采用了相对值。而在式(7)中,则是用argmin替代了原文中的argmax操作符。这些修改旨在优化模型性能和准确性。