Advertisement

Speech2Face: CVPR 2019论文实现- Speech2Face

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
《Speech2Face》是CVPR 2019的一篇论文,提出了一种通过语音信息预测人脸特征的方法。该模型能够从单一语音片段中推断出说话者的年龄、性别和种族等面部属性。 该项目实现了一个框架,该框架将语音转换为面部特征,如CVPR 2019论文《MIT CSAIL小组的面部表情》所述。 有关结果的详细报告可以在相关文档中找到。它是印度孟买印度技术学院(IIT)2019年秋季CS 753-自动语音识别课程的一个最终项目。 用法 项目的文件夹结构 该项目采用了高效的结构来安排数据库(音频和视频)以及代码,以避免任何重复。 . ├── base.py ├── LICENSE ├── logs │ └── ...... ├── model.py ├── models │ └── final.h5 ├── preprocess │ ├── avspeech_test.csv │ ├── avspeech_train.csv │ ├── clean_directory.sh │ ├── data │ │ ├── a

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Speech2Face: CVPR 2019- Speech2Face
    优质
    《Speech2Face》是CVPR 2019的一篇论文,提出了一种通过语音信息预测人脸特征的方法。该模型能够从单一语音片段中推断出说话者的年龄、性别和种族等面部属性。 该项目实现了一个框架,该框架将语音转换为面部特征,如CVPR 2019论文《MIT CSAIL小组的面部表情》所述。 有关结果的详细报告可以在相关文档中找到。它是印度孟买印度技术学院(IIT)2019年秋季CS 753-自动语音识别课程的一个最终项目。 用法 项目的文件夹结构 该项目采用了高效的结构来安排数据库(音频和视频)以及代码,以避免任何重复。 . ├── base.py ├── LICENSE ├── logs │ └── ...... ├── model.py ├── models │ └── final.h5 ├── preprocess │ ├── avspeech_test.csv │ ├── avspeech_train.csv │ ├── clean_directory.sh │ ├── data │ │ ├── a
  • DCC: CVPR 2016
    优质
    DCC是CVPR 2016会议中的一篇论文的开源实现项目,专注于计算机视觉领域的压缩与编码技术研究,旨在提高图像和视频的数据压缩效率。 深度合成字幕:亨德里克斯(Hendricks)、丽莎·安妮(Lisa Anne)等人在CVPR 2016年会议上发表了论文《深层合成字幕:描述没有配对训练数据的新颖对象类别》。 @inproceedings{hendricks16cvpr, title = {Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data}, author = {Hendricks, Lisa Anne and Venugopalan, Subhashini and Rohrbach, Marcus and Mooney, Raymond and Saenko Kate and Darrell, Trevor}, booktitle =
  • CVPR 2021 与代码解读: CVPR 2021/2020/2019...
    优质
    本系列文章深度解析CVPR会议近年(2019-2021)精选论文,并附有相关代码,旨在帮助研究者快速掌握前沿技术与方法。 推荐阅读:CVPR 2021/CVPR 2020/CVPR 2019/CVPR 2018/CVPR 2017的论文解读汇总,包括Papers、Codes、Project和Paper reading等部分。以下是论文分类汇总: - CVPR 2021最新论文分类汇总(持续更新) - CVPR 2020论文下载/代码/解读 - CVPR 2019全部论下载及开源代码的获取方式,共包含1294篇链接。 - CVPR 2019论文分方向盘点 - CVPR 2019论文直播分享回放:点云分割、目标检测和单目标跟踪等主题。
  • PSP_CVPR_2021: CVPR-2021的PyTorch-源码
    优质
    简介:PSP_CVPR_2021是CVPR 2021年一篇论文的PyTorch版本实现,包含完整源代码。此项目便于研究者学习和复现实验结果。 CVPR-2021论文的PyTorch实现:沿视听事件线的正样本传播 视听事件(AVE)本地化任务旨在找出包含特定视听事件的视频片段,并对其进行分类。这类事件既包括视觉元素也包括听觉元素,也就是说声源必须同时出现在视觉图像和音频部分中。 为了进行这项研究,需要准备以下资料: - AVE数据集 - 提取的音频特征文件(audio_feature.h5) - 提取的视频特征文件(visual_feature.h5) 此外还需要其他预处理文件: - audio_feature_noisy.h5 - visual_feature_noisy.h5 - right_label.h5 - prob_label.h5 - labels_noisy.h5 - mil_labels.h5 所有这些必需的数据应放置在名为data的文件夹中。 同时,还包括训练顺序文件(train_order.h5)。
  • L3C-PyTorch: CVPR 2019 用全分辨率学习无损图像压缩》的 PyTorch
    优质
    L3C-PyTorch是CVPR 2019论文《实用全分辨率学习无损图像压缩》的PyTorch实现,致力于提供一种高效、灵活的框架以进行无损图像压缩研究。 我们提出了首个实用的学习无损图像压缩系统L3C,并证明其优于流行的工程编解码器PNG、WebP及JPEG2000。我们的方法核心在于采用了一种针对自适应熵编码的完全并行化分层概率模型,该模型经过优化以实现端到端的高效压缩任务处理。 与最近提出的自回归离散概率模型(如PixelCNN)不同,L3C不仅对图像分布进行建模,并且结合了学习辅助表示;此外,它仅需三个前向传递即可预测所有像素的概率值,而无需为每个单独像素执行一次。因此,在采样时,与最快的PixelCNN变体Multiscale-PixelCNN相比,L3C的效率提高了两个数量级以上。
  • CVPR 2021-代码解析:来自 CVPR 2021、2020、2019、2018 和 2017 的,由极市团队整理...
    优质
    本资料集汇总了CVPR自2017年至2021年的精选论文与代码解析,由极市团队精心编纂,助力计算机视觉领域学习者深入理解前沿技术。 推荐阅读:CVPR2021/CVPR2020/CVPR2019/CVPR2018/CVPR2017的论文、代码、项目及论文解读摘要。 目录汇总包括从2000年至2020年历届CVPR最佳论文及其解释等信息。分享内容涵盖晚点云分割分享重构,目标检测分享重组,单目标跟踪分享重组以及人脸识别和三维多人多视角姿态识别的共享分享。 对于CVPR 2017全部论文下载,请注意查看相关资源并使用正确的密码进行访问。
  • OGNet: CVPR 2020《老是黄金》的代码
    优质
    简介:本文档提供了CVPR 2020论文《老是黄金》中的算法代码实现,旨在帮助研究者复现和理解该工作。项目名称为OGNet。 古老就是黄金:重新定义对抗性学习的分类器训练方法(CVPR 2020) 该代码最初是使用Python3.5构建的,但鉴于此版本已达到其生命周期终点(EOL),现在已在Python 2.7上对该代码进行了验证。执行Train.py文件作为进入整个程序的主要入口点。 请按照“dataset.txt”文档中的指示,在“数据”目录下放置训练和测试图像。在第一阶段,请使用opts.py设置必要的选项;而在第二阶段,则需通过opts_fine_tune_discriminator.py进行相应配置。 在此之前,评估功能仅依赖于test.py文件的执行来完成。然而,对于当前版本而言,无需单独运行test.py脚本,因为代码内部每次调用时都会自动执行测试函数以对比基线和OGNet的结果。
  • CVPR 2019《PVNet:基于像素级投票网络的6DoF姿态估计》的Python代码
    优质
    本项目为CVPR 2019论文《PVNet: 6DoF姿态估计的像素级投票网络》提供Python代码实现,支持高效、精准的姿态估计。 PVNet:用于6DoF姿态估计的像素级投票网络在CVPR 2019上以口头报告的形式发布,并获得了好评!我们提供了一个干净版本的PVNet,名为clean-pvnet,其中包括如何在自定义数据集上训练PVNet的方法。对于tless数据集的训练和测试,我们在其中检测图像中的多个实例。该项目页面欢迎任何问题或讨论! 此外,“PVNet:用于6DoF姿态估计的像素化投票网络”是由Sida Peng、刘元、黄启兴、周小伟及包虎军在CVPR 2019会议上提出的项目。 对于截断LINEMOD数据集,我们已经进行了检查。
  • Panoptic-DeepLab:基于PyTorch的CVPR 2020
    优质
    《Panoptic-DeepLab》是CVPR 2020的一篇重要论文,该代码库提供了基于PyTorch框架下的模型实现,用于全景分割任务的研究与应用。 Panoptic-DeepLab 是一种最先进的自下而上的全景分割方法,在CVPR 2020上发布。它的目标是为输入图像中的每个像素分配语义标签(例如人、狗、猫)和实例标签(对于属于物体类别的像素,使用ID如1、2、3等)。这是基于Detectron2的CVPR 2020论文的一个PyTorch重新实现版本。 此外,在此仓库中现在还支持利用DeepLabV3和DeepLabV3+进行分割模型的操作。在消息[2021/01/25],我们发现COCO实验中的旧配置文件存在错误(对于COCO,需要将MAX_SIZE_TRAIN从640更改为960)。现在我们已经复制了COCO的结果(35.5 PQ)。 在消息[2020/12/17]中,支持COCO数据集。而在消息[2020/12/11],Detectron2版本的Panoptic-DeepLab现在支持DepthwiseSeparableConv2d。
  • MTAN:“专注的端到端多任务学习”[CVPR 2019]
    优质
    本文介绍了一种名为MTAN的模型,它能在多个任务之间共享信息的同时保持对每个特定任务的关注,实现了高效的端到端多任务学习。该方法在多种视觉任务中表现出色,并于2019年CVPR会议上发表。 MTAN-多任务注意力网络的存储库包含了该模型的源代码以及基线介绍。更多详细结果请参阅项目页面。 在文件夹im2im_pred中,我们提供了建议的网络及NYUv2数据集上的所有基线实验图像到图像预测(一对多)。所有模型均使用PyTorch编写,并且最新的提交已更新为PyTorch 1.5版。您可以下载我们预处理过的NYUv2数据集。 请注意,在我们的研究中,我们从预先计算的地面真实法线上获取了原始的13类NYUv2数据集并直接应用定义的分段标签进行使用。遗憾的是,由于意外的计算机崩溃,无法提供原始的预处理代码。 更新-2019年6月:我们现在发布了具有2、7和19类语义标签及(反)深度标签的预处理CityScapes数据集版本。