Advertisement

PSP_CVPR_2021: 源码,对应于CVPR-2021论文的PyTorch实现。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
CVPR-2021论文的PyTorch实现:本文针对沿视听事件线的正样本传播进行了研究。该研究的核心在于识别包含视听事件的视频片段,并对这些片段进行类别划分。 视听事件指的是同时存在视觉和听觉信息的场景,即声源必须在视觉图像(可见)中呈现,同时发出的声音也存在于音频部分(可听)。为了实现这一目标,我们构建了一个框架,该框架能够准备AVE数据集,并提取音频和视频特征。这些数据集和功能均可从存储库中下载获取。此外,存储库中还包含了其他用于预处理的文件,同样可以从这里下载。 以下表格详细列出了所有必需的数据文件,建议将这些文件放置在data文件夹中。具体来说,包含音频特征的`audio_feature.h5`、视觉特征的`visual_feature.h5`、添加噪声后的音频特征`audio_feature_noisy.h5`以及添加噪声后的视觉特征`visual_feature_noisy.h5`;此外还有右标签文件`right_label.h5`、概率标签文件`prob_label.h5`、噪声标签文件`labels_noisy.h5`、军事标签文件 `mil_labels.h5` 以及训练顺序文件 `train_order.h5` 和验证数据文件 `val`。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • PSP_CVPR_2021: CVPR-2021PyTorch-
    优质
    简介:PSP_CVPR_2021是CVPR 2021年一篇论文的PyTorch版本实现,包含完整源代码。此项目便于研究者学习和复现实验结果。 CVPR-2021论文的PyTorch实现:沿视听事件线的正样本传播 视听事件(AVE)本地化任务旨在找出包含特定视听事件的视频片段,并对其进行分类。这类事件既包括视觉元素也包括听觉元素,也就是说声源必须同时出现在视觉图像和音频部分中。 为了进行这项研究,需要准备以下资料: - AVE数据集 - 提取的音频特征文件(audio_feature.h5) - 提取的视频特征文件(visual_feature.h5) 此外还需要其他预处理文件: - audio_feature_noisy.h5 - visual_feature_noisy.h5 - right_label.h5 - prob_label.h5 - labels_noisy.h5 - mil_labels.h5 所有这些必需的数据应放置在名为data的文件夹中。 同时,还包括训练顺序文件(train_order.h5)。
  • CVPR 2021 与代解读: CVPR 2021/2020/2019...
    优质
    本系列文章深度解析CVPR会议近年(2019-2021)精选论文,并附有相关代码,旨在帮助研究者快速掌握前沿技术与方法。 推荐阅读:CVPR 2021/CVPR 2020/CVPR 2019/CVPR 2018/CVPR 2017的论文解读汇总,包括Papers、Codes、Project和Paper reading等部分。以下是论文分类汇总: - CVPR 2021最新论文分类汇总(持续更新) - CVPR 2020论文下载/代码/解读 - CVPR 2019全部论下载及开源代码的获取方式,共包含1294篇链接。 - CVPR 2019论文分方向盘点 - CVPR 2019论文直播分享回放:点云分割、目标检测和单目标跟踪等主题。
  • Panoptic-DeepLab:基PyTorchCVPR 2020
    优质
    《Panoptic-DeepLab》是CVPR 2020的一篇重要论文,该代码库提供了基于PyTorch框架下的模型实现,用于全景分割任务的研究与应用。 Panoptic-DeepLab 是一种最先进的自下而上的全景分割方法,在CVPR 2020上发布。它的目标是为输入图像中的每个像素分配语义标签(例如人、狗、猫)和实例标签(对于属于物体类别的像素,使用ID如1、2、3等)。这是基于Detectron2的CVPR 2020论文的一个PyTorch重新实现版本。 此外,在此仓库中现在还支持利用DeepLabV3和DeepLabV3+进行分割模型的操作。在消息[2021/01/25],我们发现COCO实验中的旧配置文件存在错误(对于COCO,需要将MAX_SIZE_TRAIN从640更改为960)。现在我们已经复制了COCO的结果(35.5 PQ)。 在消息[2020/12/17]中,支持COCO数据集。而在消息[2020/12/11],Detectron2版本的Panoptic-DeepLab现在支持DepthwiseSeparableConv2d。
  • CVPR 2021与开汇总.docx
    优质
    这份文档总结了CVPR 2021会议中发布的精选论文及其开源代码,为研究者提供便捷访问最新计算机视觉成果的途径。 CVPR 2021论文及开源代码合集,并按不同方向进行了整理。
  • Patch-NetVLAD: CVPR 2021 与代
    优质
    Patch-NetVLAD是CVPR 2021的一篇论文及其开源代码,专注于改进大规模地方识别任务中的视觉描述符生成及图像检索方法。 CVPR2021论文的代码“Patch-NetVLAD:用于位置识别的局部全局描述符的多尺度融合”已经在大会前(最晚在2021年6月1日之前)完全可用。 引用格式如下: @inproceedings{hausler2021patchnetvlad, title={Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition}, author={Hausler, Stephen and Garg, Sourav and Xu, Ming and Milford, Michael and Fischer, Tobias}, booktitle={Proceedings of the IEEECVF Conference}
  • DCC: CVPR 2016
    优质
    DCC是CVPR 2016会议中的一篇论文的开源实现项目,专注于计算机视觉领域的压缩与编码技术研究,旨在提高图像和视频的数据压缩效率。 深度合成字幕:亨德里克斯(Hendricks)、丽莎·安妮(Lisa Anne)等人在CVPR 2016年会议上发表了论文《深层合成字幕:描述没有配对训练数据的新颖对象类别》。 @inproceedings{hendricks16cvpr, title = {Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data}, author = {Hendricks, Lisa Anne and Venugopalan, Subhashini and Rohrbach, Marcus and Mooney, Raymond and Saenko Kate and Darrell, Trevor}, booktitle =
  • CVPR 2021-解析:来自 CVPR 2021、2020、2019、2018 和 2017 ,由极市团队整理...
    优质
    本资料集汇总了CVPR自2017年至2021年的精选论文与代码解析,由极市团队精心编纂,助力计算机视觉领域学习者深入理解前沿技术。 推荐阅读:CVPR2021/CVPR2020/CVPR2019/CVPR2018/CVPR2017的论文、代码、项目及论文解读摘要。 目录汇总包括从2000年至2020年历届CVPR最佳论文及其解释等信息。分享内容涵盖晚点云分割分享重构,目标检测分享重组,单目标跟踪分享重组以及人脸识别和三维多人多视角姿态识别的共享分享。 对于CVPR 2017全部论文下载,请注意查看相关资源并使用正确的密码进行访问。
  • Stargan:StarGAN官方PyTorchCVPR 2018)
    优质
    简介:StarGAN是首个多至多领域图像到图像转换模型,本文提供其官方PyTorch实现,适用于跨域风格迁移和数据增强。发表于CVPR 2018。 该存储库提供了以下论文的官方PyTorch实现: StarGAN:用于多域图像到图像翻译的统一生成对抗网络 此研究由1,2、1,2、2,3、2、2,4以及1,2的研究人员合作完成,他们分别来自韩国大学、Clova AI Research和NAVER Corp. 新泽西学院及香港科技大学。 摘要:最近的研究表明,在两个领域的图像到图像翻译中取得了巨大的成功。然而,现有方法在处理超过两个领域时存在有限的可扩展性和鲁棒性问题,因为需要为每对图像域分别构建不同的模型。为了克服这一限制,我们提出了StarGAN——一种新颖且具有高度伸缩性的解决方案,能够使用单一模型实现多个领域的图像到图像翻译。通过这种统一的架构设计,StarGAN能够在单个网络中同时处理和训练来自不同领域的一系列数据集,并且相比现有方法而言,其生成的质量更高、表现更佳。
  • Speech2Face: CVPR 2019- Speech2Face
    优质
    《Speech2Face》是CVPR 2019的一篇论文,提出了一种通过语音信息预测人脸特征的方法。该模型能够从单一语音片段中推断出说话者的年龄、性别和种族等面部属性。 该项目实现了一个框架,该框架将语音转换为面部特征,如CVPR 2019论文《MIT CSAIL小组的面部表情》所述。 有关结果的详细报告可以在相关文档中找到。它是印度孟买印度技术学院(IIT)2019年秋季CS 753-自动语音识别课程的一个最终项目。 用法 项目的文件夹结构 该项目采用了高效的结构来安排数据库(音频和视频)以及代码,以避免任何重复。 . ├── base.py ├── LICENSE ├── logs │ └── ...... ├── model.py ├── models │ └── final.h5 ├── preprocess │ ├── avspeech_test.csv │ ├── avspeech_train.csv │ ├── clean_directory.sh │ ├── data │ │ ├── a
  • L3C-PyTorch: CVPR 2019 用全分辨率学习无损图像压缩》 PyTorch
    优质
    L3C-PyTorch是CVPR 2019论文《实用全分辨率学习无损图像压缩》的PyTorch实现,致力于提供一种高效、灵活的框架以进行无损图像压缩研究。 我们提出了首个实用的学习无损图像压缩系统L3C,并证明其优于流行的工程编解码器PNG、WebP及JPEG2000。我们的方法核心在于采用了一种针对自适应熵编码的完全并行化分层概率模型,该模型经过优化以实现端到端的高效压缩任务处理。 与最近提出的自回归离散概率模型(如PixelCNN)不同,L3C不仅对图像分布进行建模,并且结合了学习辅助表示;此外,它仅需三个前向传递即可预测所有像素的概率值,而无需为每个单独像素执行一次。因此,在采样时,与最快的PixelCNN变体Multiscale-PixelCNN相比,L3C的效率提高了两个数量级以上。