
时间感知音频视觉视频解析(CVPR 2021论文及代码探讨弱监督下的视听视频解析)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文于CVPR 2021发表,研究在弱监督条件下通过时间感知方法解析音频与视觉信息在视频中的关联。提供相关代码以供学术交流和应用开发。
本段落探讨了在弱监督条件下用于视听视频解析的异构线索方法,并展示了CVPR 2021的相关论文代码。任务目标是识别视频中的声音与视觉事件及其时间位置,需要注意的是,这些视觉和音频事件可能是不同步的。
数据准备包括下载LLP 数据集以及预处理后的音频和视频特征文件,并将r2plus1d_18、res152 和vggish功能整合到feats 文件夹中。训练过程分为三个阶段:首先使用多实例学习(MIL)与推荐的对比学习方法来训练基础模型;接着冻结已经训练好的模型,生成模态感知标签。
具体命令如下:
- 训练基本模型:运行 `python main_avvp.py --mode train --audio_dir ../feats/vggish/ --video_dir ../feats/res152/ --st_dir ../feats/r2plus1d_18`
- 生成模态感知标签:此步骤未提供具体命令,但提到需要冻结训练好的模型后进行。
全部评论 (0)
还没有任何评论哟~


