
对抗性跨模态检索
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
对抗性跨模态检索是一种利用机器学习技术,在不同数据类型(如文本与图像)间进行信息匹配和检索的方法,通过引入对抗训练来提升模型在多模态环境下的鲁棒性和泛化能力。
跨媒体检索(Cross-modal retrieval)旨在实现不同模态(例如文本与图像)之间的灵活检索体验。其核心研究在于学习一个通用子空间,在此空间中可以对来自不同模态的项目进行直接比较。本段落提出了一种基于对抗性学习的新颖跨模态检索方法——Adversarial Cross-Modal Retrieval (ACMR) 方法,旨在寻找有效的共同子空间。
该方法通过两个过程之间的互动来实现对抗性学习:第一个是特征投影器,它试图在通用子空间中生成一种模态不变的表示,并且混淆另一个过程(即模态分类器),后者尝试根据生成的表示区分不同模态。为了进一步缩小来自具有相同语义标签的不同模态的所有项目之间的表征差距并最大化语义不同的图像和文本间的距离,我们在特征投影器上施加了三元约束。
通过以上方法的联合利用,在将多媒体数据映射到通用子空间时可以更好地保留其底层跨模式语义结构。在四个广泛使用的基准数据集上的全面实验结果表明,所提出的ACMR方法在学习有效的子空间表示方面优于当前最先进的跨模态检索方法,并且显著超越了现有技术。
全部评论 (0)
还没有任何评论哟~


