
利用多模态神经网络生成图像的中文描述
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本研究探索了使用先进的多模态神经网络技术来分析和生成图像的准确中文描述,旨在提高计算机视觉模型的理解能力与表达效果。
自动生成图片描述是自然语言处理与计算机视觉领域的热门研究课题,它要求计算机能够理解图像中的语义信息,并以人类可读的自然语言形式表达出来。鉴于目前生成中文图像描述的整体质量不高,我们提出了一种新方法:首先利用FastText技术来生成词向量,并通过卷积神经网络提取出图像的全局特征;接着将成对出现的文字描述和图片进行编码处理,然后将其融合为一个多模态特征矩阵;最后采用多层长短时记忆网络(LSTM)模型对该多模态特征矩阵进行解码操作。实验结果显示,在双语评估研究(BLEU)这一评价指标上,我们的方法表现优于其他现有方案,并且生成的中文描述能够准确地概括图像中的关键信息和含义。
全部评论 (0)
还没有任何评论哟~


