期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于跨模态多维关系增强的多模态模型研究
1
作者 成曦 杨关 +1 位作者 刘小明 刘阳 《计算机应用研究》 CSCD 北大核心 2023年第8期2367-2374,共8页
针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(multi-dimensional relationship enhancement model,MRE),用于提... 针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(multi-dimensional relationship enhancement model,MRE),用于提取潜层结构下图像各要素之间的空间关系信息,并推理出视觉—语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征,从而增强图像空间关系特征表示。同时设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系,实现跨模态关系对齐。在MSCOCO数据集上的实验表明所提模型获得了更好的性能,其中BLEU-4和CIDEr分数分别提升了0.5%和1.3%。将这种方法应用到视觉问答任务中,在VQA 2.0数据集上性能得到了0.62%的提升,证明了该方法在多模态任务方面的广泛适用性。 展开更多
关键词 图像描述 视觉问答 特征多样性 空间关系 上下文语义关系 特征融合 多模态编码
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部