-
题名基于特征增强和语义相关性匹配的图像文本检索方法
被引量:1
- 1
-
-
作者
陈佳
张鸿
-
机构
武汉科技大学计算机科学与技术学院
智能信息处理与实时工业系统湖北省重点实验室(武汉科技大学)
-
出处
《计算机应用》
CSCD
北大核心
2024年第1期16-23,共8页
-
基金
国家重点研发计划项目(2020AAA0108503)
-
文摘
为实现图像文本检索中图像与文本的精确语义连接,提出一种基于特征增强和语义相关性匹配(FESCM)的图像文本检索方法。首先,通过特征增强表示模块,引入多头自注意力机制增强图像区域特征和文本单词特征,以减少冗余信息对图像区域和文本单词对齐的干扰;其次,通过语义相关性匹配模块,不仅利用局部匹配捕获局部显著对象之间的对应相关性,还把图像背景信息融入图像全局特征,利用全局匹配实现精确的全局语义相关性;最后,通过局部匹配分数和全局匹配分数获取图像和文本的最终匹配分数。实验结果表明,基于FESCM的图像文本检索方法在Flickr8k和Flickr30k基准数据集上的召回率总值比扩展的视觉语义嵌入方法分别提升了5.7和7.5个百分点,在MS-COCO数据集比双流层次相似度推理方法提升了3.7个百分点。因此该方法可以有效提高图像文本检索的准确度,实现图像与文本的语义连接。
-
关键词
图像文本检索
特征增强表示
多头自注意力机制
语义相关性匹配
-
Keywords
image text retrieval
feature enhancement representation
multi-head self-attention mechanism
semantic correlation matching
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-