-
题名基于类时序注意力机制的图像描述方法
被引量:1
- 1
-
-
作者
段海龙
吴春雷
王雷全
-
机构
中国石油大学(华东)计算机科学与技术学院
-
出处
《计算机系统应用》
2021年第7期232-238,共7页
-
基金
山东省自然科学基金(ZR2020MF136)
中石油重大科技项目(ZD2019-183-001)
中央高校基本科研业务费专项资金(20CX05018A)。
-
文摘
近年来,注意力机制已经广泛应用于计算机视觉领域,图像描述常用的编码器-解码器框架也不例外.然而,当前的解码框架并未较清楚地分析图像特征与长短期记忆神经网络(LSTM)隐藏状态之间的相关性,这也是引起累积误差的原因之一.基于该问题,本文提出一个类时序注意力网络(Similar Temporal Attention Network,STAN),该网络扩展了传统的注意力机制,目的是加强注意力结果与隐藏状态在不同时刻的相关性.STAN首先对当前时刻的隐藏状态和特征向量施加注意力,然后通过注意力融合槽(AFS)将两个相邻LSTM片段的注意力结果引入到下一时刻的网络循环中,以增强注意力结果与隐藏状态之间的相关性.同时,本文设计一个隐藏状态开关(HSS)来指导单词的生成,将其与AFS结合起来可以在一定程度上解决累积误差的问题.在官方数据集Microsoft COCO上的大量实验和各种评估机制的结果表明,本文提出的模型与基线模型相比,具有明显的优越性,取得了更有竞争力的结果.
-
关键词
图像描述
注意力机制
类时序注意力
长短期记忆网络
-
Keywords
image captioning
attention mechanism
similar temporal attention
LSTM network
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-