基于类激活映射-注意力机制的图像描述方法被引量：2

Image caption generation method based on class activation mapping and attention mechanism

导出

摘要基于软注意力机制的图像描述算法,提出类激活映射-注意力机制的图像描述方法。利用类激活映射算法得到卷积特征包含定位以及更丰富的语义信息,使得卷积特征与图像描述具有更好的对应关系,解决卷积特征与图像描述的对齐问题,生成的自然语言描述能够尽可能完整的描述图像内容。选择双层长短时记忆网络改进注意力机制结构,使得新的注意力机制适合当前全局和局部信息的特征表示,能够选取合适的特征表示生成图像描述。试验结果表明,改进模型在诸多评价指标上优于软注意力机制等模型,其中在MSCOCO数据集上Bleu-4的评价指标相较于软注意力模型提高了16.8%。类激活映射机制可以解决图像空间信息与描述语义对齐的问题,使得生成的自然语言减少丢失关键信息,提高图像描述的准确性。 Class activation mapping-attention mechanism was introduced to soft attention based image caption framework.The class activation mapping mechanism introduced the position information to convolutional features with richer semantic information,where there was a better alignment between convolutional features and description words,so that the generated description could describe the image content more completely.Improved the attention mechanism with double layer of long short-term memory network made the attention mechanism suitable for global and local information for generating words with specific features.The experiments showed that the improved model could generate more accurate description and outperformed the performance of models such as the soft attention mechanism in many evaluation criteria,specially the bleu-4 result on the MSCOCO dataset increased 16.8%compared with the soft attention-based model,which showed class activation mapping-attention could align the word and the convolutional feature,and generate more accurate descriptions with less key information lost.

作者廖南星周世斌张国鹏程德强 LIAO Nanxing;ZHOU Shibin;ZHANG Guopeng;CHENG Deqiang(School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,Jiangsu,China;Sun Yueqi Honors College,China University of Mining and Technology,Xuzhou 221116,Jiangsu,China)

机构地区中国矿业大学计算机科学与技术学院中国矿业大学孙越崎学院

出处《山东大学学报（工学版）》 CAS CSCD 北大核心 2020年第4期28-34,共7页 Journal of Shandong University（Engineering Science）

基金国家自然科学基金资助项目(61971421)。

关键词图像描述注意力机制类激活映射卷积神经网络循环神经网络 image caption attention mechanism class activation mapping convolutional neural network recurrent neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献13

1王伟莉,史淑新,张东升,郭文婵,杨胜利.2017年新乡市夏玉米灾害情况调查报告[J].农业科技通讯,2019(1):40-44. 被引量：9
2郭成,周天旺,王春明.2017年甘肃9市(州)玉米主要病虫害调查[J].甘肃农业科技,2018,49(2):18-21. 被引量：13
3邓帅.基于改进贝叶斯优化算法的CNN超参数优化方法[J].计算机应用研究,2019,36(7):1984-1987. 被引量：34
4蒋芸,张海,陈莉,陶生鑫.基于卷积神经网络的图像数据增强算法[J].计算机工程与科学,2019,41(11):2007-2016. 被引量：17
5黄友文,游亚东,赵朋.融合卷积注意力机制的图像描述生成模型[J].计算机应用,2020,40(1):23-27. 被引量：12
6王志平,郑宝友,刘仪伟.一种改进的LSTM模型在图像标题生成中的应用[J].计算机与现代化,2020,0(4):37-41. 被引量：3
7陈雷,袁媛.大田作物病害识别研究图像数据集[J].中国科学数据（中英文网络版）,2019,4(4):81-87. 被引量：13
8郭淑涛,赵德新.一种基于深度学习的中文图像描述模型[J].天津理工大学学报,2020,36(3):30-35. 被引量：4
9李双峰.TensorFlow Lite:端侧机器学习框架[J].计算机研究与发展,2020,57(9):1839-1853. 被引量：26
10马倩霞,李频捷,宋靖雁,张涛.图像描述问题发展趋势及应用[J].无人系统技术,2020,3(6):25-35. 被引量：3

引证文献2

1周宇辉,何志琴.基于改进注意力机制的图像描述算法[J].智能计算机与应用,2022,12(2):58-63.
2张建华,赵洪凯,姜雷,韩应欣,姜娇阳,张海涛.玉米叶部病害识别模型的建立与APP开发[J].农业与技术,2022,42(13):38-44. 被引量：4

二级引证文献4

1史亚平,汪宗光.基于卷积神经网络的玉米叶片疾病识别研究[J].农业与技术,2023,43(6):24-29.
2张建华,赵洪凯,周彦斌,姜娇阳,魏兴伟.基于YOLOv5模型的大豆叶部斑病识别方法[J].信息与电脑,2023,35(4):163-165.
3洪炎,庞荣,魏青,苏静明,赵峰.光照不均图像的非线性自适应增强算法[J].激光与光电子学进展,2023,60(16):80-89.
4凌慕菲,杨冬风.基于改进YOLOv5s模型的玉米叶片病害识别[J].农业灾害研究,2023,13(8):126-128.

1张青华,谷国太,李彩林,王佳文.基于深度学习的遥感影像小目标检测[J].河南水利与南水北调,2020,49(5):83-86. 被引量：3
2杨再峰,潘燕婷.我国大学智库运行机制结构审视及逻辑取向[J].梧州学院学报,2020,30(2):100-106.
3诸天逸,李凤华,金伟,郭云川,房梁,成林.互操作性与自治性平衡的跨域访问控制策略映射[J].通信学报,2020,41(9):29-48.
4丁志斌,胡瑾.英汉语序语义映射机制研究[J].西安外国语大学学报,2020,28(3):1-4. 被引量：1

山东大学学报（工学版）

2020年第4期

浏览历史

内容加载中请稍等...

基于类激活映射-注意力机制的图像描述方法被引量：2

同被引文献13

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于类激活映射-注意力机制的图像描述方法 被引量：2

同被引文献13

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于类激活映射-注意力机制的图像描述方法被引量：2