基于Transformer的细粒度图像中文描述被引量：3

Chinese Caption of Fine-Grained Images Based on Transformer

下载PDF

导出

摘要针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、缺乏细节语义信息的问题,提出一种用Transformer多头注意力(multi-head attention, MHA)网络,融合粗粒度的全局特征和细粒度的区域目标实体特征方法.该方法通过多尺度特征的融合,使图像注意力更易聚焦于细粒度的目标区域,得到更具细粒度语义特征的图像表示,从而有效改善了图像描述.在数据集ICC上使用多种评价指标进行验证,结果表明,该模型在各项指标上均取得了更好的图像描述效果. Aiming at the problem that the traditional recurrent neural network(RNN) structure in image Chinese caption was not conducive to long sentence generation and lacked detailed semantic information, we proposed a Transformer multi-head attention(MHA) network, which fused the coarse-grained global features and fine-grained regional target entity features. Through the fusion of multi-scale features, the method made it easier for image attention to focus on fine-grained target regions and an image representation with more fine-grained semantic features was obtained, thus effectively improving image caption. A variety of evaluation indicators were used for verification on the ICC dataset, the results show that the model achieves better image caption effects in all indicators.

作者肖雄徐伟峰王洪涛苏攀高思华 XIAO Xiong;XU Weifeng;WANG Hongtao;SU Pan;GAO Sihua(Department of Computer,North China Electric Power University(Baoding),Baoding 071003,Hebei Province,China;School of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,China)

机构地区华北电力大学(保定)计算机系中国民航大学计算机科学与技术学院

出处《吉林大学学报（理学版）》 CAS 北大核心 2022年第5期1103-1112,共10页 Journal of Jilin University:Science Edition

基金国家自然科学基金(批准号:61802124) 全国高等院校计算机基础教育研究会项目(批准号:2019-AFCEC-125)。

关键词图像中文描述细粒度特征多头注意力 image Chinese caption fine-grained feature multi-head attention(MHA)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1林金朝,文盼,庞宇.基于特征金字塔网络的自然场景图像文本检测[J].重庆邮电大学学报（自然科学版）,2022,34(1):155-163. 被引量：3
2曹洁,苏哲,李晓旭.基于Corr-LDA模型的图像标注方法[J].吉林大学学报（工学版）,2018,48(4):1237-1243. 被引量：3
3李志欣,魏海洋,黄飞成,张灿龙,马慧芳,史忠植.结合视觉特征和场景语义的图像描述生成[J].计算机学报,2020,43(9):1624-1640. 被引量：25
4高云龙,左万利,王英,王鑫.基于集成神经网络的短文本分类模型[J].吉林大学学报（理学版）,2018,56(4):933-938. 被引量：12
5王磊,刘露,牛亮,胡封晔,彭涛.基于关系触发词与单层GRU模型的关系抽取方法[J].吉林大学学报（理学版）,2020,58(1):95-103. 被引量：6

二级参考文献9

1李志欣,施智平,李志清,史忠植.融合语义主题的图像自动标注[J].软件学报,2011,22(4):801-812. 被引量：50
2鲍泓,徐光美,冯松鹤,须德.自动图像标注技术研究进展[J].计算机科学,2011,38(7):35-40. 被引量：21
3孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：612
4冯时,付永陈,阳锋,王大玲,张一飞.基于依存句法的博文情感倾向分析研究[J].计算机研究与发展,2012,49(11):2395-2406. 被引量：34
5李天颍,刘璘,赵德旺,曹原.一种基于依存文法的需求文本策略依赖关系抽取方法[J].计算机学报,2013,36(1):54-62. 被引量：15
6王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.自然场景图像中的文本检测综述[J].自动化学报,2018,44(12):2113-2141. 被引量：51
7刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：938
8刘绍毓,席耀一,李弼程,唐永旺,陈刚.无监督实体关系触发词词典自动构建[J].计算机应用与软件,2016,33(5):72-76. 被引量：3
9李明耀,杨静.基于依存分析的开放式中文实体关系抽取方法[J].计算机工程,2016,42(6):201-207. 被引量：27

共引文献43

1刘云,黄荣乘.最大判别特征选择算法在文本分类的优化研究[J].四川大学学报（自然科学版）,2019,56(1):65-70. 被引量：7
2刘承启,林振荣,黄文海.基于LSTM的WEB服务响应时间大数据预测方法[J].四川大学学报（自然科学版）,2019,56(1):71-77. 被引量：7
3姚礼垚,熊浩,钟依健,刘财兴,刘汉兴,高月芳.基于深度网络模型的牛脸检测算法比较[J].江苏大学学报（自然科学版）,2019,40(2):197-202. 被引量：10
4邓可君,华凯,邓昌明,姜宁,袁玲,彭一明,张治坤.基于机器学习的论文作者名消歧方法研究[J].四川大学学报（自然科学版）,2019,56(2):241-245. 被引量：8
5王霞,孙界平,琚生根,胡思才.基于段落内部推理和联合问题答案匹配的选择型阅读理解模型[J].四川大学学报（自然科学版）,2019,56(3):423-430. 被引量：4
6谢正文,柏钧献,熊熙,琚生根.基于增强问题重要性表示的答案选择算法研究[J].四川大学学报（自然科学版）,2020,57(1):66-72. 被引量：3
7汪嘉伟,杨煦晨,琚生根,袁宵,谢正文.基于卷积神经网络和自注意力机制的文本分类模型[J].四川大学学报（自然科学版）,2020,57(3):469-475. 被引量：25
8高金兰,李豪,段玉波,王宏建.基于Stacking多GRU模型的风电场短期功率预测[J].吉林大学学报（信息科学版）,2020,38(4):482-490. 被引量：3
9童曼琪,黄江升,郭昆.融合Spark与隐性兴趣的用户综合影响力度量[J].计算机工程,2020,46(11):61-69. 被引量：1
10段丹丹,唐加山,温勇,袁克海.基于BERT模型的中文短文本分类算法[J].计算机工程,2021,47(1):79-86. 被引量：73

同被引文献11

1苏翎菲,化永朝,董希旺,任章.人与无人机集群多模态智能交互方法[J].航空学报,2022,43(S01):129-142. 被引量：4
2刘泽宇,马龙龙,吴健,孙乐.基于多模态神经网络的图像中文摘要生成方法[J].中文信息学报,2017,31(6):162-171. 被引量：6
3傅健.卷积深度神经网络在基于文档的自动问答任务中的应用与改进[J].计算机应用与软件,2019,36(8):177-180. 被引量：4
4陈兴.基于多模态神经网络生成图像中文描述[J].计算机系统应用,2020,29(9):191-197. 被引量：2
5邓珍荣,张永林,杨睿,蓝如师,黄文明,罗笑南.结合全局和局部特征的BiGRU-RA图像中文描述模型[J].计算机辅助设计与图形学学报,2021,33(1):49-58. 被引量：2
6肖雨寒,江爱文,王明文,揭安全.基于视觉-语义中间综合属性特征的图像中文描述生成算法[J].中文信息学报,2021,35(4):129-138. 被引量：3
7徐晓光,李海.多尺度特征在YOLO算法中的应用研究[J].电子测量与仪器学报,2021,35(6):96-101. 被引量：33
8曹春键,臧强,王泽嘉,屠壮.改进的YOLOv3目标检测算法[J].中国科技论文,2021,16(11):1195-1201. 被引量：5
9刘文婷,卢新明.基于计算机视觉的Transformer研究进展[J].计算机工程与应用,2022,58(6):1-16. 被引量：61
10邱爽,赵耀,韦世奎.图像指代分割研究综述[J].信号处理,2022,38(6):1144-1154. 被引量：3

引证文献3

1王进,刘麒麟,马樱仪,孙开伟,胡珂.融合多路注意力机制的语句匹配模型[J].重庆邮电大学学报（自然科学版）,2023,35(3):520-527. 被引量：1
2郝子娴,汪兴建,杨有.联合视觉分组的图像中文描述[J].微电子学与计算机,2024,41(8):73-80.
3段勇,刘铁.基于语言和视觉融合Transformer的指代图像分割[J].传感技术学报,2024,37(7):1193-1201.

二级引证文献1

1王栋,刘宁,杨明杰,赵书函.基于非结构化数据和CNN-BiLSTM的配电网设备缺陷分析模型构建[J].自动化与仪器仪表,2024(3):106-109.

1贾杨春,朱定局.基于深度学习的医疗命名实体识别[J].计算机系统应用,2022,31(9):70-81. 被引量：3
2李利杰,张君华.基于循环神经网络和全局化领域的推荐算法[J].计算机与数字工程,2022,50(8):1676-1679. 被引量：2
3张泰瑀,张菀,吉刘骏,郁辰,丁宇.基于MHA与LSTM的滚动轴承性能退化趋势预测[J].电子测量技术,2022,45(13):59-64.
4王盼红,朱昌明.融合CNN与交互特征的多标签图像分类方法[J].计算机与现代化,2022(9):85-92. 被引量：2
5刘奕辰,范成,刘旭媛,李雪清.基于循环神经网络的冷水机组故障诊断方法[J].建筑科学,2022,38(8):160-171. 被引量：3
6YAN Wenjing,ZHANG Baoyu,ZUO Min,ZHANG Qingchuan,WANG Hong,MAO Da.AttentionSplice:An Interpretable Multi-Head Self-Attention Based Hybrid Deep Learning Model in Splice Site Prediction[J].Chinese Journal of Electronics,2022,31(5):870-887.
7梁兵涛,倪云峰.基于集成学习的中文命名实体识别方法[J].南京师大学报（自然科学版）,2022,45(3):123-131. 被引量：3
8何儒汉,舒启杰,黄晋.融合强化学习与迁移对抗的服装标注[J].软件导刊,2022,21(9):152-158.
9冯妍妍,魏德健,倪伟.深度学习在肺结节辅助诊断中的应用[J].计算机工程与应用,2022,58(18):59-70. 被引量：1
10刘利梅,陈晓晋,孙世伟,王宇,王辉,梅树立,王耀君.深度学习在药物活性预测研究中的应用[J].生物化学与生物物理进展,2022,49(8):1498-1519. 被引量：5

吉林大学学报（理学版）

2022年第5期

浏览历史

内容加载中请稍等...

基于Transformer的细粒度图像中文描述被引量：3

参考文献5

二级参考文献9

共引文献43

同被引文献11

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Transformer的细粒度图像中文描述 被引量：3

参考文献5

二级参考文献9

共引文献43

同被引文献11

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Transformer的细粒度图像中文描述被引量：3