基于多模态神经网络的图像中文摘要生成方法被引量：6

Chinese Image Captioning Method Based on Multimodal Neural Network

下载PDF

导出

摘要图像的自然语言描述(image captioning)是一个融合计算机视觉、自然语言处理和机器学习的跨领域课题。它作为多模态处理的关键技术,近年来取得了显著成果。当前研究大多针对图像生成英文摘要,而对于中文摘要的生成方法研究较少。该文提出了一种基于多模态神经网络的图像中文摘要生成方法。该方法由编码器和解码器组成,编码器基于卷积神经网络,包括单标签视觉特征提取网络和多标签关键词特征预测网络,解码器基于长短时记忆网络,由多模态摘要生成网络构成。在解码过程中,该文针对长短时记忆网络的特点提出了四种多模态摘要生成方法 CNIC-X、CNIC-H、CNIC-C和CNIC-HC。在中文摘要数据集Flickr8k-CN上实验,结果表明该文提出的方法优于现有的中文摘要生成模型。 Image captioning is a cross-domain task which connects computer vision,natural language processing and machine learning.As a key technology of multimodal processing,it has made remarkable progress in the recent years.Research on image caption generation has typically focused on generating a caption in English for an image,but generating Chinese caption is lack of research.In this paper,we propose a method generating Chinese image caption based on multimodal neural network.This method belongs to the family of encoder-decoder.Encoder based on convolutional neural network,consists of single-label visual feature extraction network and multi-label keyword prediction network.Decoder based on long short-term memory,consists of multimodal caption generation network.During the process of decoding,we propose four multimodal caption generation methods：CNIC-X,CNIC-H,CNICC and CNIC-HC.Experimental results on Chinese multimodal dataset Flickr8 k-CN show that the proposed method outperforms state-of-the-art Chinese image captioning methods.

作者刘泽宇马龙龙吴健孙乐

机构地区中国科学院软件研究所中文信息处理研究室中国科学院大学

出处《中文信息学报》 CSCD 北大核心 2017年第6期162-171,共10页 Journal of Chinese Information Processing

基金国家自然科学基金(61772505) 青海省自然科学基金(2016-ZJ-Y04 2016-ZJ-740)

关键词图像中文摘要多模态处理神经网络 Chinese image captioning multimodal processing neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献28

1邓珍荣,汤园钰,杨睿,张永林.基于关键词与指针生成网络的摘要生成算法[J].计算机系统应用,2022,31(11):246-253. 被引量：2
2胡飞,赵琼瑶.从设计知识到设计能力--论工业设计中的知识迁移[J].美苑,2009(2):28-31. 被引量：6
3文孟飞,刘伟荣,胡超.网络媒体大数据流异构多模态目标识别策略[J].计算机研究与发展,2017,54(1):71-79. 被引量：12
4侯小红,郭敏.一种基于Harris-SIFT特征点检测的LBP人脸表情识别算法[J].西北大学学报（自然科学版）,2017,47(2):209-214. 被引量：21
5王鑫,侯志强,余旺盛,金泽芬芬,秦先祥.基于多层卷积特征融合的目标尺度自适应稳健跟踪[J].光学学报,2017,37(11):224-235. 被引量：22
6高静,韩光,卢启鹏.近红外光在皮肤组织中的传播和光纤探测结构设计[J].光子学报,2018,47(1):149-155. 被引量：8
7韩松臣,黄畅昕,李炜,程鹏.一种改进的基于近红外图像的去雾方法[J].工程科学与技术,2018,50(2):99-104. 被引量：4
8陈师哲,王帅,金琴.多文化场景下的多模态情感识别[J].软件学报,2018,29(4):1060-1070. 被引量：9
9韩枫,李晓玲,孙秀雯,纪凌雨.智慧城市公共信息服务交互系统设计与实现[J].系统仿真学报,2018,30(5):1893-1899. 被引量：10
10汪亮亮,张贵仓,贾雯晓.基于梯度融合规则的医学图像融合方法[J].计算机应用研究,2018,35(7):2225-2227. 被引量：2

引证文献6

1郭淑涛,赵德新.一种基于深度学习的中文图像描述模型[J].天津理工大学学报,2020,36(3):30-35. 被引量：4
2陈兴.基于多模态神经网络生成图像中文描述[J].计算机系统应用,2020,29(9):191-197. 被引量：2
3李怡,刘丽君.基于大数据图像处理的产品造型智能设计探索[J].包装工程,2021,42(14):179-184. 被引量：7
4罗予东,李振坤.结合深度神经网络的网络监控系统微表情识别[J].计算机应用与软件,2023,40(7):172-179.
5全安坤,李红莲,张乐,吕学强.融合内容和图片特征的中文摘要生成方法研究[J].数据分析与知识发现,2024,8(3):110-119. 被引量：2
6郝子娴,汪兴建,杨有.联合视觉分组的图像中文描述[J].微电子学与计算机,2024,41(8):73-80.

二级引证文献15

1周宇辉,何志琴.基于改进注意力机制的图像描述算法[J].智能计算机与应用,2022,12(2):58-63. 被引量：1
2王文凤,张荣.智能技术在交互式绘画设计中的应用及其创作机制研究[J].包装工程,2022,43(S01):89-95. 被引量：3
3邓珍荣,张永林,杨睿,蓝如师,黄文明,罗笑南.结合全局和局部特征的BiGRU-RA图像中文描述模型[J].计算机辅助设计与图形学学报,2021,33(1):49-58. 被引量：2
4田佳鹭,邓立国.基于改进VGG-16神经网络的图像分类方法[J].计算技术与自动化,2021,40(2):131-135. 被引量：10
5朱海鹏,李雪莲,黄文倩,李超.深度学习方法下椅子风格识别与智能设计[J].家具,2021,42(6):37-40. 被引量：1
6吴梦玉,王冲,冯晶晶.基于位移模态差高斯曲率的中心固定板附加质量单元识别方法[J].天津理工大学学报,2023,39(2):1-5.
7丁满,袁云磊,张新新,孙鸣宇.基于深度学习的产品色彩情感化设计[J].计算机集成制造系统,2023,29(5):1647-1656. 被引量：8
8王年文,王劲松,毕翼飞,张立杰,陈国强,万中华.人工智能在感性工学研究中的应用与趋势[J].包装工程,2023,44(16):32-40. 被引量：1
9解晨辉,李荣荣.基于ControlNet的儿童床设计效果图生成技术[J].林业工程学报,2024,9(2):184-191. 被引量：2
10刘宏利,于斌.基于深度学习的电解电容表面视觉检测[J].天津理工大学学报,2024,40(1):77-83.

1探路新零售[J].现代商业,2017,0(34):6-8.
2陈浩.图书馆工作中计算机视觉技术的应用[J].信息记录材料,2018,19(3):103-104. 被引量：2
3李汉卿,夏齐.大数据在供应链与物流领域的实践研究[J].物流工程与管理,2018,40(2):15-17. 被引量：7
4梁光胜,曾华荣.基于ARM的智能视频监控人脸检测系统的设计[J].计算机应用,2017,37(A02):301-305. 被引量：16
5郭祥云,刘杰,徐龙琴,张京京,刘双印.基于Citespace的我国农业物联网文献计量分析[J].仲恺农业工程学院学报,2017,30(4):32-39. 被引量：8
6李敏,徐中外,解鸿文,邢宇航.基于可见光图像的红外图像生成方法及其细节调制[J].红外技术,2018,40(1):34-38. 被引量：4
7胥正烁.基于计算机视觉技术的无人机自动导航的思考[J].电子制作,2018,26(3):115-116. 被引量：4
8赵云松,杨鹏,谭志军,梁英,张海悦,徐勇勇.健康体检表主检报告的一致性分析[J].中华健康管理学杂志,2017,11(4):344-348. 被引量：11
9胡亮,夏磊,李伟.基于改进TF-IDF算法的关键词抽取系统[J].厦门理工学院学报,2017,25(5):67-72. 被引量：2
10喻芹,何小海,滕奇志,杨小鹏.基于Kinect的实物地质标本三维重建[J].计算机系统应用,2017,26(12):244-249. 被引量：1

中文信息学报

2017年第6期

浏览历史

内容加载中请稍等...

基于多模态神经网络的图像中文摘要生成方法被引量：6

同被引文献28

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于多模态神经网络的图像中文摘要生成方法 被引量：6

同被引文献28

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于多模态神经网络的图像中文摘要生成方法被引量：6