基于表示学习的跨模态检索模型与特征抽取研究综述被引量：20

A Review of the Cross-Modal Retrieval Model and Feature Extraction Based on Representation Learning

下载PDF

导出

摘要以深度学习为代表的表示学习在语音识别、图像分析和自然语言处理领域获得了广泛关注与应用,它不仅推动了人工智能的深入研究和快速发展,而且促使企业思索新的运营与盈利模式。本文拟通过综述的形式对这些研究进行梳理,形成较为完整的综述。通过对国内外相关文献的调查和整理,从信息抽取与表示、跨模态系统建模两维度评述了基于表示学习的跨模态检索与特征抽取方面的研究成果。文章首先概括了自动编码器、稀疏编码、限制玻尔兹曼机、深度信念网络、卷积神经网络等五个经典的表示学习算法,然后从基于共享层建立各模态间的关联、表示空间中各模态间的关联、以深度学习为基础的跨模态建模算法等三方面归纳跨模态系统建模研究的现状,最后总结了跨模态检索的评价指标。研究发现:已有检索研究对于单模态信息检索较为丰富,查询和候选集的内容均属于同一模态;跨模态检索也仅限于对图像、文本两个模态对齐的语料。未来需要增加语音、视频、图像、文本等多模态数据的检索,改进深度学习算法构建多模态检索模型,实现三种或以上的跨模态检索。此外,尚需建立适合多模态检索系统的评价指标。 Representation learning, particularly deep learning, has received wide attention and seen application in speech recognition, image analysis, and natural language processing fields. It not only promotes the research and development of artificial intelligence, but urges enterprises to consider new business and profit models. This paper aims to examine these studies in the form of reviews, and ultimately form a complete overview of the topic. Through the investigation and organization of relevant literature locally and internationally, this paper summarizes the research results of cross-modal retrieval and feature extraction based on representation learning from the two dimensions of information extraction and representation, and cross-modal system modeling. The main research includes summarizing five traditional representation learning algorithms, which are the autoencoder, sparse encoding, the restricted Boltzmann machine, deep belief networks, and convolutional neural networks. From the shared layer relationship between each mode, the representation space, and the correlation between each mode’s in-depth learning-based cross-modal modeling algorithm, the present state of research on modeling systems based on cross-modal modeling is summed up. Finally, the evaluation index of cross-modal retrieval is summarized. The study finds that the existing retrieval research is rich in single-modal information retrieval and that the content of queries and candidate sets belong to the same modality, whereas cross-modal retrieval is limited to two modal alignment languages of images and texts. Future research needs to see an increase of modal retrieval of audio, video, images, text, and other multimodal data, and using deeper constructing multimodal retrieval models and feature extraction algorithms to achieve three-orgreater cross-modal retrieval. In addition, an evaluation index of multimodal retrieval systems must be established.

作者李志义黄子风许晓绵 Li Zhiyi;Huang Zifeng;Xu Xiaomian(Economic ＆ Management College of South China Normal University,Guangzhou 510006)

机构地区华南师范大学经济与管理学院

出处《情报学报》 CSSCI CSCD 北大核心 2018年第4期422-435,共14页 Journal of the China Society for Scientific and Technical Information

基金国家社会科学基金项目"基于表示学习的跨模态检索模型与特征抽取研究"(17BTQ062)

关键词表示学习跨模态检索特征抽取模型综述 representation learning cross modal retrieval feature extraction model review

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP391.3 [自动化与计算机技术—控制科学与工程]

引文网络
相关文献

参考文献32

1王剑..基于深度学习的跨模态图像检索方法研究[D].中国科学院大学,2016:
2何泳澔..跨模态关联学习及其在图像检索中的应用研究[D].中国科学院大学,2016:
3张昭旭.CNN深度学习模型用于表情特征提取方法探究[J].现代计算机,2016,22(2):41-44. 被引量：14
4孙志军,薛磊,许阳明.基于深度学习的边际Fisher分析特征提取算法[J].电子与信息学报,2013,35(4):805-811. 被引量：35
5刘春丽,李晓戈,刘睿,范贤,杜丽萍.基于表示学习的中文分词[J].计算机应用,2016,36(10):2794-2798. 被引量：5
6韩力群编著..人工神经网络理论、设计及应用人工神经细胞、人工神经网络和人工神经系统[M].北京:化学工业出版社,2002:193.
7吴海燕..基于自动编码器的半监督表示学习与分类学习研究[D].重庆大学,2015:
8朱陶,任海军,洪卫军.一种基于前向无监督卷积神经网络的人脸表示学习方法[J].计算机科学,2016,43(6):303-307. 被引量：9
9李志宇,梁循,徐志明,齐金山,陈燕方.DNPS:基于阻尼采样的大规模动态社会网络结构特征表示学习[J].计算机学报,2017,40(4):805-823. 被引量：7
10李志义,王冕,赵鹏武.基于条件随机场模型的“评价特征-评价词”对抽取研究[J].情报学报,2017,36(4):411-421. 被引量：8

二级参考文献352

1段瑞雪,王小捷,孙月萍,李文峰.HDP主题模型的用户意图聚类[J].北京邮电大学学报,2011,34(S1):55-58. 被引量：6
2Borga M, Knutsson H. Canonical correlation analysis in early vision Processing. In: Proc. of the 9th European Symp. on Artificial Neural Networks. 2001. 309-314. 被引量：1
3Gao HB, Hong WX, Cui JX, Xu YH. Optimization of principal component analysis in feature extraction. In: Proc. of the IEEE Int'l Conf. on Mechatronics and Automation. 2007.3128-3132. 被引量：1
4Zheng WM, Zhou XY, Zou CR, Zhao L. Facial expression recognition using kernel canonical correlation analysis (KCCA). IEEE Trans. on Neural Networks, 2006,17(1):233-238. 被引量：1
5Loog M, B. van Ginneken B, Duin RPW. Dimensionality reduction by canonical contextual correlation projections. In: Proc. of the European Conf. on Computer Vision. 2004. 562-573. 被引量：1
6Hel-Or Y. The canonical correlations of color images and their use for demosaicing. Technical Report, HPL-2003-164(R1), HP Labs., 2004. 被引量：1
7Friman O, Carlsson J, Lundberg P, Borga M, Knutsson H. Detection of neural activity in functional MRI using canonical correlation analysis. Magnetic Resonance in Medicine, 2001,45(2):323-330. 被引量：1
8Knutsson H, Borga M, Landelius T. Learning multidimensional signal processing. In: Proc. of the 14th Int'l Conf. on Pattern Recognition. 1998. 1416-1420. 被引量：1
9Nielsen AA. Multiset canonical correlations analysis and multispectral, truly multitemporal remote sensing data. IEEE Trans. on Image Processing, 2002,11 (3):293-305. 被引量：1
10Vlassis N, Motomura Y, Krose B. Supervised linear feature extraction for mobile robot localization. In: Proc. of the 2000 IEEE Int'l Conf. on Robotics and Automation. 2000. 2979-2984. 被引量：1

共引文献911

1刘维,陈崚.复杂网络中的链接预测[J].信息与控制,2020,49(1):1-23. 被引量：2
2周楠,艾剑良.基于HMM和RNN的无人机语音控制方案与仿真研究[J].系统仿真学报,2020,32(3):464-471. 被引量：12
3张季,康乐乐,李博.移动应用评论挖掘研究综述[J].知识管理论坛,2021(6):339-350. 被引量：2
4刘立文,胡惠,何忠时,贵永淯,唐朝.基于深信度网络的电力市场风险识别方法[J].中国测试,2023,49(S01):130-134.
5赵蓉英,陈文欣.深度学习视角下的评价科学方法创新[J].情报科学,2022,40(11):3-11. 被引量：2
6侯帅鹏,石英,华逸伦,苏涛.基于改进SSD的行人检测模型[J].武汉理工大学学报,2019,41(7):95-102. 被引量：1
7苟玉晓,江永全,杨燕,周冠禄,林凯.基于全卷积神经网络的公交专用道识别[J].计算机应用研究,2020,37(S01):406-407.
8那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
9苏翎菲,化永朝,董希旺,任章.人与无人机集群多模态智能交互方法[J].航空学报,2022,43(S01):129-142. 被引量：4
10杨颖.基于MobileNet-SSD的蝶类昆虫识别算法[J].智能计算机与应用,2021,11(4):156-158. 被引量：2

同被引文献180

1杜海骏,刘学亮.融合约束学习的图像字幕生成方法[J].中国图象图形学报,2020,0(2):333-342. 被引量：5
2常春光,崔建江,汪定伟,胡琨元.案例推理中案例调整技术的研究[J].系统仿真学报,2004,16(6):1260-1265. 被引量：36
3郭艳红,邓贵仕.基于事例的推理(CBR)研究综述[J].计算机工程与应用,2004,40(21):1-5. 被引量：76
4王上飞,薛佳,王煦法.基于内容的情感图像获取模型[J].计算机科学,2004,31(9):186-190. 被引量：6
5张志毅,张庆云.柏拉图以来词义说的新审视[J].中国语文,2000(2):126-136. 被引量：7
6王新华,吴兰荪.基于案例的推理机制[J].山东矿业学院学报,1995,14(2):145-150. 被引量：6
7张喜征,陈博,傅荣.基于案例的隐性知识挖掘研究[J].情报杂志,2006,25(7):8-9. 被引量：16
8黄崑,赖茂生.以用户情感为线索的图像检索研究[J].情报科学,2006,24(9):1395-1399. 被引量：7
9方俊,郭雷,王晓东.基于语义的关键词提取算法[J].计算机科学,2008,35(6):148-151. 被引量：39
10成琳,陈俊杰,相洁.图像颜色征提取技术的研究与应用[J].计算机工程与设计,2009,30(14):3451-3454. 被引量：13

引证文献20

1陶友山.姚桥矿井改扩建工程移交生产[J].煤矿设计,2000(5):11-12.
2董长青,刘永贤,赵甲,胡葳,赵涛.基于深度学习算法的车辆视觉检测方法的研究[J].制造业自动化,2019,41(3):113-116. 被引量：6
3李志义,许洪凯,段斌.基于深度学习CNN模型的图像情感特征抽取研究[J].图书情报工作,2019,63(11):96-107. 被引量：23
4宣瑞晟,欧卫华,宋浩强,张仁津.图约束的半监督对抗跨模态检索方法研究[J].贵州师范大学学报（自然科学版）,2019,37(4):86-94. 被引量：2
5潘俊,吴宗大.词汇表示学习研究进展[J].情报学报,2019,38(11):1222-1240. 被引量：9
6康娟,汪传建.基于高阶模式间关系的跨模态关联学习[J].计算机工程与设计,2020,41(1):265-270.
7王连喜,甘穗福,林楠铠,蒋盛益.涉华信息资源归集与舆情分析框架构建[J].情报杂志,2020,39(6):135-142. 被引量：4
8董钰,郭军华.基于深度学习的智能语音问答系统研究[J].西昌学院学报（自然科学版）,2020,34(4):58-61. 被引量：2
9曾辉,胡蓉,淦修修,彭志颖,熊李艳.基于依存关系注意力增强的跨模态检索研究[J].华东交通大学学报,2020,37(6):126-132.
10邱一城,杨立身.结合残差学习和双模态CAE的图像描述方法[J].光学技术,2021,47(1):93-100.

二级引证文献79

1尹朝.基于内容生成与特征提取的图像情感识别模型研究[J].系统仿真技术,2023,19(2):141-147.
2彭阳,左锋,余芳强,张铭.“工业互联网+”建筑工程文档的知识网络研究[J].建筑经济,2021,42(S01):411-414.
3杨松,刘佳欣,吴桐.基于深度特征和注意力机制的艺术图像情感分类研究[J].智能计算机与应用,2022,12(2):126-132. 被引量：1
4杨松,刘佳欣,潘建达.基于融合特征和迁移学习的艺术图像情感识别研究[J].智能计算机与应用,2022,12(1):146-154.
5潘俊,吴宗大.词汇分布语义的语言学基础探微[J].浙江社会科学,2019,0(12):99-104. 被引量：1
6范梦余,张辉,陈怡宁.内蒙古视觉旅游形象的时空感知研究——基于DeepSentiBank的地理标记照片分析[J].干旱区资源与环境,2020,34(10):194-200. 被引量：20
7王铭,王庆霞,戈增文,吴喜如,周虎.基于生成对抗网络的缸盖表面缺陷识别[J].制造业自动化,2020,42(11):96-102.
8石锦成,刘鑫,刘蜜,刘超.电子元器件产品外观质量智能检测技术研究[J].仪表技术与传感器,2020(12):101-104. 被引量：13
9高广尚.面向人口属性预测的词嵌入构建方法[J].系统工程,2021,39(1):148-158.
10吴天强,王义贺.基于改进深度学习自编码的图像边沿畸变校正算法研究[J].光电子．激光,2021,32(2):149-156. 被引量：2

1陈一鸣,高翔.深度学习的最新进展[J].计算机科学与应用,2018,8(4):565-571. 被引量：2
2刘梦溪,巨永锋,高炜欣,王征,武晓朦.焊缝缺陷图像分类识别的深度置信网络研究[J].测控技术,2018,37(8):5-9. 被引量：9
3武文杰,Musona Muchinei.空间方位词“前”“后”的时间概念用法[J].河北大学学报（哲学社会科学版）,2018,43(3):33-37. 被引量：2
4安慧辉,修立奇.Pre-Malcev代数的表示与配对[J].辽宁师范大学学报（自然科学版）,2018,41(2):21-29. 被引量：1
5毛勇华,代兆胜,桂小林.基于深度信念网络的无线信道二分查找方法[J].计算机工程,2018,44(7):86-90. 被引量：1
6丁肇芬,张德禄.儿童话语分析的多模态意义模块建构探索——模态系统框架[J].西安外国语大学学报,2018,26(1):19-24. 被引量：13
7高大鹏,朱建刚.滑动窗口时空深度置信网络行为识别[J].计算机工程与设计,2018,39(8):2654-2659. 被引量：1
8闻永毅,王治梅.中医文献语料库建设与顶层设计刍议[J].西部中医药,2018,31(7):62-65. 被引量：3
9倪维健,韦振胜,曾庆田,刘彤.面向自然过程文本的案例信息抽取[J].计算机集成制造系统,2018,24(7):1680-1689. 被引量：7
10王娜,陈贤富.变参数深度玻尔兹曼计算模型研究[J].信息技术与网络安全,2018,37(6):68-71.

情报学报

2018年第4期

浏览历史

内容加载中请稍等...

基于表示学习的跨模态检索模型与特征抽取研究综述被引量：20

参考文献32

二级参考文献352

共引文献911

同被引文献180

引证文献20

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

基于表示学习的跨模态检索模型与特征抽取研究综述 被引量：20

参考文献32

二级参考文献352

共引文献911

同被引文献180

引证文献20

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

基于表示学习的跨模态检索模型与特征抽取研究综述被引量：20