基于跨模态特权信息增强的图像分类方法

Image Classification Method Based on Cross-modal Privileged Information Enhancement

下载PDF

导出

摘要图像分类算法的性能受限于视觉信息的多样性和背景噪声的影响,现有研究通常采用跨模态约束或异构特征对齐算法学习可判别力强的视觉表征.然而,模态异构带来的特征分布差异等问题限制了视觉表征的有效学习.针对该问题,提出一种基于跨模态语义信息推理和融合的图像分类框架(CMIF),引入图像语义描述及统计先验知识作为特权信息,使用特权信息学习范式在模型训练阶段指导图像特征从视觉空间向语义空间映射,提出类感知的信息选择算法(CIS)学习图像的跨模态增强表征.针对表征学习中的异构特征差异性问题,使用部分异构对齐算法(PHA)实现视觉特征与特权信息中提取的语义特征的跨模态对齐.为进一步在语义空间中抑制视觉噪声带来的干扰,提出基于图融合的CIS算法选取重构语义表征中的关键信息,从而形成对视觉预测信息的有效补充.在跨模态分类数据集VireoFood-172和NUS-WIDE上的实验表明,CMIF能够学习鲁棒的图像语义特征,并且能够作为通用框架在基于卷积的ResNet-50和基于Transformer架构的ViT图像分类模型上取得稳定的性能提升. The performance of image classification algorithms is limited by the diversity of visual information and the influence of background noise.Existing works usually apply cross-modal constraints or heterogeneous feature alignment algorithms to learn visual representations with strong discrimination.However,the difference in feature distribution caused by modal heterogeneity limits the effective learning of visual representations.To address this problem,this study proposes an image classification framework(CMIF)based on cross-modal semantic information inference and fusion and introduces the semantic description of images and statistical knowledge as privileged information.The study uses the privileged information learning paradigm to guide the mapping of image features from visual space to semantic space in the training stage,and a class-aware information selection(CIS)algorithm is proposed to learn the cross-modal enhanced representation of images.In view of the heterogeneous feature differences in representation learning,the partial heterogeneous alignment(PHA)algorithm is used to achieve cross-modal alignment of visual features and semantic features extracted from privileged information.In order to further suppress the interference caused by visual noise in semantic space,the CIS algorithm based on graph fusion is selected to reconstruct the key information in the semantic representation,so as to form an effective supplement to the visual prediction information.Experiments on the cross-modal classification datasets VireoFood-172 and NUS-WIDE show that CMIF can learn robust semantic features of images,and it has achieved stable performance improvement on the convolution-based ResNet-50 and Transformer-based ViT image classification models as a general framework.

作者李象贤郑裕泽马浩凯齐壮闫晓硕孟祥旭孟雷 LI Xiang-Xian;ZHENG Yu-Ze;MA Hao-Kai;QI Zhuang;YAN Xiao-Shuo;MENG Xiang-Xu;MENG Lei(School of Software Engineering,Shandong University,Jinan 250101,China)

机构地区山东大学软件学院

出处《软件学报》 EI CSCD 北大核心 2024年第12期5636-5652,共17页 Journal of Software

基金山东省优秀青年科学基金(海外)计划(2022HWYQ-048) 济南市科技局“新高校20条”资助项目引进创新团队计划(2021GXRC073) 国家重点研发计划(2021YFC3300203)。

关键词图像分类跨模态学习特权信息特征对齐图卷积网络 image classification cross-modal learning privileged information feature alignment graph convolution network(GCN)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1于谦,高阳,霍静,庄韫恺.视频人脸识别中判别性联合多流形分析[J].软件学报,2015,26(11):2897-2911. 被引量：10
2张梦寒,杜德慧,张铭茁,张雷,王耀,周文韬.时空轨迹数据驱动的自动驾驶场景元建模方法[J].软件学报,2021,32(4):973-987. 被引量：9
3杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：28
4吕天根,洪日昌,何军,胡社教.多模态引导的局部特征选择小样本学习方法[J].软件学报,2023,34(5):2068-2082. 被引量：5

二级参考文献7

1严严,章毓晋.基于视频的人脸识别研究进展[J].计算机学报,2009,32(5):878-886. 被引量：84
2许佳捷,郑凯,池明旻,朱扬勇,禹晓辉,周晓方.轨迹大数据:数据、应用与技术现状[J].通信学报,2015,36(12):97-105. 被引量：53
3张俊,周勇.一种基于软件属性相互影响和重要性的属性权重分配方法[J].计算机应用研究,2016,33(5):1390-1394. 被引量：2
4高强,张凤荔,王瑞锦,周帆.轨迹大数据:数据处理关键技术研究综述[J].软件学报,2017,28(4):959-992. 被引量：134
5姚迪,张超,黄建辉,陈越新,毕经平.时空数据语义理解：技术与应用[J].软件学报,2018,29(7):2018-2045. 被引量：31
6朱冰,张培兴,赵健,陈虹,徐志刚,赵祥模,邓伟文.基于场景的自动驾驶汽车虚拟测试研究进展[J].中国公路学报,2019,32(6):1-19. 被引量：129
7余辰,张丽娟,金海.大数据驱动的智能交通系统研究进展与趋势[J].物联网学报,2018,2(1):56-63. 被引量：16

共引文献48

1王玉,申铉京,陈海鹏.基于改进的Fisher准则的多示例学习视频人脸识别算法[J].自动化学报,2018,44(12):2179-2187. 被引量：8
2梁传君,卜宇,王红梅.加权估计纹理分析结合高斯黎曼流形的人脸识别方法[J].微型电脑应用,2017,33(11):15-19.
3齐忍,朱鹏飞,梁建青.混杂数据的多核几何平均度量学习[J].软件学报,2017,28(11):2992-3001. 被引量：1
4曾霞霞.轮廓波变换的面部姿态检索技术及实验分析[J].实验室研究与探索,2018,37(1):16-18. 被引量：1
5王玮,闵卫东,樊梦丹,韩清.基于择优检测和多尺度匹配的实时人脸识别[J].计算机工程与设计,2018,39(9):2957-2960. 被引量：5
6刘宇琦,赵宏伟,王玉.一种基于QPSO优化的流形学习的视频人脸识别算法[J].自动化学报,2020,46(2):256-263. 被引量：15
7王海龙,王怀斌,王荣耀,王海涛,刘强,张鲁洋,蒋梦浩.基于视频监控的人脸识别方法[J].计算机测量与控制,2020,28(4):137-141. 被引量：4
8Menghan ZHANG,Mingjun MA,Jingying ZHANG,Mingzhuo ZHANG,Bo LIW,Dehui DU.A novel spatio-temporal trajectory data-driven development approach for autonomous vehicles[J].Frontiers of Earth Science,2021,15(3):620-630.
9朱鹏飞,张琬迎,王煜,胡清华.考虑多粒度类相关性的对比式开放集识别方法[J].软件学报,2022,33(4):1156-1169. 被引量：4
10曾志贤,曹建军,翁年凤,蒋国权,范强.结合关键帧提取的视频-文本跨模态实体分辨双重编码方法[J].兵工学报,2022,43(5):1107-1116. 被引量：3

1杨凡奇,高昕葳,刘朝辉.分流板对电动汽车电池组散热的影响[J].内燃机与配件,2024(21):38-40.
2韩普,陈文祺,顾亮,叶东宇,景慎旗.融合多模态数据的中文医学实体识别研究[J].情报理论与实践,2024,47(9):174-182.
3刘爱兰.乡村振兴环境下农村金融服务的深化路径研究[J].中文科技期刊数据库（全文版）经济管理,2024(9):0170-0173.
4谢木斯娅·艾买提.阶段式带教方法在骨科护理教学中的应用探讨[J].中文科技期刊数据库（全文版）教育科学,2024(10):0192-0195.
5李雪晨.小班幼儿建构游戏的分阶段指导研究[J].世界儿童,2024(7):0123-0125.
6陈又圣,王健,薛国伟,张璞,陈培培.电子耳蜗CIS言语处理策略参数特征研究[J].深圳信息职业技术学院学报,2017,15(3):12-18. 被引量：5
7潘雪娇,董绍江,邹松,吕智明,宋锴.基于SK-ResNet和迁移学习的滚动轴承故障诊断[J].组合机床与自动化加工技术,2024(10):166-170.
8孟祥国,赵晋斌,张晓尉,马黎雨,刘子帆,李博.基于D/S证据理论的目标威胁评估模型[J].航天电子对抗,2022,38(5):37-40. 被引量：3
9赵悦淑,王军,王蕊,昝红英,张坤丽,穗志方.中文医学知识图谱研究进展[J].中国数字医学,2021,16(6):86-91. 被引量：5
10刘旭龙,李枭,许爽,贾紫巍.基于倒残差多尺度卷积注意力的红外热成像人脸对齐算法[J].计量学报,2024,45(11):1634-1641.

软件学报

2024年第12期

浏览历史

内容加载中请稍等...

基于跨模态特权信息增强的图像分类方法

参考文献4

二级参考文献7

共引文献48

相关作者

相关机构

相关主题

浏览历史