基于自监督图对比学习的视频问答方法

Self-supervised Graph Contrastive Learning for Video Question Answering

下载PDF

导出

摘要视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但是,大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升.鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性,在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC.该框架使用针对节点和边的两种数据增强操作来生成相异子样本,并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性.在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性. As a cross-modal understanding task,video question answering(VideoQA)requires the interaction of semantic information with different modalities to generate answers to questions given a video and the questions associated with it.In recent years,graph neural networks(GNNs)have made remarkable progress in VideoQA tasks due to their powerful capabilities in cross-modal information fusion and inference.However,most existing GNN approaches fail to improve the performance of VideoQA models due to their inherent deficiencies of overfitting or over-smoothing,as well as weak robustness and generalization.In view of the effectiveness and robustness of self-supervised contrastive learning methods in pre-training techniques,this study proposes a self-supervised graph contrastive learning framework GMC based on the idea of graph data augmentation in VideoQA tasks.The framework uses two independent data augmentation operations for nodes and edges to generate dissimilar subsamples and improves the consistency between predicted graph data distributions of the original samples and augmented subsamples for higher accuracy and robustness of the VideoQA models.The effectiveness of the proposed framework is verified by experimental comparisons with existing state-of-the-art VideoQA models and different GMC variants on the public dataset for VideoQA tasks.

作者姚暄高君宇徐常胜 YAO Xuan;GAO Jun-Yu;XU Chang-Sheng(National Laboratory of Pattern Recognition(Institute of Automation,Chinese Academy of Sciences),Beijing 100190,China;School of Artificial Intelligence,University of Chinese Academy of Sciences,Beijing 100190,China;Pengcheng Laboratory,Shenzhen 518055,China)

机构地区模式识别国家重点实验室(中国科学院自动化研究所) 中国科学院大学人工智能学院鹏城实验室

出处《软件学报》 EI CSCD 北大核心 2023年第5期2083-2100,共18页 Journal of Software

基金科技创新2030-“新一代人工智能”重大项目(2020AAA0106200) 国家自然科学基金(62036012,U21B2044,62102415,62072286,61721004) 之江实验室开放课题(2022RC0AB02) CCF-海康威视“斑头雁”基金(20210004)。

关键词图对比学习视频问答图数据增强预训练 graph contrastive learning video question answering graph data augmentation pre-training

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1张博伦..基于注意力机制与图卷积网络的视频问答研究[D].哈尔滨理工大学,2021:
2薛东辉..基于卷积神经网络的道路风险目标检测模型研究与应用[D].南京邮电大学,2021:
3陶超,阴紫薇,朱庆,李海峰.遥感影像智能解译:从监督学习到自监督学习[J].测绘学报,2021,50(8):1122-1134. 被引量：28
4权海波,杨颖.视觉问答语言先验性研究综述[J].信息与电脑,2022,34(1):55-58. 被引量：1
5吴猛..基于深度记忆融合方法的视频问答研究[D].哈尔滨理工大学,2021:
6陈学信..面向链接预测的图卷积神经网络算法研究[D].广东工业大学,2021:

二级参考文献12

1张兵.遥感大数据时代与智能信息提取[J].武汉大学学报（信息科学版）,2018,43(12):1861-1871. 被引量：98
2何国金,王力哲,马艳,张兆明,王桂周,彭燕,龙腾飞,张晓美.对地观测大数据处理:挑战与思考[J].科学通报,2015,60(5):470-478. 被引量：52
3杜培军,夏俊士,薛朝辉,谭琨,苏红军,鲍蕊.高光谱遥感影像分类研究进展[J].遥感学报,2016,20(2):236-256. 被引量：249
4李德仁,王密,沈欣,董志鹏.从对地观测卫星到对地观测脑[J].武汉大学学报（信息科学版）,2017,42(2):143-149. 被引量：104
5俞俊,汪亮,余宙.视觉问答技术研究[J].计算机研究与发展,2018,55(9):1946-1958. 被引量：22
6陈军,陈晋.GlobeLand30遥感制图创新与大数据分析[J].中国科学：地球科学,2018,48(10):1391-1392. 被引量：16
7李德仁,张良培,夏桂松.遥感大数据自动分析与数据挖掘[J].测绘学报,2014,43(12):1211-1216. 被引量：229
8Peng Gong,Han Liu,Meinan Zhang,Congcong Li,Jie Wang,Huabing Huang,Nicholas Clinton,Luyan Ji,Wenyu Li,Yuqi Bai,Bin Chen,Bing Xu,Zhiliang Zhu,Cui Yuan,Hoi Ping Suen,Jing Guo,Nan Xu,Weijia Li,Yuanyuan Zhao,Jun Yang,Chaoqing Yu,Xi Wang,Haohuan Fu,Le Yu,Iryna Dronova,Fengming Hui,Xiao Cheng,Xueli Shi,Fengjin Xiao,Qiufeng Liu,Lianchun Song.Stable classi?cation with limited sample: transferring a 30-m resolution sample set collected in 2015 to mapping 10-m resolution global land cover in 2017[J].Science Bulletin,2019,64(6):370-373. 被引量：198
9叶利华,王磊,张文文,李永刚,王赠凯.高分辨率光学遥感场景分类的深度度量学习方法[J].测绘学报,2019,48(6):698-707. 被引量：22
10李道纪,郭海涛,卢俊,赵传,林雨准,余东行.遥感影像地物分类多注意力融和U型网络法[J].测绘学报,2020,49(8):1051-1064. 被引量：29

共引文献27

1马红,刘超祥,王大涛.基于像控网的实景三维快速更新方法研究与应用[J].测绘通报,2024(S02):151-155.
2刘专,肖海,彭能舜,胡赛花,潘栋.湖南省"1+N"卫星监测体系构建[J].国土资源导刊,2022,19(3):61-65. 被引量：4
3李波,冯都贤,陈玉杰,龙清成.面向自然资源监测监管的土地利用/覆盖变化(LUCC)精准服务平台设计与实践[J].科技创新与应用,2022,12(18):91-95. 被引量：6
4朱庆,张利国,丁雨淋,胡翰,葛旭明,刘铭崴,王玮.从实景三维建模到数字孪生建模[J].测绘学报,2022,51(6):1040-1049. 被引量：109
5张祖勋,姜慧伟,庞世燕,胡翔云.多时相遥感影像的变化检测研究现状与展望[J].测绘学报,2022,51(7):1091-1107. 被引量：38
6杨必胜,陈驰,董震.面向智能化测绘的城市地物三维提取[J].测绘学报,2022,51(7):1476-1484. 被引量：24
7刘立,董先敏,刘娟,文学虎.人机融合智能的遥感解译生产新方法[J].测绘通报,2022(7):118-123. 被引量：1
8刘专.遥感动态监测耕地“非粮化”应用研究[J].南方农机,2022,53(18):41-44. 被引量：4
9刘专,潘栋,胡赛花.基于高分遥感的耕地监测关键技术研究[J].安徽农业科学,2022,50(18):217-222. 被引量：1
10刘彦德,王竞雪.一种改进Swin Transformer网络的资源三号水体提取方法[J].遥感信息,2023,38(2):96-103. 被引量：3

1叶琼青.研究建筑混凝土工程施工质量问题与对策[J].中文科技期刊数据库（全文版）工程技术,2021(9):106-107.
2孙静晶,张鹏,孔晓红.基于深度学习的动作识别与姿态估计研究[J].信息技术与信息化,2023(4):210-213.
3胡永梅.小议预防接种在控制和消灭传染病中的重要作用[J].中文科技期刊数据库（全文版）医药卫生,2022(4):136-138.
4吕兴琴,郭晓瑜,蔡小丹.基于深度神经网络和迁移学习的高精度车辆识别系统研究[J].无线互联科技,2023,20(5):34-38. 被引量：1
5刘佩杰.项目式学习在初中新闻单元中的应用与实施[J].新课程教学（电子版）,2023(6):11-14.
6方艳梅,李冠彬,卢伟.机器学习高阶课程建设的探索与实践[J].计算机教育,2023(3):119-123. 被引量：6
7林睿凡,周洪伟,刘亮亮,谢琪.基于本体方法构建《伤寒论》知识图谱[J].中国数字医学,2023,18(3):27-34. 被引量：3
8于鲁霞.政府投资项目跟踪审计问题的分析及对策建议[J].中文科技期刊数据库（全文版）经济管理,2022(2):228-230.
9李迎,杜光瑞.浅谈桥梁结构抗震设计要点及抗震措施[J].中文科技期刊数据库（全文版）工程技术,2022(3):92-95.
10吴志坚.浅谈市政工程施工中地下管线施工技术[J].中文科技期刊数据库（全文版）工程技术,2022(12):135-138.

软件学报

2023年第5期

浏览历史

内容加载中请稍等...

基于自监督图对比学习的视频问答方法

参考文献6

二级参考文献12

共引文献27

相关作者

相关机构

相关主题

浏览历史