结合关键帧提取的视频-文本跨模态实体分辨双重编码方法被引量：1

Dual Encoding Integrating Key Frame Extraction for Video-text Cross-modal Entity Resolution

下载PDF

导出

摘要现有的视频-文本跨模态实体分辨方法在视频处理上均采用均匀取帧的方法,必然导致视频信息的丢失,增加问题的复杂度。针对这一问题,提出一种结合关键帧提取的视频-文本跨模态实体分辨双重编码方法(DEIKFE)。以充分保留视频信息表征为前提,设计关键帧提取算法提取视频中的关键帧,获得视频关键帧集合表示。对于视频关键帧集合和文本,采用多级编码的方法,分别提取表征视频和文本的全局、局部和时序的特征,将其进行拼接形成多级编码表示。将该编码表示映射至共同嵌入空间,采用强负样本跨模态三元组损失对模型参数进行优化,使得匹配的视频-文本相似度越大,而不匹配的视频-文本相似度越小。通过在MSR-VTT、VATEX两个数据集上进行实验验证,与现有方法进行对比,在总体性能R@sum上分别提升了9.22%、2.86%,证明了该方法的优越性。 Existing video-text cross-modal entity resolution methods all adopt a method of uniformly extracting frames in video processing,which inevitably leads to the loss of video information and increases the model complexity.A dual encoding integrating key frame extraction(DEIKFE)is proposed for video-text cross-modal entity resolution.On the premise of fully retaining the video information,a key frame extraction algorithm is designed to extract the key frames in the video,which makes up the video key frame set.For the video key frame set and the text,a multi-level encoding method is adopted to extract the global,local,and time-series features,which are spliced to form a multi-level encoding representation.And the encoding representation is mapped into a common embedding space,and the model parameters are optimized by cross-modal triplet ranking loss based on the hard negative sample to make the matched video-text similarity greater and the unmatched video-text similarity smaller.The experiments on MSR-VTT and VATEX datasets show that the overall performance of R@sum is increased by 9.22%and 2.86%,respectively,comparedwith the existing methods,which can fully demonstrate the superiority of the proposed method.

作者曾志贤曹建军翁年凤蒋国权范强 ZENG Zhixian;CAO Jianjun;WENG Nianfeng;JIANG Guoquan;FAN Qiang(College of Computer Science and Technology,National University of Defense Technology,Changsha 410003,Hunan,China;The 63rd Research Institute,National University of Defense Technology,Nanjing 210007,Jiangsu,China)

机构地区国防科技大学计算机学院国防科技大学第六十三研究所

出处《兵工学报》 EI CAS CSCD 北大核心 2022年第5期1107-1116,共10页 Acta Armamentarii

基金国家自然科学基金项目(61371196) 中国博士后科学基金特别资助项目(2015M582832) 国家重大科技专项项目(2015ZX01040-201)。

关键词跨模态实体分辨关键帧提取共同嵌入空间双重编码强负样本 cross-modal entity resolution key frame extraction common embedding space dual encoding hard negative sample

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：33
2杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：26
3张永梅,赖裕平,马健喆,冯超,束颉.基于视频的装甲车和飞机检测跟踪及轨迹预测算法[J].兵工学报,2021,42(3):545-554. 被引量：11

二级参考文献11

1张净,孙志挥,杨明,倪巍伟,杨宜东.基于网格和密度的海量数据增量式离群点挖掘算法[J].计算机研究与发展,2011,48(5):823-830. 被引量：8
2张琳波,王春恒,肖柏华,邵允学.基于Bag-of-phrases的图像表示方法[J].自动化学报,2012,38(1):46-54. 被引量：25
3黄健斌,张盼盼,皇甫学军,孙鹤立.融合语义特征的移动对象轨迹预测方法[J].计算机研究与发展,2014,51(1):76-87. 被引量：7
4崔粟晋,王雪.基于长短时记忆太阳能无线传感节点能量预测[J].仪器仪表学报,2018,39(11):147-154. 被引量：15
5乔少杰,金琨,韩楠,唐常杰,格桑多吉,Louis Alberto GUTIERREZ.一种基于高斯混合模型的轨迹预测算法[J].软件学报,2015,26(5):1048-1063. 被引量：118
6Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO.Cross-media analysis and reasoning: advances and directions[J].Frontiers of Information Technology & Electronic Engineering,2017,18(1):44-57. 被引量：29
7刘彩虹,张磊,黄华.交通路口监控视频跨视域多目标跟踪的可视化[J].计算机学报,2018,41(1):221-235. 被引量：28
8林毅,张建伟,武喜萍,刘宇.基于GMM的航班轨迹预测算法研究[J].工程科学与技术,2018,50(4):104-109. 被引量：9
9魏昱洲,许西宁.基于LSTM长短期记忆网络的超短期风速预测[J].电子测量与仪器学报,2019,31(2):64-71. 被引量：56
10梁杰,李磊,任君,齐航,周红丽.基于深度学习的红外图像遮挡干扰检测方法[J].兵工学报,2019,40(7):1401-1410. 被引量：22

共引文献67

1郭聃,崔中良.具身智能何以可能?——从意象图式视角分析[J].科学技术哲学研究,2023,40(5):51-57. 被引量：1
2周燕,曾凡智,吴臣,罗粤,刘紫琴.基于深度学习的三维形状特征提取方法[J].计算机科学,2019,46(9):47-58. 被引量：1
3刘欢,郑庆华,罗敏楠,赵洪科,肖阳,吕彦章.基于跨域对抗学习的零样本分类[J].计算机研究与发展,2019,56(12):2521-2535. 被引量：9
4常致富,周风余,王玉刚,沈冬冬,赵阳.基于深度学习的图像自动标注方法综述[J].山东大学学报（工学版）,2019,49(6):25-35. 被引量：3
5黄樱,牛保宁,关虎,张树武.基于图像纹理的自适应水印算法[J].北京航空航天大学学报,2019,45(12):2403-2414. 被引量：9
6吕国俊,曹建军,郑奇斌,常宸,翁年凤.基于结构保持对抗网络的跨模态实体分辨[J].南京大学学报（自然科学版）,2020,56(2):197-205. 被引量：1
7张宇,闫幸.智能化普适多媒体服务模式与支持技术研究[J].新媒体研究,2020,6(13):25-28.
8张彩虹,刘慧敏,龚玉枝,黄红艳,魏婷,夏明,刘娟,曾永孝,郑晓丹.视频微课健康教育模式在压力性损伤患者居家照顾者中的应用[J].护理学杂志,2020,35(21):12-15. 被引量：15
9代瑾,陈莹.联合线性判别和图正则的任务导向型跨模态检索[J].计算机辅助设计与图形学学报,2021,33(1):106-115. 被引量：5
10王正,吴斌,王文哲,滕一阳,帅杰,肖云鹏,白婷.基于图像和视频信息的社交关系理解研究综述[J].计算机学报,2021,44(6):1168-1199. 被引量：5

同被引文献10

1吴晓军,刘伟军,王天然.基于八叉树的三维网格模型体素化方法[J].工程图学学报,2005,26(4):1-7. 被引量：42
2律帅,达飞鹏,黄源.基于数据类型转换的点云快速有损压缩算法[J].图学学报,2016,37(2):199-205. 被引量：8
3黄源,达飞鹏,唐林.基于改进八叉树的三维点云压缩算法[J].光学学报,2017,37(12):133-141. 被引量：20
4赵继东,盖振伟,李晶,杨志来,王巍.车辆通信设备集成化体系结构[J].兵工学报,2022,43(S01):21-25. 被引量：2
5王珣,高亮,魏永勇,李广运,张天赐.基于任务级-交战级体系仿真平台的并行实验研究[J].兵工学报,2022,43(S01):183-188. 被引量：2
6纪广,郝建国,张振伟.面向无人机作战的虚拟孪生系统设计方案[J].兵工学报,2022,43(8):1902-1912. 被引量：7
7邵玉斌,刘晶,龙华,李一民.面向战场环境下的语音传输与重构[J].兵工学报,2022,43(11):2827-2835. 被引量：1
8张卉冉,董震,杨必胜,黄荣刚,徐大展.点云压缩研究进展与趋势[J].武汉大学学报（信息科学版）,2023,48(2):192-205. 被引量：5
9黄炜,朱映韬,陈冬杰,王宝土,陈建.基于稀疏卷积的非对称特征聚合点云压缩算法[J].电视技术,2022,46(12):67-71. 被引量：1
10赵志,许可,马燕新,万建伟.三维点云深度模型压缩算法[J].国防科技大学学报,2023,45(5):193-201. 被引量：1

引证文献1

1马景起,于脐文,黄平,王伟,李友为.一种面向环境扫描的彩色点云流实时压缩算法[J].兵工学报,2023,44(S02):167-177.

1梁红韵.双重编码理论中意象在初中英语词汇教学中的融入及可行性分析[J].海外英语,2022(3):208-209.
2向志华,梁玉英.基于机器学习的视频识别与自适应推送算法[J].沈阳工业大学学报,2022,44(3):336-340. 被引量：2
3张红丽.基于多特征融合的高动态舞蹈视频关键帧提取系统[J].自动化技术与应用,2022,41(6):91-94. 被引量：2
4苏亚娟(编译).纸页泡沫成型技术的研究进展[J].造纸化学品,2021,33(6):20-28.
5张有全,祁宇明,邓三鹏,孙建康,王帅.直接法和共视图优化的视觉惯性SLAM系统研究[J].自动化与仪器仪表,2022(5):197-203. 被引量：1
6黄为,汪毅,张龙,张煜昕,杨海民.面向经纬仪图像序列的关键帧提取算法[J].应用光学,2022,43(3):430-435. 被引量：1
7梁礼明,周珑颂,余洁,陈鑫.多尺度特征融合双U型视网膜分割算法[J].光电子．激光,2022,33(3):272-282. 被引量：4
8徐清魁,黄慧丽.汽车全景影像监测系统开发及其性能评价[J].汽车实用技术,2022,47(11):49-53.
9管志钢,王直荣,何建新,刘旭东.工业机器人综合性能指标分析及智能评价模型[J].中国计量,2022(5):73-76. 被引量：2
10薛颖(译).Valmet和VTT测试系统大幅减少船舶废气排放[J].柴油机,2022,44(2).

兵工学报

2022年第5期

浏览历史

内容加载中请稍等...

结合关键帧提取的视频-文本跨模态实体分辨双重编码方法被引量：1

参考文献3

二级参考文献11

共引文献67

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

结合关键帧提取的视频-文本跨模态实体分辨双重编码方法 被引量：1

参考文献3

二级参考文献11

共引文献67

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

结合关键帧提取的视频-文本跨模态实体分辨双重编码方法被引量：1