基于深度残差双单向DLSTM的时空一致视频事件识别被引量：13

Deep Residual Dual Unidirectional DLSTM for Video Event Recognition with Spatial-Temporal Consistency

下载PDF

导出

摘要监控视频下的事件识别是近期计算机视觉领域的研究热点之一.然而,自然场景下监控视频往往具有背景复杂、事件区域内对象遮挡严重等特点,使得事件类内差异大、类间差异小,给识别带来了很大的困难.为解决复杂背景下事件识别问题,提出了一种基于深度残差双单向DLSTM(DRDU-DLSTM)的时空一致视频事件识别方法.该方法首先从训练好的时间CNN网络和空间CNN网络获取视频的时空深度特征,经LSTM同步解析后形成时空特征数据联接单元DLSTM,并作为残差网络的输入.双单向传递的DLSTM联接后构成DU-DLSTM层;多个DU-DLSTM层再加一个恒等映射形成残差模块;在此基础上,多层的残差模块堆叠构成了深度残差网络架构.为了进一步优化识别结果,设计了基于双中心Loss的2C-softmax目标函数,在最大化类间距离的同时最小化类内间隔距离.在监控视频数据集VIRAT 1.0和VIRAT 2.0上的实验表明,该文提出的事件识别方法有很好的性能表现和稳定性,识别准确率分别提高了5.1%和7.3%. Event recognition in surveillance video is attracting growing interest in recent years. Nevertheless, event recognition in real-world surveillance video still faces great challenges due to various facets such as cluttered background, severe occlusion in event bounding box, tremendous intra-class variations while small inter-class variations, etc. A pronounced tendency is that more researches focus on learning deep features from raw data. Two-stream CNNs （Convolutional Neural Networks） architecture becomes a very successful model in video analysis field, in which appearance features and short-term motion features are utilized. In contrast, Long Short-Term Memory （LSTM） network can learn long-term motion features from the input sequence, which is widely used to process those tasks with quintessential time series. In order to combine the advantages of the two types of networks, in this paper, we propose a deep residual dual unidirectional double LSTM （DRDU - DLSTM） for video event recognition in surveillance video with complex scenes. In the first place, deep features are extracted from the fine - tuned temporal CNN and spatial CNN. Since fully connected layers （FC） takes more semantic information than convolutional layers, which are more suitable as the inputs of LSTM network, we extract FC6 feature of spatial CNN and FC7 feature of temporal CNN respectively. Secondly, to reinforce spatial-temporal consistency, the deep features are transformed by spatial LSTM （SLSTM） and temporal LSTM （TLSTM） respectively, and conjugated as a unit called double - LSTM （DLSTM）, which forms the input of the residual network. DLSTM cells increase the number of hidden nodes of LSTM cells, and expand the width of the networks. The input features of spatial CNN and temporal CNN are deeply intertwined by DLSTM cells. At the same time, the features will be transmitted and evolved simultaneously, which will increase the consistency of spatial and temporal features. Furthermore, dual unidirectional DLSTMs are con

作者李永刚王朝晖万晓依董虎胜龚声蓉刘纯平季怡朱蓉 LI Yong-Gang;WANG Zhao-Hui;WAN Xiao-Yi;DONG Hu-Sheng;GONG Sheng-Rong;LIU Chun-Ping;JI Yi;ZHU Rong(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006;College of Mathematics Physics and Information Engineering,Jiaxing University,Jiaxing,Zhejiang 314001;School of Computer Science and Engineering,Changshu Institute of Science and Technology,Changshu,Jiangsu 215500;School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044;Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University,Changchun 130012)

机构地区苏州大学计算机科学与技术学院嘉兴学院数理与信息工程学院常熟理工学院计算机科学与工程学院北京交通大学计算机与信息技术学院吉林大学符号计算与知识工程教育部重点实验室

出处《计算机学报》 EI CSCD 北大核心 2018年第12期2852-2866,共15页 Chinese Journal of Computers

基金国家自然科学基金(61773272 61170124 61272258 61301299) 教育部科技发展中心"云数融合科教创新"基金(2017B03112) 江苏省自然科学基金(BK20151260 BK20151254) 浙江省自然科学基金(LY15F020039) 江苏省"六大人才高峰"项目(DZXX-027) 吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172016K08) 江苏省研究生科研与实践创新计划项目(KYCX17_2006)资助~~

关键词事件识别时空一致残差网络 LSTM 双单向 DLSTM 深度特征监控视频 even recognition spatial-temporal consistency residual network long short-term memory dual unidirectional double long short-term memory deep feature surveillance video

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1何克磊,史颖欢,高阳,霍静,汪栋,张缨.一种基于原型学习的多示例卷积神经网络[J].计算机学报,2017,40(6):1265-1274. 被引量：13
2王梦来,李想,陈奇,李澜博,赵衍运.基于CNN的监控视频事件检测[J].自动化学报,2016,42(6):892-903. 被引量：15

二级参考文献29

1Text Retrieval Conference (TREC) [Online], available: http://trec.nist.gov/, April 5, 2016. 被引量：1
2National Institute of Standards and Technology (NIST) [Online], available: http://www.nist.gov/index.html, April 5, 2016. 被引量：1
3TREC Video Retrieval Evaluation (TRECVID) [Online], available: http://www-nlpir.nist.gov/projects/trecvid/, Ap- ril 5, 2016. 被引量：1
4Dollar P, Wojek C, Schiele B, Perona P. Pedestrian detec- tion: an evaluation of the state of the art. IEEE Transac- tions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743--761. 被引量：1
5Benenson R, Omran M, Hosang J, Schiele B. Ten years of pedestrian detection, what have we learned? In: Proceed- ings of the 12th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 613-627. 被引量：1
6Dalal N, Triggs B. Histograms of oriented gradients for hu- man detection. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recog- nition. San Diego, USA: IEEE, 2005. 886-893. 被引量：1
7Felzenszwalb P, McAllester D, Ramanan D. A discrimina- tively trained, multiscale, deformable part model. In: Pro- ceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, Alaska, USA: IEEE, 2008. 1-8. 被引量：1
8Ouyang W, Wang X. Joint deep learning for pedestrian de- tection. In: Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013. 2056-2063. 被引量：1
9Luo P, Tian Y, Wang X, Tang X. Switchable deep network for pedestrian detection. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio, USA: IEEE, 2014. 899-906. 被引量：1
10Hosang J, Omran M, Benenson R, Schiele B. Taking a deeper look at pedestrians. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recog- nition. Boston, USA: IEEE, 2015. 4073-4082. 被引量：1

共引文献26

1黄金海.背景帧间差分法的移动目标跟踪研究[J].中国仪器仪表,2019(1):62-65. 被引量：3
2陈宏彩,程煜,张常有.基于卷积神经网络的轿车车型精细识别方法[J].河北科技大学学报,2017,38(6):564-569. 被引量：6
3李勇,林小竹,蒋梦莹.基于跨连接LeNet-5网络的面部表情识别[J].自动化学报,2018,44(1):176-182. 被引量：98
4Quan Jinlan,Cui Jizhe.The View of Copyright Protection Technology for Video Gene Recognition[J].信息工程期刊（中英文版）,2017,7(2):77-84.
5马晓虹,尹向雷.基于相关滤波器的目标跟踪方法综述[J].电子技术应用,2018,44(6):3-7. 被引量：8
6徐美华,龚露鸣,郭爱英,殷晓文.基于自适应CtF DPM特征提取的快速行人检测模型[J].复旦学报（自然科学版）,2018,57(4):453-461. 被引量：1
7陈成,吴宏杰,柳维生,傅启明,汤烨.基于多示例遗传神经网络的室内PM_(2.5)预测[J].计算机应用与软件,2019,36(5):235-241. 被引量：2
8赵京霞,钱育蓉,张猛,杜娇.基于改进的卷积神经网络LeNet-5乳腺疾病诊断方法[J].东北师大学报（自然科学版）,2019,51(2):65-70. 被引量：3
9赵京霞,钱育蓉,张猛,杜娇.基于卷积神经网络的乳腺疾病检测算法[J].微电子学与计算机,2019,36(7):48-53.
10马翠红,王毅,毛志强.基于时空双流与局部融合网络的行为识别[J].工业控制计算机,2019,32(11):71-72.

同被引文献71

1张仰森,曹元大,俞士汶.语言模型复杂度度量与汉语熵的估算[J].小型微型计算机系统,2006,27(10):1931-1934. 被引量：7
2庄镇泉,王东生,王熙法.神经网络与神经计算机第三讲神经网络的学习算法[J].电子技术应用,1990,16(5):38-41. 被引量：4
3张英波,贾云献,冯添乐,邱国栋.基于Gamma退化过程的直升机主减速器行星架剩余寿命预测模型[J].振动与冲击,2012,31(14):47-51. 被引量：13
4Zhiliang Fan,Guangbin Liu,Xiaosheng Si,Qi Zhang,Qinghua Zhang.Degradation data-driven approach for remaining useful life estimation[J].Journal of Systems Engineering and Electronics,2013,24(1):173-182. 被引量：2
5黄智,李超,宋瑞,李凯,王洪艳.航空发动机叶片型面加工误差可视化方法研究[J].推进技术,2019,40(1):184-191. 被引量：8
6冯磊,王宏力,司小胜,杨晓君,王标标.基于半随机滤波-期望最大化算法的剩余寿命在线预测[J].航空学报,2015,36(2):555-563. 被引量：11
7邹海翔,乐阳,李清泉.城市交通状态的空间依赖性和异质性分析[J].城市交通,2015,13(3):9-16. 被引量：4
8孙见忠,左洪福,梁坤.基于民航发动机状态数据的涡轮叶片剩余寿命评估[J].机械工程学报,2015,51(23):53-59. 被引量：22
9王举,陈晓江,常俪琼,房鼎益,邢天璋,聂卫科.基于压缩感知的被动式移动目标轨迹测绘[J].计算机学报,2015,38(12):2361-2374. 被引量：5
10吴群,王田,王汉武,赖永炫,钟必能,陈永红.现代智能视频监控研究综述[J].计算机应用研究,2016,33(6):1601-1606. 被引量：69

引证文献13

1姜华,孙勇.基于SSD和TensorFlow的图像识别与定位算法[J].计算机时代,2019,0(6):71-75. 被引量：5
2刘继丹,孙吉,仲天舒,魏珂,李帅.改进SSD卷积神经网络在钢板边裂纹检测中的应用[J].冶金自动化,2020,44(4):43-47. 被引量：1
3卫星,杨国强,陆阳,魏臻.基于深度学习的车辆时序动作检测算法[J].计算机工程与设计,2020,41(12):3510-3516. 被引量：2
4郭景华,肖宝平,王靖瑶,罗禹贡,陈涛,李克强.基于Residual BiLSTM网络的车辆切入意图预测研究[J].汽车工程,2021,43(7):971-977. 被引量：5
5马奇友,刘可薇,杜坚,仇芝.基于深度长短期记忆网络的发动机叶片剩余寿命预测[J].推进技术,2021,42(8):1888-1897. 被引量：13
6张毅,吉波,阮婧.基于塔基视频监控的自然资源智能感知模式实践和思考[J].国土资源信息化,2021(5):8-14. 被引量：9
7段桂英,姜洪开.基于数据融合驱动和DLSTM网络的轴承RUL预测[J].计算机应用与软件,2021,38(12):22-29. 被引量：2
8陈亭秀,尹建芹.基于关键帧筛选网络的视听联合动作识别[J].计算机应用,2022,42(3):731-735.
9刘志刚,黄朝,谢东军,田枫,李婷玉.抑制背景干扰的行人重识别方法[J].计算机辅助设计与图形学学报,2022,34(4):563-569. 被引量：2
10吴晓丹,石争,郑玉蒙,武优西,商博雅.缩放残差前置GRU模型[J].小型微型计算机系统,2022,43(12):2528-2534.

二级引证文献48

1陈晓武,刘国华,雷尚平.机器视觉平台在钢铁制造业的实现与应用[J].冶金自动化,2020,44(S01):197-201. 被引量：4
2黄碧媛,陈小宁,郭进.基于神经网络的垃圾分类App研究与设计[J].计算机产品与流通,2020,9(3):113-113. 被引量：3
3王澎斌.基于DUKF方法的汽车自动驾驶状态联合观测[J].工程机械文摘,2023(3):18-20. 被引量：1
4王慧,李家锐,黄栋,黄平洋,许时镇,孔祥峰,李慎德,陈春雷.AUV自主巡航与色块识别的典型方法与应用前景[J].无线互联科技,2020,17(15):98-102. 被引量：2
5柏彬,孙铭泽,陆勇,吴串国,张煜昊.基于TensorFlow框架的施工现场违规行为智能识别方法[J].电工技术,2021(10):190-191. 被引量：2
6郭景华,何智飞,罗禹贡,李克强.人机混驾环境下基于深度学习的车辆切入[J].汽车工程,2022,44(2):153-160. 被引量：6
7蔺瑞管,王华伟,车畅畅,倪晓梅,熊明兰.基于LSTM分类器的航空发动机预测性维护模型[J].系统工程与电子技术,2022,44(3):1052-1059. 被引量：6
8许丹,肖小琦,冯至昕.未知载荷条件下机械系统剩余寿命预测方法[J].北京航空航天大学学报,2022,48(3):376-383.
9贾志涛,王萌,任鹏飞,田淋元.基于门控循环单元的涡扇发动机剩余寿命预测[J].工业技术与职业教育,2022,20(2):22-24. 被引量：1
10郄文波.基于深度学习的天然气电厂智能视频监控平台应用分析[J].通信电源技术,2022,39(2):70-72.

1李志辰,刘琨(导师),江俊峰,马鹏飞,李鹏程,刘铁根.光纤周界安防系统的高准确度事件识别方法[J].红外与激光工程,2018,47(9):156-161. 被引量：17
2滑珊.媒介融合下基层党建信息传播存在的问题及解决路径探讨[J].东方企业文化,2018,0(5):106-107. 被引量：6
3新手跟车注意事项[J].道路交通管理,2018,0(11):70-70.
4李振东,钟勇,陈蔓,曹冬平.基于深度特征的快速人脸图像检索方法[J].光学学报,2018,38(10):144-150. 被引量：6
5李昊歌,朱恒伟,吴昌聚,陈伟芳.采用高超声速再入圆球的大气密度间接探测方法[J].国防科技大学学报,2017,39(4):40-47. 被引量：3
6李清光.消费者对食品安全信息搜寻行为的特征分析——基于微博指数与百度指数的分析[J].价格理论与实践,2018(9):78-81. 被引量：4
7王金传,谭喜成,王召海,钟燕飞,董华萍,周松涛,成布怡.基于Faster R-CNN深度网络的遥感影像目标识别方法研究[J].地球信息科学学报,2018,20(10):1500-1508. 被引量：34
8毛世榕,管振德,阎春恒.基于小波包分形和神经网络的地震与岩溶塌陷识别[J].地震学报,2018,40(2):195-204. 被引量：9
9何子维.成渝城市群崛起背后的“双中心竞合”[J].南风窗,2018,0(23):71-73.
10朱文跃,刘宗田.基于事件本体的突发事件领域知识建模[J].计算机工程与应用,2018,54(21):148-155. 被引量：31

计算机学报

2018年第12期

浏览历史

内容加载中请稍等...

基于深度残差双单向DLSTM的时空一致视频事件识别被引量：13

参考文献2

二级参考文献29

共引文献26

同被引文献71

引证文献13

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于深度残差双单向DLSTM的时空一致视频事件识别 被引量：13

参考文献2

二级参考文献29

共引文献26

同被引文献71

引证文献13

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于深度残差双单向DLSTM的时空一致视频事件识别被引量：13