时空特征金字塔模块下的视频行为识别被引量：5

Video Action Recognition Based on Spatio-Temporal Feature Pyramid Module

下载PDF

导出

摘要目前用于视频行为识别的主流2D卷积神经网络方法无法提取输入帧之间的相关信息,导致网络无法获得输入帧间的时空特征信息进而难以提升识别精度。针对目前主流方法存在的问题,提出了通用的时空特征金字塔模块(STFPM)。STFPM由特征金字塔和空洞卷积金字塔两部分组成,并能直接嵌入到现有的2D卷积神经网络中构成新的行为识别网络——时空特征金字塔网络(STFP-Net)。针对多帧图像输入,STFP-Net首先提取每帧输入的单独空域特征信息,并将这些特征信息记为原始特征;然后,所设计的STFPM利用矩阵转换操作对原始特征构建特征金字塔;其次,利用空洞卷积金字塔对构建的原始特征金字塔提取具有时空关联性的时序特征;接着,将原始特征与时序特征进行加权融合并传递给后续深层网络;最后,利用全连接对网络输出特征进行分类识别。与Baseline相比,STFP-Net引入了可忽略不计的额外参数和计算量。实验结果表明,与近些年主流方法相比,STFP-Net在主流数据库UCF101和HMDB51上的分类准确度具有明显提升。 At present, the mainstream 2D convolution neural network method for video action recognition can ’ t extract the relevant information between input frames, which makes it difficult for the network to obtain the spatiotemporal feature information between input frames and improve the recognition accuracy. To solve the existing problems, a universal spatio-temporal feature pyramid module(STFPM) is proposed. STFPM consists of feature pyramid and dilated convolution pyramid, which can be directly embedded into the existing 2D convolution network to form a new action recognition network named spatio-temporal feature pyramid net(STFP-Net). For multi-frame image input, STFP-Net first extracts the individual spatial feature information of each frame input and records it as the original feature. Then, the designed STFPM uses matrix operation to construct the feature pyramid of the original feature. Furthermore, the spatio-temporal features with temporal and spatial correlation are extracted by applying the dilated convolution pyramid to feature pyramid. Next, the original features and spatio-temporal features are fused by a weighted summation and transmitted to the deep network. Finally, the action in the video is classified by full connected layer. Compared with Baseline, STFP-Net introduces negligible additional parameters and computational complexity. Experimental results show that compared with mainstream methods in recent years,STFP-Net has significant improvement in classification accuracy on the general datasets UCF101 and HMDB51.

作者龚苏明陈莹 GONG Suming;CHEN Ying(Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi,Jiangsu 214122,China)

机构地区江南大学轻工过程先进控制教育部重点实验室

出处《计算机科学与探索》 CSCD 北大核心 2022年第9期2061-2067,共7页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金(61573168)。

关键词行为识别 2D卷积网络时空特征特征金字塔空洞卷积金字塔 action recognition 2D convolution network spatio-temporal features feature pyramid dilated convolution pyramid

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1刘天亮,谯庆伟,万俊伟,戴修斌,罗杰波.融合空间-时间双网络流和视觉注意的人体行为识别[J].电子与信息学报,2018,40(10):2395-2401. 被引量：13
2周波,李俊峰.结合目标检测的人体行为识别[J].自动化学报,2020,46(9):1961-1970. 被引量：20
3张良,鲁梦梦,姜华.局部分布信息增强的视觉单词描述与动作识别[J].电子与信息学报,2016,38(3):549-556. 被引量：11
4朱红蕾,朱昶胜,徐志刚.人体行为识别数据集研究进展[J].自动化学报,2018,44(6):978-1004. 被引量：35

二级参考文献23

1BEBAR A A and HEMAYED E E. Comparative study for feature detector in human activity recognition[C]. IEEE the9th International conference on Computer Engineering Conference, Giza, 2013: 19-24. doi: 10.1109/ICENCO.2013. 6736470. 被引量：1
2LI F and DU J X. Local spatio-temporal interest point detection for human action recognition[C]. IEEE the 5th International Conference on Advanced Computational Intelligence, Nanjing, 2012: 579-582. doi: 10.1109/ICACI. 2012.6463231. 被引量：1
3ONOFRI L, SODA P, and IANNELLO G. Multiple subsequence combination in human action recognition[J]. IEEE Journal on Computer Vision, 2014, 8(1): 26-34. doi: 10.1049/iet-cvi.2013.0015. 被引量：1
4FOGGIA P, PERCANNELLA G, SAGGESE A, et al. Recognizing human actions by a bag of visual words[C]. IEEE International Conference on Systems, Man, and Cybernetics~ Manchester, 2013: 2910-2915. doi: 10.1109/SMC.2013.496. 被引量：1
5ZHANG X, MIAO Z J, and WAN L. Human action categories using motion descriptors[C]. IEEE 19th International Conference on hnage Processing, Orlando, FL, 2012: 1381-1384. doi: 10.1109/ICIP.2012.6467126. 被引量：1
6LI Y and KUAI Y H. Action recognition based on spatio-temporal interest point[C]. IEEE the 5th International. 被引量：1
7Conference on Biomedical Engineering and Informatics, Chongqing, 2012: 181-185. doi: 10.1109/BMEI.2012.6512972. 被引量：1
8REN H and MOSELUND T B. Action recognition using salient neighboring histograms[C]. IEEE the 20th International Conference on Image Processing, Melbourne, VIC, 2013: 2807-2811. doi: 10.1109/ICIP.2013.6738578. 被引量：1
9COZAR J R, GONZALEZ-LINARES J M, GUIL N, et al. Visual words selection for human action classification[C]. International Conference on High Performance Computing and Simulation, Madrid, 2012: 188-194. doi: 10.1109/ HPCSim.2012.6266910. 被引量：1
10WANG H R, YUAN C F, HU W M, et al. Action recognition using nonnegative action component representation and sparse basis selection[J]. IEEE Transactions on Image Processing, 2014, 23(2): 570-581. doi: 10.1109/TIP.2013. 2292550. 被引量：1

共引文献73

1谈笑.基于Spark大数据平台的老年病风险预警模型[J].微型电脑应用,2020,36(2):71-74. 被引量：2
2李玉鹏,刘婷婷,张良.基于深度学习的人体动作识别方法[J].计算机应用研究,2020,37(1):304-307. 被引量：6
3王立刚,张志佳,李晋,范莹莹,刘立强.基于卷积神经网络的LED灯类字体数字识别[J].电子测量与仪器学报,2020(11):148-154. 被引量：8
4朱文和.基于高斯平滑的视频时序检测算法[J].大众标准化,2021(2):253-254.
5周前祥,郭华岭,廖德智.载人航天器地理位置指示器工效学设计仿真软件的研制[J].计算机仿真,2000,17(1):60-63.
6马玲,周斌.三维视觉图像跟踪运动员对受伤目标监测仿真[J].计算机仿真,2017,34(2):422-425. 被引量：3
7阿里木·库尔班,阿地拉,吐热尼萨·麦麦提明,解文琴,吐尔根·依布拉音,卡哈尔江·阿比的热西提.基于Kinect的命名实体标注工具的研究与实现[J].电脑知识与技术,2018,14(5):67-70.
8高亮.基于计算机视觉的运动员错误动作识别模型构建及仿真[J].微型电脑应用,2018,34(6):59-62. 被引量：4
9鹿天然,于凤芹,杨慧中,陈莹.基于显著性检测和稠密轨迹的人体行为识别[J].计算机工程与应用,2018,54(14):163-167. 被引量：7
10刘天亮,谯庆伟,万俊伟,戴修斌,罗杰波.融合空间-时间双网络流和视觉注意的人体行为识别[J].电子与信息学报,2018,40(10):2395-2401. 被引量：13

同被引文献72

1刘浩,刘海滨,孙宇,王竞陶,黄辉.煤矿井下员工不安全行为智能识别系统[J].煤炭学报,2021,46(S02):1159-1169. 被引量：32
2余金锁,卢先领.基于分割注意力的特征融合CNN-Bi-LSTM人体行为识别算法[J].电子测量与仪器学报,2022,36(2):89-95. 被引量：6
3刘斌,贾浩强,杨一,申佳,盖美辰,宋天霖.基于改进OpenPose算法的矿工危险行为识别研究[J].电视技术,2023,47(2):20-23. 被引量：2
4李振龙,彭亚雄.基于3D反向动力学IK算法的研究[J].微型机与应用,2013,32(24):34-36. 被引量：5
5蔡昭权.C#和C++数据传递的研究与实现[J].计算机应用与软件,2009,26(3):145-146. 被引量：5
6谭昶,肖南峰.基于改进RCE和RBF神经网络的静态手势识别[J].计算机工程与应用,2011,47(7):172-176. 被引量：16
7俞博,陈永强,王双一,张文龙,黄颖姝.基于手指角度特征的静态手势识别算法[J].西华大学学报（自然科学版）,2014,33(1):69-71. 被引量：10
8张凤军,戴国忠,彭晓兰.虚拟现实的人机交互综述[J].中国科学：信息科学,2016,46(12):1711-1736. 被引量：220
9王丽光,张根源,刘子龙.基于单目视觉的实时手语识别系统设计与实现[J].电子科技,2017,30(3):130-133. 被引量：6
10杨文璐,郭迎春,李世杰,韩志峰,谢宏,夏斌.基于Kinect与Unity3D的增强现实应用的设计与实现[J].微型机与应用,2017,36(14):23-25. 被引量：3

引证文献5

1武胜,徐臻,秦浩东.增强现实手势交互设计与实现[J].智能物联技术,2023,55(1):5-13.
2苏晨阳,武文红,牛恒茂,石宝,郝旭,王嘉敏,高勒,汪维泰.深度学习的工人多种不安全行为识别方法综述[J].计算机工程与应用,2024,60(5):30-46. 被引量：3
3王彩玲,闫晶晶,张智栋.基于多模态数据的人体行为识别方法研究综述[J].计算机工程与应用,2024,60(9):1-18.
4姜友鹏,华阳,宋晓宁.空间注意力与位置优化的三维人体姿态估计域适应算法[J].计算机科学与探索,2024,18(9):2384-2394.
5吴沛宸,袁立宁,郭放,刘钊.视频异常行为检测综述[J].计算机科学与探索,2024,18(12):3100-3125.

二级引证文献3

1孙晴,杨超宇.基于多模态的井下登高作业专人扶梯检测方法[J].工矿自动化,2024,50(5):142-150.
2何赟泽,谯灵俊,王洪金,马刚,王耀南.基于改进DETR的智慧车间人员典型行为识别算法[J].电子测量与仪器学报,2024,38(9):76-84.
3王建芳,段思源,潘红光,景宁波.轻量化姿态估计时空增强图卷积模型下的矿工行为识别[J].工矿自动化,2024,50(11):34-42.

1张小玲.移动互联网环境下学术期刊数字化发展探究[J].中国市场,2022(24):96-98. 被引量：1
2第49期《智能建筑与智慧城市》杂志社征订单(原《智能建筑与城市信息》)(2023年)[J].智能建筑与智慧城市,2022(7).
3李娟莉,杜文勇,谢嘉成,王学文.煤层数字高程模型构建与动态修正方法[J].煤炭科学技术,2022,50(7):59-66. 被引量：2
4杨忆,何涛,徐鹤,许广峰.基于自校准卷积与特征注意力的图像去雾算法[J].软件,2022,43(7):53-58.
5沈念伟,于大泳.基于多信息融合的轮式机器人定位算法研究[J].软件工程,2022,25(9):13-17. 被引量：2
6田雅男,孙浩然,宋明绅,刘涛,刘瀚林,赵晓龙.基于ADNet实现DAS数据衰落噪声压制[J].吉林大学学报（信息科学版）,2022,40(4):525-530.
7董帅兵,王丽萍,张业武,李言飞.基于机器学习的全国布鲁氏菌病重复报告分析方法研究[J].公共卫生与预防医学,2022,33(5):29-31. 被引量：1
8王旖旎,高永彬,万卫兵,杨淑群,郭茹燕.结合外部知识库与适应性推理的场景图生成模型[J].计算机工程,2022,48(9):230-238.
9冯跃,梁惠珠,徐红,林卓胜,张双胜,胡敏儿.基于注意力机制与特征融合的耳诊图像五脏反射区分割[J].五邑大学学报（自然科学版）,2022,36(3):35-43. 被引量：1
10高玮玮,单明陶,宋楠,樊博,方宇.嵌入SENet的改进YOLOv4眼底图像微动脉瘤自动检测算法[J].生物医学工程学杂志,2022,39(4):713-720. 被引量：6

计算机科学与探索

2022年第9期

浏览历史

内容加载中请稍等...

时空特征金字塔模块下的视频行为识别被引量：5

参考文献4

二级参考文献23

共引文献73

同被引文献72

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

时空特征金字塔模块下的视频行为识别 被引量：5

参考文献4

二级参考文献23

共引文献73

同被引文献72

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

时空特征金字塔模块下的视频行为识别被引量：5