复杂背景下基于深度学习的视频动作识别被引量：1

Video Action Recognition in Complex Background Based on Deep Learning

下载PDF

导出

摘要快速有效地识别视频中的人体动作,具有广泛的应用前景及潜在的经济价值。但目前的视频动作识别方法易受到运动人体晃动、背景变化、摄相机抖动、运动人体阴影等背景因素影响。为解决上述问题,本文提出一种非局域时间段网络方法。该方法在双流网络的基础上,通过加入非局域计算使网络能关注到更大时空范围的信息,并进一步融入光流信息使网络更精确地将注意力放在动作区域,从而增强对视频复杂静态背景的鲁棒性。此外,为了融合双流分段网络的多路判别结果,本文使用可学习的加权平均取代简单平均来融合多模态信息。经过在TDAP数据集上的实验验证,本文的模型可在复杂背景下较为精确地识别出人体动作,与原有模型相比在几乎不增加时间复杂度的前提下提升了识别性能。 Recognizing human actions in videos has broad application prospects and great potential economic value.However,the accuracy of video action recognition is affected by a number of factors such as swaying,background changes,camera shaking and moving shadows.To reduce the influence of such complex background,we proposed non-local temporal segment networks(NLTSNet).The NLTSNet is based on the temporal segment network but is enhanced with non-local modules over the ResNet so as to capture the non-local spatial and temporal information contained in the video clips.To furthermore improve the network’s robustness against stationary cluttered background,we integrate the optical flow into the non-local module.Finally,we adopt a learnable ensemble network to fuse the prediction results from both the appearance and temporal modality.Extensive experimental results on the TDAP dataset show that our new method can recognize human actions with more accuracy in a complex background compared with several state of the art methods,without increasing the time complexity.

作者潘陈听谭晓阳 PAN Chen-ting;TAN Xiao-yang(College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;MIIT Key Laboratory of Pattern Analysis and Machine Intelligence, Nanjing 211106, China;Collaborative Innovation Center of Novel Software Technology and Industrialization, Nanjing 211106, China)

机构地区南京航空航天大学计算机科学与技术学院模式分析与机器智能工业和信息化部重点实验室软件新技术与产业化协同创新中心

出处《计算机与现代化》 2020年第7期97-103,共7页 Computer and Modernization

基金国家自然科学基金资助项目(61976115,61672280,61732006) 南航人工智能+项目(56XZA18009)。

关键词动作识别非局域模块时间段网络复杂背景自注意力 action recognition non-local module temporal segment network complex background self-attention

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献1

1马煜,杜慧敏,毛智礼,张霞.深度语义分割人群密度检测技术[J].计算机科学与探索,2021,15(8):1469-1475. 被引量：1

引证文献1

1刘田田.基于深度学习的隐私摄像安全防护方案[J].科学技术创新,2020(31):102-103.

1闫文龙,雷立超,李运筹.水电站筒阀油压装置频繁补气原因分析及优化策略[J].电工技术,2019,0(21):97-97. 被引量：6
2夏杰,熊俊俏.基于光流传感器的微型四轴悬停校正系统设计[J].现代电子技术,2019,42(22):117-120. 被引量：4
3黎西,袁锐波,陈霖.基于高速摄像技术空气喷嘴雾化特性研究[J].农业装备与车辆工程,2020,58(4):101-103. 被引量：3
4陈辰.庆祝中华人民共和国成立70周年大会外场转播技术实施难点和关键点[J].现代电视技术,2020(1):54-57.
5王聪,费树岷.拥挤场景下的暴力行为检测[J].工业控制计算机,2020,33(2):100-101.
6王九松,刘昌雄,黄雄杰,刘鸣江.游离胸背动脉穿支皮瓣修复小儿足跟部软组织缺损的临床经验[J].中华显微外科杂志,2019,42(6):610-611. 被引量：8
7谢积锦,刘斌,何永玲,刘桂英,谷良田,王跃飞.一种新型的三电平VIENNA整流器调制策略[J].电气传动,2020,50(4):45-52. 被引量：2
8杨坤,牛志忠,张仁崇.一种改进的基于流体力学的群体目标检测方法[J].信息与电脑,2019,31(19):49-50.
9张逸清.一种特征自适应融合的滤波跟踪算法[J].计算机产品与流通,2020,9(8):258-260.
10陈震,马龙,张聪炫,黎明,吴俊劼,江少锋.基于语义分割的双目场景流估计[J].电子学报,2020,48(4):631-636. 被引量：3

计算机与现代化

2020年第7期

浏览历史

内容加载中请稍等...

复杂背景下基于深度学习的视频动作识别被引量：1

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

复杂背景下基于深度学习的视频动作识别 被引量：1

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

复杂背景下基于深度学习的视频动作识别被引量：1