-
题名基于运动区域差分与卷积神经网络的动作识别
被引量:9
- 1
-
-
作者
陈晓春
林博溢
孙乾
张坤华
-
机构
深圳清华大学研究院电子设计自动化实验室
鹏城实验室
深圳大学电子与信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第12期274-280,293,共8页
-
基金
广东省科技计划项目(2016B010126003)
深圳市基础研究项目(JCYJ20170816151958999)
-
文摘
针对视频动作识别中数据处理效率不高的问题,建立一种基于视频帧间差分序列的动作识别模型。利用帧间差分检测视频帧中的运动区域,以该区域为中心进行相应的图像剪切和增强处理。整个识别模型采用双流架构,在数据样本制作时通过适当的隔帧差分来扩大样本的时间跨度。采用分阶段逐步增加训练样本量的方法,以提升模型识别性能并解决训练过程中易出现的过拟合问题。实验结果表明,该模型可以在CPU级配置的电脑中完成快速动作识别,且在UCF11和UCF25数据集中的识别准确率均高于85%。
-
关键词
帧间差分
动作识别
双流架构
卷积神经网络
运动区域
-
Keywords
inter frame difference
action recognition
dual-stream architecture
Convolutional Neural Network(CNN)
motion region
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向无人机航摄图像语义分割的双路特征融合网络
被引量:2
- 2
-
-
作者
李润增
史再峰
孔凡宁
赵向阳
罗韬
-
机构
天津大学微电子学院
天津大学智能与计算学部
天津市成像与感知微电子技术重点实验室
-
出处
《激光与光电子学进展》
CSCD
北大核心
2023年第24期283-291,共9页
-
基金
国家自然科学基金(62071326)
天津市自然科学基金(22JCYBJC00140)。
-
文摘
针对无人机航摄图像中目标尺寸差异大导致的感受野难以同时兼顾不同尺寸物体分割效果的问题,提出了利用两路分支分别提取浅层和深层信息的双路特征融合网络(DSFA-Net)。在编码器中,浅层分支利用三个串行ConvNeXt模块提取高通道数的浅层特征以保留更多空间细节;深层分支利用坐标注意力空洞空间金字塔池化(CA-ASPP)模块为特征图重新分配权重,使网络更加关注尺寸各异的分割目标,获得深层多尺度特征。在解码过程中,网络利用双边引导融合模块为两层特征建立通信以进行分辨率融合,提高层级特征的利用率。所提方法在AeroScapes和Semantic Drone航摄图像数据集上进行了实验,其平均交并比分别达到83.16%和72.09%、平均像素准确率分别达到90.75%和80.34%。与主流的语义分割方法相比,所提方法对于具有较大尺寸差异的目标,分割能力更强,更适用于无人机航摄图像场景下的语义分割任务。
-
关键词
语义分割
特征融合
双路网络
坐标注意力空洞空间金字塔池化
多尺度特征提取
-
Keywords
semantic segmentation
feature aggregation
dual-stream architecture
coordinate attention atrous spatial pyramid pooling
multi-scale feature extraction
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于注意力机制与三维卷积聚合的动作识别
- 3
-
-
作者
张君秋
赵建光
-
机构
河北建筑工程学院信息工程学院
-
出处
《现代信息科技》
2023年第17期71-74,80,共5页
-
基金
河北建筑工程学院硕士研究生创新基金项目(XY202237)。
-
文摘
由于视频数据大量,视觉内容丰富,如何有效地提取视频中的时间特征,有效地融合时空特征是动作识别中的一个难题。针对这些困难,提出了一种基于注意力机制和三维卷积聚合的动作识别新算法。为了验证该算法的有效性,在大型公共行为数据集UCF101上进行了验证。实验结果表明,该算法具有良好的时间特征建模能力,有效地提高了动作识别的精度。
-
关键词
动作识别
注意力机制
模型聚合
三维卷积
双流架构
-
Keywords
action recognition
attention mechanisms
model aggregation
three-dimensional convolution
dual-stream architecture
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-