题名 注意力引导的三维卷积网络用于遥感场景变化检测
被引量:5
1
作者
张涵
秦昆
毕奇
张晔
许凯
机构
武汉大学遥感信息工程学院
中国地质大学地理信息工程学院
出处
《应用科学学报》
CAS
CSCD
北大核心
2021年第2期272-280,共9页
基金
国家重点研发计划(No.2016YFB0502600)
国家自然科学基金(No.41801265)资助。
文摘
场景级变化检测策略可以容忍高分遥感影像的大量噪声,进而从语义层级更准确地描述遥感图像在前后时相的变化,为高分辨率影像变化检测提供了可能。本文提出了一种注意力引导的三维卷积神经网络用于高分遥感影像场景变化检测的方法。首先构建一个在AlexNet基础上进行简化的三维卷积网络,然后加入一个语义注意力模块来进一步提取地表覆盖变化显著的候选判别区域;最后输入分类层得到分类结果,整个框架以端对端、可训练的方式进行组织,直接由双时相场景切片通过卷积网络得到变化检测结果。为评估场景级变化检测方法性能,本文制作了一个语义级高分遥感影像场景变化检测数据集,在该数据集上的实验结果显示本文方法变化检测的准确率高于相关方法,验证了方法的有效性,初步展示了基于深度学习的场景级遥感变化检测的发展前景。
关键词
场景级变化检测
语义注意力模块
三维卷积神经网络
高分遥感解译
场景变化检测数据集
Keywords
scene-level change detection
semantic attention module
3 D convnet
high resolution remote sensing interpretation
scene-level change detection benchmark
分类号
TP751.1
[自动化与计算机技术—检测技术与自动化装置]
题名 基于深度学习的行为识别算法综述
被引量:24
2
作者
赫磊
邵展鹏
张剑华
周小龙
机构
浙江工业大学计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2020年第S01期139-147,共9页
基金
国家自然科学基金(20160283,61603341)
浙江省自然科学基金(KYY-ZX-20190013,KYY-ZX-20180114)。
文摘
行为识别是计算机视觉领域的基本问题之一,基于深度学习的行为识别算法是当前行为识别的主流算法。在已有的研究中,传统特征提取方法一般是通过人工观察和设计,手动设计出能够表征视频动作的特征。然而,在手工特征表达的基础上构建复杂分类模型的方法已经不能适应高识别精度和应用性的要求,而深度学习的引入为行为识别带来了新的发展方向。文中主要综述了基于深度学习的行为识别算法,首先介绍了行为识别的研究背景和意义,并分别对行为识别的传统学习方法和深度学习方法进行了介绍;然后对深度学习下的算法模型结构进行分类介绍,包括Two-Stream、3D-ConvNet、融合CNN-LSTM 3种算法模型结构;最后介绍了目前常用的公开验证数据集,并主要针对基于两种数据模态的识别算法进行了横向比较,一种是基于RGB视频的UCF101和HMDB51数据集,一种是基于人体骨架序列视频的NTU RGB+D数据集。实验结果表明:深度学习方法已经取得了很大的进步,卷积神经网络的应用极大地促进了行为识别算法的发展,逐步替代了基于手工提取特征的传统方法,尤其采用了卷积神经网络算法之后在行为数据集上的准确率有了显著提高。对于RGB视频而言,Two-Stream和3DConvNet是算法模型结构的主流,对于骨架序列视频而言,Two-Stream和融合时空图模型是算法模型结构的主流。
关键词
行为识别
深度学习
卷积神经网络
循环神经网络
3 D卷积
Keywords
Action recognition
Deep learning
Convolutional neural network
Recurrent neural network
3 D-convnet
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 基于全局频域池化的行为识别算法
3
作者
贾志超
张海超
张闯
颜蒙蒙
储金祺
颜之岳
机构
南京信息工程大学电子与信息工程学院
江苏省气象探测与信息处理重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2024年第9期2867-2873,共7页
基金
国家自然科学基金资助项目(62272234)。
文摘
目前基于3D-ConvNet的行为识别算法普遍使用全局平均池化(global average pooling,GAP)压缩特征信息,但会产生信息损失、信息冗余和网络过拟合等问题。为了解决上述问题,更好地保留卷积层提取到的高级语义信息,提出了基于全局频域池化(global frequency domain pooling,GFDP)的行为识别算法。首先,根据离散余弦变换(discrete cosine transform,DCT)看出,GAP是频域中特征分解的一种特例,从而引入更多频率分量增加特征通道间的特异性,减少信息压缩后的信息冗余;其次,为了更好地抑制过拟合问题,引入卷积层的批标准化策略,并将其拓展在以ERB(efficient residual block)-Res3D为骨架的行为识别模型的全连接层以优化数据分布;最后,将该方法在UCF101数据集上进行验证。结果表明,模型计算量为3.5 GFlops,参数量为7.4 M,最终的识别准确率在ERB-Res3D模型的基础上提升了3.9%,在原始Res3D模型基础上提升了17.4%,高效实现了更加准确的行为识别结果。
关键词
3 D-convnet
人体行为识别
全局平均池化
离散余弦变换
Keywords
3 D-convnet
human action recognition
global average pooling
discrete cosine transform
分类号
TP319
[自动化与计算机技术—计算机软件与理论]