期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
VNLSTM-PoseNet: A novel deep ConvNet for real-time 6-DOF camera relocalization in urban streets 被引量:2
1
作者 Ming Li Jiangying Qin +3 位作者 Deren Li Ruizhi Chen Xuan Liao Bingxuan Guo 《Geo-Spatial Information Science》 SCIE EI CSCD 2021年第3期422-437,共16页
Image-based relocalization is a renewed interest in outdoor environments,because it is an important problem with many applications.PoseNet introduces Convolutional Neural Network(CNN)for the first time to realize the ... Image-based relocalization is a renewed interest in outdoor environments,because it is an important problem with many applications.PoseNet introduces Convolutional Neural Network(CNN)for the first time to realize the real-time camera pose solution based on a single image.In order to solve the problem of precision and robustness of PoseNet and its improved algorithms in complex environment,this paper proposes and implements a new visual relocation method based on deep convolutional neural networks(VNLSTM-PoseNet).Firstly,this method directly resizes the input image without cropping to increase the receptive field of the training image.Then,the image and the corresponding pose labels are put into the improved Long Short-Term Memory based(LSTM-based)PoseNet network for training and the network is optimized by the Nadam optimizer.Finally,the trained network is used for image localization to obtain the camera pose.Experimental results on outdoor public datasets show our VNLSTM-PoseNet can lead to drastic improvements in relocalization performance compared to existing state-of-theart CNN-based methods. 展开更多
关键词 Camera relocalization pose regression deep convnet RGB image camera pose
原文传递
基于深度学习的行为识别算法综述 被引量:24
2
作者 赫磊 邵展鹏 +1 位作者 张剑华 周小龙 《计算机科学》 CSCD 北大核心 2020年第S01期139-147,共9页
行为识别是计算机视觉领域的基本问题之一,基于深度学习的行为识别算法是当前行为识别的主流算法。在已有的研究中,传统特征提取方法一般是通过人工观察和设计,手动设计出能够表征视频动作的特征。然而,在手工特征表达的基础上构建复杂... 行为识别是计算机视觉领域的基本问题之一,基于深度学习的行为识别算法是当前行为识别的主流算法。在已有的研究中,传统特征提取方法一般是通过人工观察和设计,手动设计出能够表征视频动作的特征。然而,在手工特征表达的基础上构建复杂分类模型的方法已经不能适应高识别精度和应用性的要求,而深度学习的引入为行为识别带来了新的发展方向。文中主要综述了基于深度学习的行为识别算法,首先介绍了行为识别的研究背景和意义,并分别对行为识别的传统学习方法和深度学习方法进行了介绍;然后对深度学习下的算法模型结构进行分类介绍,包括Two-Stream、3D-ConvNet、融合CNN-LSTM 3种算法模型结构;最后介绍了目前常用的公开验证数据集,并主要针对基于两种数据模态的识别算法进行了横向比较,一种是基于RGB视频的UCF101和HMDB51数据集,一种是基于人体骨架序列视频的NTU RGB+D数据集。实验结果表明:深度学习方法已经取得了很大的进步,卷积神经网络的应用极大地促进了行为识别算法的发展,逐步替代了基于手工提取特征的传统方法,尤其采用了卷积神经网络算法之后在行为数据集上的准确率有了显著提高。对于RGB视频而言,Two-Stream和3DConvNet是算法模型结构的主流,对于骨架序列视频而言,Two-Stream和融合时空图模型是算法模型结构的主流。 展开更多
关键词 行为识别 深度学习 卷积神经网络 循环神经网络 3D卷积
下载PDF
Dynamic Hand Gesture Recognition Based on Short-Term Sampling Neural Networks 被引量:12
3
作者 Wenjin Zhang Jiacun Wang Fangping Lan 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2021年第1期110-120,共11页
Hand gestures are a natural way for human-robot interaction.Vision based dynamic hand gesture recognition has become a hot research topic due to its various applications.This paper presents a novel deep learning netwo... Hand gestures are a natural way for human-robot interaction.Vision based dynamic hand gesture recognition has become a hot research topic due to its various applications.This paper presents a novel deep learning network for hand gesture recognition.The network integrates several well-proved modules together to learn both short-term and long-term features from video inputs and meanwhile avoid intensive computation.To learn short-term features,each video input is segmented into a fixed number of frame groups.A frame is randomly selected from each group and represented as an RGB image as well as an optical flow snapshot.These two entities are fused and fed into a convolutional neural network(Conv Net)for feature extraction.The Conv Nets for all groups share parameters.To learn longterm features,outputs from all Conv Nets are fed into a long short-term memory(LSTM)network,by which a final classification result is predicted.The new model has been tested with two popular hand gesture datasets,namely the Jester dataset and Nvidia dataset.Comparing with other models,our model produced very competitive results.The robustness of the new model has also been proved with an augmented dataset with enhanced diversity of hand gestures. 展开更多
关键词 Convolutional neural network(convnet) hand gesture recognition long short-term memory(LSTM)network short-term sampling transfer learning
下载PDF
基于全局频域池化的行为识别算法
4
作者 贾志超 张海超 +3 位作者 张闯 颜蒙蒙 储金祺 颜之岳 《计算机应用研究》 CSCD 北大核心 2024年第9期2867-2873,共7页
目前基于3D-ConvNet的行为识别算法普遍使用全局平均池化(global average pooling,GAP)压缩特征信息,但会产生信息损失、信息冗余和网络过拟合等问题。为了解决上述问题,更好地保留卷积层提取到的高级语义信息,提出了基于全局频域池化(g... 目前基于3D-ConvNet的行为识别算法普遍使用全局平均池化(global average pooling,GAP)压缩特征信息,但会产生信息损失、信息冗余和网络过拟合等问题。为了解决上述问题,更好地保留卷积层提取到的高级语义信息,提出了基于全局频域池化(global frequency domain pooling,GFDP)的行为识别算法。首先,根据离散余弦变换(discrete cosine transform,DCT)看出,GAP是频域中特征分解的一种特例,从而引入更多频率分量增加特征通道间的特异性,减少信息压缩后的信息冗余;其次,为了更好地抑制过拟合问题,引入卷积层的批标准化策略,并将其拓展在以ERB(efficient residual block)-Res3D为骨架的行为识别模型的全连接层以优化数据分布;最后,将该方法在UCF101数据集上进行验证。结果表明,模型计算量为3.5 GFlops,参数量为7.4 M,最终的识别准确率在ERB-Res3D模型的基础上提升了3.9%,在原始Res3D模型基础上提升了17.4%,高效实现了更加准确的行为识别结果。 展开更多
关键词 3D-convnet 人体行为识别 全局平均池化 离散余弦变换
下载PDF
基于双流非局部残差网络的行为识别方法 被引量:7
5
作者 周云 陈淑荣 《计算机应用》 CSCD 北大核心 2020年第8期2236-2240,共5页
针对传统卷积神经网络(CNN)对人体行为动作仅能提取局部特征易导致相似行为动作识别准确率不高的问题,提出了一种基于双流非局部残差网络(NL-ResNet)的行为识别方法。首先提取视频的RGB帧和密集光流图,分别作为空间流和时间流网络的输入... 针对传统卷积神经网络(CNN)对人体行为动作仅能提取局部特征易导致相似行为动作识别准确率不高的问题,提出了一种基于双流非局部残差网络(NL-ResNet)的行为识别方法。首先提取视频的RGB帧和密集光流图,分别作为空间流和时间流网络的输入,并通过角落裁剪和多尺度相结合的预处理方法进行数据增强;其次分别利用残差网络的残差块提取视频的局部表观特征和运动特征,再通过在残差块之后接入的非局部CNN模块提取视频的全局信息,实现网络局部特征和全局特征的交叉提取;最后将两个分支网络分别通过A-softmax损失函数进行更精细的分类,并输出加权融合后的识别结果。该方法能充分利用局部和全局特征提高模型的表征能力。在UCF101数据集上,NL-ResNet取得了93.5%的识别精度,与原始双流网络相比提高了5.5个百分点。实验结果表明,所提模型能更好地提取行为特征,有效提高行为识别的准确率。 展开更多
关键词 行为识别 双流卷积神经网络 非局部 特征提取 A-softmax
下载PDF
注意力引导的三维卷积网络用于遥感场景变化检测 被引量:5
6
作者 张涵 秦昆 +2 位作者 毕奇 张晔 许凯 《应用科学学报》 CAS CSCD 北大核心 2021年第2期272-280,共9页
场景级变化检测策略可以容忍高分遥感影像的大量噪声,进而从语义层级更准确地描述遥感图像在前后时相的变化,为高分辨率影像变化检测提供了可能。本文提出了一种注意力引导的三维卷积神经网络用于高分遥感影像场景变化检测的方法。首先... 场景级变化检测策略可以容忍高分遥感影像的大量噪声,进而从语义层级更准确地描述遥感图像在前后时相的变化,为高分辨率影像变化检测提供了可能。本文提出了一种注意力引导的三维卷积神经网络用于高分遥感影像场景变化检测的方法。首先构建一个在AlexNet基础上进行简化的三维卷积网络,然后加入一个语义注意力模块来进一步提取地表覆盖变化显著的候选判别区域;最后输入分类层得到分类结果,整个框架以端对端、可训练的方式进行组织,直接由双时相场景切片通过卷积网络得到变化检测结果。为评估场景级变化检测方法性能,本文制作了一个语义级高分遥感影像场景变化检测数据集,在该数据集上的实验结果显示本文方法变化检测的准确率高于相关方法,验证了方法的有效性,初步展示了基于深度学习的场景级遥感变化检测的发展前景。 展开更多
关键词 场景级变化检测 语义注意力模块 三维卷积神经网络 高分遥感解译 场景变化检测数据集
下载PDF
基于视觉定位与改进RRT的机械臂自动拾放系统 被引量:4
7
作者 张师瑜 任永杰 张腾 《自动化与仪器仪表》 2022年第7期221-228,共8页
为解决传统工业机械臂在进行拾放操作时自主性弱、可移植性差、运动路径非最优等方面的问题,基于ROS机器人操作系统,以六自由度工业机械臂为研究对象,设计了一种机械臂零件自动拾放系统。系统利用RGBD相机作为视觉传感器,通过生成残差... 为解决传统工业机械臂在进行拾放操作时自主性弱、可移植性差、运动路径非最优等方面的问题,基于ROS机器人操作系统,以六自由度工业机械臂为研究对象,设计了一种机械臂零件自动拾放系统。系统利用RGBD相机作为视觉传感器,通过生成残差卷积神经网络(GR-ConvNet)处理图像信息进行目标点定位。在路径规划上,基于传统RRT算法,设计采样点偏置选择策略、动态步长调整策略以及局部最小值优化机制,对算法进行了改进,又结合五次多项式插补方法,保障了机械臂运行过程中各关节的轨迹平滑性,令机械臂运行时间减少36.05%,运行路径降低16.47%。仿真与实验结果验证了本系统可以较好地完成自动拾放操作。 展开更多
关键词 ROS 六自由度 生成残差卷积神经网络 路径规划 改进RRT算法
原文传递
基于非监督深度学习的闭环检测方法 被引量:3
8
作者 汪丹 石朝侠 王燕清 《计算机科学》 CSCD 北大核心 2020年第10期228-232,共5页
闭环检测是同时定位与建图(Simultaneous localization and mapping,SLAM)的重要组成部分,能够有效减小SLAM系统中的累积误差,并且如果在定位与建图过程中跟踪丢失,还可以利用闭环检测进行重定位。与传统的手动设计的特征(hand-crafted ... 闭环检测是同时定位与建图(Simultaneous localization and mapping,SLAM)的重要组成部分,能够有效减小SLAM系统中的累积误差,并且如果在定位与建图过程中跟踪丢失,还可以利用闭环检测进行重定位。与传统的手动设计的特征(hand-crafted feature)相比,从神经网络中学习到的图像特征具有更好的环境不变性和语义识别能力。考虑到基于陆标(landmark)的卷积特征能够克服整个图像特征对视点变化敏感的缺陷,文中提出了一种新的闭环检测算法。其首先通过卷积神经网络的卷积层直接识别出图像的感兴趣区域生成陆标,然后对图像中识别出的每个陆标提取卷积特征,生成图像的最终表示以检测闭环。为了验证算法的有效性,在典型的数据集上进行了对比实验,结果表明所提算法具有优异的性能,且即使是在极端的视点和外观变化的情况下仍然具有高鲁棒性。 展开更多
关键词 同时定位与建图 闭环检测 人为设计特征 卷积特征 深度学习
下载PDF
来自大别山深成侵入岩图像深度迁移学习的可解释性研究 被引量:1
9
作者 陈忠良 袁峰 +1 位作者 李晓晖 郑超杰 《地质论评》 CAS CSCD 北大核心 2023年第6期2263-2273,共11页
岩石图像识别是以深度学习为代表的感知智能在地质领域的典型应用场景。已有研究显示网络结构简单的深度卷积神经网络能够在岩石图像上取得比复杂网络结构高的分类准确率。这与ImageNet数据集上网络结构越深越好的趋势相悖。如何解释这... 岩石图像识别是以深度学习为代表的感知智能在地质领域的典型应用场景。已有研究显示网络结构简单的深度卷积神经网络能够在岩石图像上取得比复杂网络结构高的分类准确率。这与ImageNet数据集上网络结构越深越好的趋势相悖。如何解释这一现象?深成侵入岩为显晶质,自形—半自形粒状结构,块状构造,其分类的依据是其矿物成分及相对含量。大别山地区岩浆活动广泛,中生代深成侵入岩广泛出露。岩石类型包括超镁铁质岩类、辉长岩类、闪长岩类、正长岩类、二长岩类和花岗岩类,基本覆盖IUGS推荐的深成侵入岩分类方案中的岩石类型。选取大别山地区中生代深成岩图像开展不同网络结构预训练模型迁移学习对比试验,能够专注于深度学习对矿物成分特征的学习解释,降低构造因素的影响。借助局部可理解的模型解释技术和特征图可视化技术,分别从全连接层分类决策区域可视化和卷积隐层可视化两方面对深度学习模型开展可解释性研究。结果表明简单网络结构的卷积神经网络能够提取不同矿物所表现出的颜色特征以及不同矿物组合所表现出的纹理特征。AlexNet模型的削减试验进一步证明:对于岩石图像深度学习,网络结构并不总是越深越好。 展开更多
关键词 深度学习 岩性识别 可解释性 特征图可视化 局部可理解的模型解释
下载PDF
基于残差融合网络的定量磁敏感图像与T1加权图像配准 被引量:1
10
作者 王毅 田梨梨 +1 位作者 程欣宇 王丽会 《计算机系统应用》 2022年第8期46-54,共9页
医学图像配准对医学图像处理和分析至关重要,由于定量磁敏感图像(quantitative susceptibility mapping,QSM)与T1加权图像的灰度、纹理等信息存在较大的差异,现有的医学图像配准算法难以高效精确地完成两者配准.因此,本文提出了一个基... 医学图像配准对医学图像处理和分析至关重要,由于定量磁敏感图像(quantitative susceptibility mapping,QSM)与T1加权图像的灰度、纹理等信息存在较大的差异,现有的医学图像配准算法难以高效精确地完成两者配准.因此,本文提出了一个基于残差融合的无监督深度学习配准模型RF-RegNet(residual fusion registration network,RF-RegNet).RF-RegNet由编解码器、重采样器以及上下文自相似特征提取器3部分组成.编解码器用于提取待配准图像对的特征和预测两者的位移矢量场(displacement vector field,DVF),重采样器根据估计的DVF对浮动QSM图像重采样,上下文自相似特征提取器分别用于提取参考T1加权图像和重采样后的QSM图像的上下文自相似特征并计算两者的平均绝对误差(mean absolute error,MAE)以驱动卷积神经网络(convolutional neural network,ConvNet)学习.实验结果表明本文提出的方法显著地提高了QSM图像与T1加权图像的配准精度,满足临床的配准需求. 展开更多
关键词 卷积神经网络 医学图像配准 QSM 残差融合 图像处理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部