结合混合域注意力与空洞卷积的3维目标检测被引量：3

3D object detection based on domain attention and dilated convolution

导出

摘要目的通过深度学习卷积神经网络进行3维目标检测的方法已取得巨大进展,但卷积神经网络提取的特征既缺乏不同区域特征的依赖关系,也缺乏不同通道特征的依赖关系,同时难以保证在无损空间分辨率的情况下扩大感受野。针对以上不足,提出了一种结合混合域注意力与空洞卷积的3维目标检测方法。方法在输入层融入空间域注意力机制,变换输入信息的空间位置,保留需重点关注的区域特征;在网络中融入通道域注意力机制,提取特征的通道权重,获取关键通道特征;通过融合空间域与通道域注意力机制,对特征进行混合空间与通道的混合注意。在特征提取器的输出层融入结合空洞卷积与通道注意力机制的网络层,在不损失空间分辨率的情况下扩大感受野,根据不同感受野提取特征的通道权重后进行融合,得到全局感受野的关键通道特征;引入特征金字塔结构构建特征提取器,提取高分辨率的特征图,大幅提升网络的检测性能。运用基于二阶段的区域生成网络,回归定位更准确的3维目标框。结果KITTI(A project of Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)数据集中的实验结果表明,在物体被遮挡的程度由轻到高时,对测试集中的car类别,3维目标检测框的平均精度AP3D值分别为83.45%、74.29%、67.92%,鸟瞰视角2维目标检测框的平均精度APBEV值分别为89.61%、87.05%、79.69%;对pedestrian和cyclist类别,AP3D和APBEV值同样比其他方法的检测结果有一定优势。结论本文提出的3维目标检测网络,一定程度上解决了3维检测任务中卷积神经网络提取的特征缺乏视觉注意力的问题,从而使3维目标检测更有效地运用于室外自动驾驶。 Objective With the continuous development of convolutional neural network(CNN) used in deep learning in recent years, 3 D object detection networks based on deep learning have also made outstanding development. 3 D object detection aims to identify the class, location, orientation, and size of a target object in 3 D space. It is widely used in the visual field, such as autonomous driving, intelligent monitoring, and medical analysis. The feature extracted by a deep learning network is important in detection accuracy. The detection task is similar to human vision;that is, it also needs to distinguish the difference between the background and the objects. In human vision, attention is given to target objects, while the background is disregarded. Therefore, paying more attention to the target area and less attention to the background area is better when performing object detection in an image. However, a CNN does not distinguish which areas and channels in an image should be given more and less attention. Thus, the features extracted by a CNN not only lack the dependence relationship between different regions but also the dependence relationship between different channels. The current 3 D object detection method based on a deep learning network uses a combination of pooling layers behind the multilayer convolution layer. These network structures generally use maximum or averaging pooling in feature maps. They aim to adjust the receptive field size of the extracted features. However, transforming the receptive field of the features of the pooling layers must be performed by removing some information, causing a considerable loss of feature information. Information loss may result in detected errors. Therefore, a CNN should expand the receptive field without losing information, obtaining good detection results. To address the shortcomings of the aforementioned 3 D target detection methods, this study proposes a two-stage 3 D object detection network that combines mixed domain attention and dilated convolution. Method I

作者严娟方志军高永彬 Yan Juan;Fang Zliijun;Gao Yongbin(Department of Electrical and Electronic Engineering,Shanghai University of Engineering Science,Slwnghoi 201620,China)

机构地区上海工程技术大学电子电气工程学院

出处《中国图象图形学报》 CSCD 北大核心 2020年第6期1221-1234,共14页 Journal of Image and Graphics

基金国家自然科学基金项目(61802253,61772328)。

关键词 3维目标检测注意力机制空洞卷积感受野金字塔网络卷积神经网络(CNN) 3D object detection attention mechanism dilated convolution receptive field feature pyramid network convolutional neural network(CNN)

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献31

1孟醒:滴滴自动驾驶的自我进化[J].智能网联汽车,2021(3):42-44. 被引量：1
2郭文佳.从载人测试到取消安全员无人驾驶出租车渐行渐近[J].智能网联汽车,2021(1):21-25. 被引量：1
3陈念航.挑战特斯拉FSD,百度Apollo推出领航辅助驾驶ANP[J].企业观察家,2020(12):66-67. 被引量：2
4赵华卿,方志军,高永彬.三维目标检测中的先验方向角估计[J].传感器与微系统,2019,38(6):35-38. 被引量：2
5赵邢,梁浩然,梁荣华.结合目标检测与双目视觉的三维车辆姿态检测[J].计算机辅助设计与图形学学报,2019,31(9):1518-1527. 被引量：8
6张峻宁,苏群星,刘鹏远,谷宏强,王威.一种基于透视投影的单目3D目标检测网络[J].机器人,2020,42(3):278-288. 被引量：4
7王康如,谭锦钢,杜量,陈利利,李嘉茂,张晓林.基于迭代式自主学习的三维目标检测[J].光学学报,2020,40(9):127-139. 被引量：5
8杨步一,杜小平,方宇强,李佩阳,王阳.单幅图像刚体目标姿态估计方法综述[J].中国图象图形学报,2021,26(2):334-354. 被引量：6
9周大可,田径,杨欣.结合局部平面参数预测的无监督单目图像深度估计[J].中国图象图形学报,2021,26(1):165-175. 被引量：6
10于洁潇,张美琪,苏育挺.基于双目视觉的三维车辆检测算法[J].激光与光电子学进展,2021,58(2):293-298. 被引量：6

引证文献3

1李瑞龙,吴川,朱明.体素化点云场景下的三维目标检测[J].液晶与显示,2022,37(10):1355-1363. 被引量：5
2李熙莹,叶芝桧,韦世奎,陈泽,陈小彤,田永鸿,党建武,付树军,赵耀.基于图像的自动驾驶3D目标检测综述——基准、制约因素和误差分析[J].中国图象图形学报,2023,28(6):1709-1740. 被引量：7
3晋帅,李煊鹏,杨凤,张为公.伪激光点云增强的道路场景三维目标检测[J].中国图象图形学报,2023,28(11):3520-3535. 被引量：6

二级引证文献16

1刘威莉,朱德利,骆华昊,李益.LiDAR点云中融合点注意力机制的三维目标检测[J].光子学报,2023,52(9):213-223.
2郑自立,徐健,刘秀平,刘高峰,赵一剑,夏代洪.联合多注意力和C-ASPP的单目3D目标检测[J].电子测量与仪器学报,2023,37(8):241-248. 被引量：2
3赵晶,李少博,郭杰龙,俞辉,张剑锋,李杰.基于知识蒸馏和定位引导的Pointpillars点云检测网络[J].液晶与显示,2024,39(1):79-88. 被引量：1
4吴晶辉,严彩萍,李红,刘仁海.边缘引导的双注意力图像拼接检测网络[J].中国图象图形学报,2024,29(2):430-443. 被引量：1
5王大伟,胡帆,张娜,杨罡,鲁霁原,张兴忠.基于体素化的变电站场景三维目标检测[J].计算机工程与应用,2024,60(11):328-335.
6周松燃,卢烨昊,励雪巍,傅本尊,王井东,李玺.车路两端纯视觉鸟瞰图感知研究综述[J].中国图象图形学报,2024,29(5):1169-1187.
7李好胜,阮友田,李聪聪.基于体素的激光雷达与组合导航联合标定方法[J].电光系统,2024(1):18-21.
8郭宝云,姚玉凯,李彩林,王悦,孙娜,鲁一慧.改进的3D-BoNet算法应用于点云实例分割与三维重建[J].测绘通报,2024(6):30-35. 被引量：1
9贾明达,杨金明,孟维亮,郭建伟,张吉光,张晓鹏.融合点云与图像的环境目标检测研究进展[J].中国图象图形学报,2024,29(6):1765-1784.
10周昊,齐洪钢,邓永强,李娟娟,梁浩,苗军.融合点云深度信息的3D目标检测与分类[J].中国图象图形学报,2024,29(8):2399-2412.

1花开花落.M-BOY&GIRL,青春萌动派[J].摩托车信息,2020(6):20-21.
2吴贤盛.一道2015年甘肃省第一次高考诊断试题的探究[J].中学生数理化（高考理化）,2020(7):28-28.
3裴晓芳,张杨.基于改进残差网络的花卉图像分类算法[J].电子器件,2020,43(3):698-704. 被引量：8
4何哲,沈海恩,臧峰,李正华,冯紫晴,相未星,周雨茜,梁国强,王雅欣,金伟琦(摄影),无.湖边插件塔[J].城市环境设计,2020(2):102-107.
5李琛,黄兆琼,徐及,郭新毅,宫在晓,颜永红.使用深度学习的多通道水下目标识别[J].声学学报,2020,45(4):506-514. 被引量：16
6谭晶文,朱兰,王兰,潘自来,严福华,张欢.新型双层探测器光谱CT在直肠癌术前T分期中的价值[J].中华放射学杂志,2020,54(7):671-676. 被引量：28
7胡学敏,童秀迟,郭琳,张若晗,孔力.基于深度视觉注意神经网络的端到端自动驾驶模型[J].计算机应用,2020,40(7):1926-1931. 被引量：5
8郑婷婷,杨雪,戴阳.基于关键点的Anchor Free目标检测模型综述[J].计算机系统应用,2020,29(8):1-8. 被引量：13
9术语汇编[J].China City Planning Review,2020(2):2-2.
10陆林,刘洋,李春华.蛋白质-RNA序列结构界面偏好性及用于对接打分统计势的构建[J].生物化学与生物物理进展,2020,47(7):634-644. 被引量：1

中国图象图形学报

2020年第6期

浏览历史

内容加载中请稍等...

结合混合域注意力与空洞卷积的3维目标检测被引量：3

同被引文献31

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

结合混合域注意力与空洞卷积的3维目标检测 被引量：3

同被引文献31

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

结合混合域注意力与空洞卷积的3维目标检测被引量：3