面向多模态交互式融合与渐进式优化的三维视觉理解被引量：1

3D visual understanding oriented towards multimodal interactivefusion and progressive refinement

下载PDF

导出

摘要三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段,首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中,能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块,以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段,提出渐进式注意力模块,通过学习、聚合不同阶段的特征,不断增强模型对于精细化特征的提取与建模能力,逐步优化目标框,以提升对于远距离、小目标的检测精度,进而提高对于视觉场景理解的能力。在KITTI数据集上,所提方法对于pedestrian和cyclist等小目标的检测精度较最优基线有明显提升,证实了该方法的有效性。 3D visual understanding aims to intelligently perceive and interpret 3D scenes,achieving a profound understanding and analysis of objects,environment,and dynamic changes.As its core technology,3D object detection plays an indispensable role.For the problem of low detection accuracy of distant targets and small targets in current 3D detection algorithms,this paper proposed a 3D object detection method called MIFPR,which was oriented towards multimodal interactive fusion and progressive refinement.In the feature extraction stage,this algorithm introduced an adaptive gated information fusion module firstly.Incorporating the geometric features of the point cloud into the image features results in a more discriminative image representation for handling variations in lighting conditions.Subsequently,the proposed voxel centroid-based deformable cross-modal attention module was to drive the fusion of rich semantic features and contextual information from images into the point cloud features.During the proposal refinement stage,this algorithm introduced a progressive attention module.By learning and aggregating features from different stages,it continuously enhanced the model’s ability to extract and model fine-grained features,progressively refining bounding boxes.This gradual refinement of the proposal helps improve the detection accuracy of distant and small objects,thereby enhancing the overall capability of visual scene understanding.The proposed method shows significant improvement in the detection accuracy of small objects like pedestrian and cyclist on the KITTI dataset compared to the state-of-the-art baseline.This confirms the effectiveness of the proposed approach.

作者何鸿添陈晗刘洋周礼亮张敏雷印杰 He Hongtian;Chen Han;Liu Yang;Zhou Liliang;Zhang Min;Lei Yinjie(College of Electronics&Information Engineering,Sichuan University,Chengdu 610065,China;Key Laboratory of Optical Engineering,Institute of Optics&Electronics,Chinese Academy of Sciences,Chengdu 610209,China;CETC Key Laboratory of Avionic Information System Technology,The 10th Research Institute of China Electronics Technology Group Corporation,Chengdu 610036,China)

机构地区四川大学电子信息学院中国科学院光电技术研究所中国科学院光束控制重点实验室中国电子科技集团公司第十研究所航空电子信息系统技术重点实验室

出处《计算机应用研究》 CSCD 北大核心 2024年第5期1554-1561,共8页 Application Research of Computers

基金国家自然科学基金面上项目(62276176)。

关键词三维视觉理解多模态交互式融合渐进式注意力目标检测 3D visual understanding multimodal interactive fusion progressive attention object detection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1李佳男,王泽,许廷发.基于点云数据的三维目标检测技术研究进展[J].光学学报,2023,43(15):286-302. 被引量：16
2张新钰,邹镇洪,李志伟,刘华平,李骏.面向自动驾驶目标检测的深度多模态融合技术[J].智能系统学报,2020,15(4):758-771. 被引量：31
3郭毅锋,吴帝浩,魏青民.基于深度学习的点云三维目标检测方法综述[J].计算机应用研究,2023,40(1):20-27. 被引量：6
4霍威乐,荆涛,任爽.面向自动驾驶的三维目标检测综述[J].计算机科学,2023,50(7):107-118. 被引量：7

二级参考文献12

1罗俊海,杨阳.基于数据融合的目标检测方法综述[J].控制与决策,2020,35(1):1-15. 被引量：27
2Xinyu Zhang,Hongbo Gao,Mu Guo,Guopeng Li,Yuchao Liu,Deyi Li.A study on key technologies of unmanned driving[J].CAAI Transactions on Intelligence Technology,2016,1(1):4-13. 被引量：15
3张鹏,宋一凡,宗立波,刘立波.3D目标检测进展综述[J].计算机科学,2020,47(4):94-102. 被引量：14
4张瑞菊,周欣,赵江洪,曹闵.一种古建筑点云数据的语义分割算法[J].武汉大学学报（信息科学版）,2020,45(5):753-759. 被引量：14
5沈琦,陈逸伦,刘枢,刘利刚.基于两级网络的三维目标检测算法[J].计算机科学,2020,47(10):145-150. 被引量：4
6杜子金,曹飞龙,叶海良,梁吉业.基于残差边卷积的3D点云分类算法[J].模式识别与人工智能,2021,34(9):836-843. 被引量：5
7赵亮,胡杰,刘汉,安永鹏,熊宗权,王宇.基于语义分割的深度学习激光点云三维目标检测[J].中国激光,2021,48(17):171-183. 被引量：37
8王亚东,田永林,李国强,王坤峰,李大字.基于卷积神经网络的三维目标检测研究综述[J].模式识别与人工智能,2021,34(12):1103-1119. 被引量：19
9王文曦,李乐林.深度学习在点云分类中的研究综述[J].计算机工程与应用,2022,58(1):26-40. 被引量：23
10杨晓文,王爱兵,韩燮,赵融,靳瑜昕.基于KNN-PointNet的点云语义分割[J].激光与光电子学进展,2021,58(24):264-271. 被引量：15

共引文献56

1杨凤满,宋向辉,王东柱,孙玲.基于问卷调查的AI在公路交通中的应用建议[J].公路交通科技,2020,37(S01):147-152.
2师亚莉,黄楠.基于5G的车联网关键技术分析[J].西安邮电大学学报,2020,25(4):97-103. 被引量：9
3张艺,严翌瑄,李静.基于多传感器融合的交通数据采集系统概述[J].物联网技术,2021,11(2):15-18. 被引量：12
4肖雨晴,杨慧敏.目标检测算法在交通场景中应用综述[J].计算机工程与应用,2021,57(6):30-41. 被引量：59
5杨林璐.汽车自动驾驶技术研究与专利申请情况分析[J].科学与信息化,2021(14):79-80.
6赵会盼,刘环宇.基于多模态数据融合学习网络的微弱目标群检测方法[J].空天防御,2021,4(3):41-47. 被引量：3
7邱怀骏.多模态融合技术在消防领域中的应用[J].信息与电脑,2021,33(15):1-4. 被引量：1
8程腾,孙磊,侯登超,石琴,张峻宁,陈炯,黄鹤.基于特征融合的多层次多模态目标检测[J].汽车工程,2021,43(11):1602-1610. 被引量：8
9郭振堂,祝永新,田犁.基于多模态数据的车辆行人检测[J].激光杂志,2021,42(12):52-58. 被引量：2
10马富齐,王波,董旭柱,姚良忠,王红霞.电力工业安全影像解译:基本概念与技术框架[J].中国电机工程学报,2022,42(2):458-474. 被引量：21

同被引文献11

1童钊,邓小妹,陈洪剑,梅晶,叶锋.云环境下基于强化学习的多目标任务调度算法[J].小型微型计算机系统,2020,41(2):285-290. 被引量：20
2张金龙,员青泽.一种云计算系统信任度访问控制方法仿真[J].计算机仿真,2022,39(2):472-475. 被引量：2
3李慧芳,黄姜杭,徐光浩,夏元清.基于多维度特征融合的云工作流任务执行时间预测方法[J].自动化学报,2023,49(1):67-78. 被引量：3
4俞延峰,孙雯雯,陈雷放.基于深度强化学习的容器云任务调度算法[J].电子设计工程,2023,31(10):59-63. 被引量：2
5谢欢,杜书,陈少磊,马玫,张秋铭,邓冰妍.基于负载再分配的边缘计算任务均衡调度策略[J].四川电力技术,2023,46(3):20-26. 被引量：1
6陆好.基于移动边缘计算的任务调度算法研究[J].信息与电脑,2023,35(16):70-72. 被引量：1
7米泽辉,郭肃丽,秦固平,王明杰.基于蚁群优化算法的非均匀子阵划分技术[J].计算机测量与控制,2024,32(1):237-244. 被引量：1
8陈峰,丁泉,吴乐,刘爱萍,陈勋,张云飞.混合驱动的粒子群算法[J].计算机工程与应用,2024,60(8):78-89. 被引量：2
9刘成浩,张晓林,孙溶辰,李铭.基于改进粒子群的密度聚类算法混合矩阵估计[J].系统工程与电子技术,2024,46(7):2211-2219. 被引量：1
10李旺,柳伍生,肖义萍,李薇,周清.通勤合乘路径优化模型与算法[J].控制理论与应用,2024,41(6):1101-1110. 被引量：1

引证文献1

1唐诗咏,索鸿飞,杨健伟,陆海,赵轲.云计算环境中基于改进粒子群优化的任务调度算法[J].电子设计工程,2024,32(20):6-10.

1史涛,刘祖林,朱文旭,马青亮.基于改进YOLOv5s的车辆行人检测[J].国外电子测量技术,2023,42(12):195-200. 被引量：2
2黄亨明,房正刚,陆春华.三维可视化助力晶体材料教学——VESTA软件[J].化学教育（中英文）,2024,45(8):109-116.
3张子豪,李文敬,李双.基于深度学习的中文命名实体边界识别算法[J].南宁师范大学学报（自然科学版）,2024,41(1):82-87.
4周杨振.面向对象的复杂地形下冬小麦多时相遥感分类提取研究综述[J].黑龙江粮食,2024(3):75-77.
5刘乐,张晓松,黄锋,方一鸣.基于改进DBNet和SVTR算法的连铸板坯号检测与识别[J].电子测量与仪器学报,2024,38(2):67-75. 被引量：1
6钟思,李碧青,袁天然,张乐乾,李大宇.视觉显著性和稀疏学习相融合的船舶图像目标检测[J].舰船科学技术,2024,46(8):157-160. 被引量：1
7蒋伟,梁奕,肖睿,徐秋然,王志伟,曲伟强.基于SDA-SSD的轨道交通异物检测[J].铁道科学与工程学报,2024,21(4):1667-1676.
8王文韬,何小海,张豫堃,王正勇,滕奇志.基于改进STANet的遥感图像变化检测算法[J].无线电工程,2024,54(5):1226-1235.
9彭向前,张贻鹏,胡小平,黄泓.图像失真条件下的模板匹配算法研究[J].传感技术学报,2024,37(3):507-512.
10王康毅,邵苏杰.基于Gabor变换的多角度人脸表情识别方法[J].计算机仿真,2024,41(4):233-236.

计算机应用研究

2024年第5期

浏览历史

内容加载中请稍等...

面向多模态交互式融合与渐进式优化的三维视觉理解被引量：1

参考文献4

二级参考文献12

共引文献56

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向多模态交互式融合与渐进式优化的三维视觉理解 被引量：1

参考文献4

二级参考文献12

共引文献56

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向多模态交互式融合与渐进式优化的三维视觉理解被引量：1