期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
面向多模态交互式融合与渐进式优化的三维视觉理解 被引量:1
1
作者 何鸿添 陈晗 +3 位作者 刘洋 周礼亮 张敏 雷印杰 《计算机应用研究》 CSCD 北大核心 2024年第5期1554-1561,共8页
三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模... 三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段,首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中,能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块,以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段,提出渐进式注意力模块,通过学习、聚合不同阶段的特征,不断增强模型对于精细化特征的提取与建模能力,逐步优化目标框,以提升对于远距离、小目标的检测精度,进而提高对于视觉场景理解的能力。在KITTI数据集上,所提方法对于pedestrian和cyclist等小目标的检测精度较最优基线有明显提升,证实了该方法的有效性。 展开更多
关键词 三维视觉理解 多模态 交互式融合 渐进式注意力 目标检测
下载PDF
扩展的多模态遥感图像累积结构特征匹配方法 被引量:1
2
作者 谢勋伟 《激光与光电子学进展》 CSCD 北大核心 2024年第4期357-365,共9页
针对人工描述子在多模态匹配任务中辨识能力不足导致匹配效果不佳的问题,基于构造的累积结构特征图对多模态图像特征匹配方法的特征点提取、主方向分配和描述子构造等3方面进行扩展。在特征提取阶段,在不同尺度的累积结构特征图上提取... 针对人工描述子在多模态匹配任务中辨识能力不足导致匹配效果不佳的问题,基于构造的累积结构特征图对多模态图像特征匹配方法的特征点提取、主方向分配和描述子构造等3方面进行扩展。在特征提取阶段,在不同尺度的累积结构特征图上提取混合特征点,兼顾特征点重复性和定位精度;在主方向分配阶段,采用累积结构特征和方向构造局部结构特征场提取特征点主方向,缓解特征点主方向估计容易出错的问题;在描述子构造阶段,对累积结构特征描述子进行L1距离归一化及开方操作替代L2距离归一化,提高描述子在特征匹配阶段的辨识能力。多模态匹配对比实验结果表明:相较于LHOPC、RIFT和HAPCG,所提方法在平均匹配正确点数目和平均匹配正确率等综合指标上明显占优;相较于CSF,所提方法平均正确率提升6.6%,平均匹配精度提升5.8%,表明其有效性。 展开更多
关键词 多模态遥感图像 非线性辐射差异 累积结构特征 特征场 特征匹配
原文传递
基于语义一致性约束与局部-全局感知的多模态3D视觉定位
3
作者 罗寒 马浩统 +2 位作者 刘杰 严华 雷印杰 《计算机应用研究》 CSCD 北大核心 2024年第7期2203-2208,共6页
3D多模态数据稀缺,使得传统方法进行监督训练时文本与视觉特征缺乏语义一致性。同时传统方法还易忽视局部关系与全局信息,从而导致性能不佳。针对上述问题,提出了一种基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法。首先,... 3D多模态数据稀缺,使得传统方法进行监督训练时文本与视觉特征缺乏语义一致性。同时传统方法还易忽视局部关系与全局信息,从而导致性能不佳。针对上述问题,提出了一种基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法。首先,该方法通过蒸馏2D预训练视觉语言模型知识,帮助3D模型提取到点云-文本语义一致性特征;其次设计了局部-全局感知模块,不断补充增强候选目标特征,以更精确匹配目标。在现有的3D视觉定位数据集ScanRefer上进行的实验表明,该方法在Acc@0.25 IoU和Acc@0.5 IoU两个指标上分别达到了50.53%和37.67%,超越了现有大多数3D视觉定位算法,证实了该方法的有效性。 展开更多
关键词 3D视觉定位 多模态 特征一致性约束 局部关系 全局位置信息
下载PDF
基于多模态特征频域融合的零样本指称图像分割
4
作者 林浩然 刘春黔 +2 位作者 薛榕融 谢勋伟 雷印杰 《计算机应用研究》 CSCD 北大核心 2024年第5期1562-1568,共7页
为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特... 为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特征,但是这种方法无法有效利用图像的边缘特征且训练复杂。CLIP(contrastive language-image pre-training)是一个强大的预训练视觉语言跨模态模型,能够有效提取图像与文本特征,因此提出一种在频域融合CLIP编码后的多模态特征方法。首先,使用无监督模型对图像进行粗粒度分割,并提取自然语言文本中的名词用于后续任务;接着利用CLIP的图像编码器与文本编码器分别对图像与文本进行编码;然后使用小波变换分解图像与文本特征,可以充分利用图像的边缘特征与图像内的位置信息在频域进行分解并融合,并在频域分别对图像特征与文本特征进行融合,并将融合后的特征进行反变换;最后将文本特征与图像特征进行逐像素匹配,得到分割结果,并在常用的数据集上进行了测试。实验结果证明,网络在无训练零样本的条件下取得了良好的效果,并且具有较好的鲁棒性与泛化能力。 展开更多
关键词 指称图像分割 CLIP 小波变换 零样本
下载PDF
面向可迁移跨域自适应学习的航空发动机剩余寿命预测方法
5
作者 李文骁 李勇成 +2 位作者 李鹏 马浩统 雷印杰 《现代计算机》 2024年第4期1-8,共8页
航空发动机剩余寿命(RUL)预测任务中数据集标签较少且工况多变,导致传感器时间序列之间存在明显分布差异,限制了RUL预测方法的泛化能力。跨域学习的提出为该任务提供了一种可行的解决方案。传统跨域学习通过域自适应方法最小化源域和目... 航空发动机剩余寿命(RUL)预测任务中数据集标签较少且工况多变,导致传感器时间序列之间存在明显分布差异,限制了RUL预测方法的泛化能力。跨域学习的提出为该任务提供了一种可行的解决方案。传统跨域学习通过域自适应方法最小化源域和目标域特征之间的分布差异,得到跨域对齐特征,实现跨域知识迁移。但随着航空发动机的退化,前后时间步的语义信息也发生变化,导致原先对齐特征的局部语义不匹配,影响模型性能。针对该问题,提出方法基于可迁移对抗方法对跨域RUL预测方法展开研究,通过优化局部域鉴别器输出的概率熵,使得对齐特征在局部上难以区分。利用模型在RUL预测过程中的目标互信息进行语义约束,得到同时具有局部可迁移性和目标语义重要性的域不变特征,提升模型的泛化能力。在CMAPSS航空发动机数据集上进行的实验表明,该方法在RMSE和SCORE两个指标上均超过现有的其他跨域自适应方法,证实了其有效性。 展开更多
关键词 剩余寿命预测 跨域学习 域自适应 可迁移对抗
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部