期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于多任务卷积神经网络的红外与可见光多分辨率图像融合 被引量:6
1
作者 朱雯青 张宁 +2 位作者 李争 刘鹏 汤心溢 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2023年第1期289-296,共8页
红外与可见光图像融合一直是图像领域研究的热点,融合技术能弥补单一传感器的不足,为图像理解与分析提供良好的成像基础。因生产工艺以及成本的限制,红外探测器的分辨率远低于可见光探测器,并在一定程度上因源图像分辨率的差异阻碍了实... 红外与可见光图像融合一直是图像领域研究的热点,融合技术能弥补单一传感器的不足,为图像理解与分析提供良好的成像基础。因生产工艺以及成本的限制,红外探测器的分辨率远低于可见光探测器,并在一定程度上因源图像分辨率的差异阻碍了实际应用。针对红外与可见光图像分辨率不一致的问题,提出了用于红外图像超分辨率重建与融合的多任务卷积网络框架,应用于多分辨率图像融合。在网络结构方面,首先设计了双通道网络分别提取红外与可见光特征,使算法不受源图像分辨率的限制;其次提出了特征上采样模块,先用双线性插值方法增加像素个数,再通过多层感知器精细化拟合像素平滑空间与高频空间的映射关系,无需重新训练模型即可实现任意尺度的红外图像上采样;接着将线性注意力引入网络,学习特征空间位置间的非线性关系,抑制无关信息并增强网络对全局信息的表达。在损失函数方面,提出了梯度损失,保留红外与可见光图像中绝对值较大的滤波器响应值,并计算该值与重建的融合图像响应值的Frobenius范数,无需理想的融合图像作为真值监督网络学习就能生成融合图像;此外,在梯度损失、像素损失的共同作用下对多任务模型进行优化,可以同时重建融合图像和高分辨率红外图像。算法在RoadScene数据集上进行训练,与其他4种相关算法在TNO数据集上进行对比,主观性能上该方法可以输入任意分辨率的源图像,融合图像红外目标突出、可见光细节纹理丰富,在源图像分辨率相差较大时能重建特征清晰的高分辨率红外图像,模型泛化性能强;客观性能上在信息熵、差异相关性总量、空间频率等多个评价指标上表现优异,结果表明重建的融合图像信息丰富、信息转化率高、清晰度高,验证了算法的有效性。 展开更多
关键词 红外与可见光融合 多分辨率图像融合 线性注意力 梯度损失 红外图像超分辨率
下载PDF
基于高效Transformer的图像去雾研究
2
作者 宫义山 兰子博 《长江信息通信》 2024年第6期92-95,共4页
随着Transformer技术发展使其在计算机视觉(CV)领域中大放异彩,其构建全局依赖关系能力是卷积神经网络(CNN)所不具备的,而Transformer对图像尺寸变化敏感与处理图像位置信息方面却不如CNN,因此,近几年基于Transformer与CNN的网络结构在C... 随着Transformer技术发展使其在计算机视觉(CV)领域中大放异彩,其构建全局依赖关系能力是卷积神经网络(CNN)所不具备的,而Transformer对图像尺寸变化敏感与处理图像位置信息方面却不如CNN,因此,近几年基于Transformer与CNN的网络结构在CV领域是研究热点。图像去雾技术可用于车载避让系统、遥感系统以及物联网设备被设为公共领域的热点问题,因此,本文提出基于Transformer的网络结构实现图像去雾。结合Transformer与UNet构建网络框架,针对Self-Attention因二次判别导致高计算复杂度的问题,我们使用聚焦线性注意力替换Softmax函数,将二次计算复杂度降为O(n),并且为了解决使用线性注意力引起性能下降的问题,使用恢复模块增加输出特征的多样性,实现性能的恢复。经实验表明,与现有的去雾霾网络相比,文章提出的方法在公开数据集RESIDE上获得了更好的实验结果以及更愉悦的去雾效果。 展开更多
关键词 图像去雾 TRANSFORMER UNet网络 线性注意力
下载PDF
基于红外影像层次旋转匹配的飞行器定位方法
3
作者 李清格 杨小冈 +5 位作者 卢瑞涛 范继伟 唐彬 张震宇 王思宇 宿爽 《红外与激光工程》 EI CSCD 北大核心 2024年第5期240-252,共13页
基于图像匹配的飞行器自主视觉定位技术是飞行器导航制导、态势感知和自主决策的关键技术之一。针对红外遥感影像在大角度旋转下飞行器匹配定位失效的问题,提出了一种基于层次结构强化的特征点旋转匹配定位方法。该方法通过融合深度特... 基于图像匹配的飞行器自主视觉定位技术是飞行器导航制导、态势感知和自主决策的关键技术之一。针对红外遥感影像在大角度旋转下飞行器匹配定位失效的问题,提出了一种基于层次结构强化的特征点旋转匹配定位方法。该方法通过融合深度特征点提取与层次结构强化的旋转匹配定位技术,有效实现了飞行器匹配定位。首先设计了一个集成残差连接编码器的RBN-SuperPoint深度特征点提取模型,用于检测和描述待匹配图像中的深度特征点。其次构建了基于线性注意力和置信度分类器的L-LightGlue自适应匹配算法,利用L-LightGlue进行特征点粗匹配,生成单应性变换矩阵。随后采用层次结构强化的旋转匹配策略,根据粗匹配得到的单应性变换矩阵对图像进行旋转处理,消除图像间的角度差异,并进行精确匹配。再通过将结果映射至原图像,得到旋转校正后的特征点匹配结果和对应的单应性变换矩阵。最后利用图像间变换关系确定飞行器在图像中的位置,完成视觉定位。实验结果表明:RBN-SuperPoint可以高效提取大量均匀分布的特征点,所提基于L-LightGlue的匹配定位算法的匹配准确率最高可达98.57%,平均定位误差仅为4.08 pixel。 展开更多
关键词 红外遥感影像 特征点检测 旋转匹配 线性注意力 飞行器视觉定位
下载PDF
基于注意力机制和知识蒸馏的轻量化伪装目标检测模型
4
作者 宋锦钰 罗显志 《湖北大学学报(自然科学版)》 CAS 2024年第5期611-620,共10页
Transformer式的伪装目标检测模型具有二次时空复杂度,因而模型具有参数量大和高计算复杂度等问题,影响了其在资源受限设备上的部署与应用。模型加速和模型压缩是实现模型轻量化的重要方法。模型加速旨在降低模型的计算复杂度,提升模型... Transformer式的伪装目标检测模型具有二次时空复杂度,因而模型具有参数量大和高计算复杂度等问题,影响了其在资源受限设备上的部署与应用。模型加速和模型压缩是实现模型轻量化的重要方法。模型加速旨在降低模型的计算复杂度,提升模型的运行速度。模型压缩则致力于减少模型所需的计算资源和存储空间,同时保持模型性能。本研究以UGTR模型为基础,提出了一种基于注意力机制和知识蒸馏的轻量化伪装目标检测模型DE-UGTR。实验表明,轻量化后的DE-UGTR模型参数量下降了30.1%,推理速度提升了约1.75倍。 展开更多
关键词 伪装目标检测 轻量化 线性注意力 知识蒸馏
下载PDF
基于线性化注意力和双重注意力的视杯盘分割模型
5
作者 蓝子俊 谢珺 +2 位作者 郭燕 张喆 孙彬 《生物医学工程学杂志》 EI CAS 北大核心 2023年第5期920-927,共8页
青光眼是致盲性眼病之一,视杯盘比是筛查青光眼的主要依据,因此准确分割视杯盘具有重要意义。本文提出一种基于线性化注意力和双重注意力的视杯盘分割模型。首先,根据视盘特性定位裁剪感兴趣区域。其次,引入线性化注意力的残差网络-34(R... 青光眼是致盲性眼病之一,视杯盘比是筛查青光眼的主要依据,因此准确分割视杯盘具有重要意义。本文提出一种基于线性化注意力和双重注意力的视杯盘分割模型。首先,根据视盘特性定位裁剪感兴趣区域。其次,引入线性化注意力的残差网络-34(ResNet-34)作为特征提取网络。最后,通过线性化注意力的输出特征生成通道和空间双重注意力权重,用于校准解码器输出特征获取视杯盘分割图像。实验结果表明,所提模型在视神经头分割的视网膜图像(DRISHTI-GS)数据集中,视盘、视杯交并比分别为0.962 3、0.856 4;用于视神经评估的开放式视网膜图像-V3(RIM-ONE-V3)数据集中,视盘、视杯交并比分别为0.956 3、0.784 4。所提模型优于对比算法,在青光眼的早期筛查中具有一定的医学价值。此外,本文利用知识蒸馏技术生成两种规模更小的模型,有利于将模型应用于嵌入式设备。 展开更多
关键词 青光眼 视杯盘分割 线性化注意力 双重注意力 知识蒸馏
原文传递
用于流式语音识别的轻量化端到端声学架构 被引量:1
6
作者 杨淑莹 李欣 《模式识别与人工智能》 EI CSCD 北大核心 2023年第3期268-279,共12页
在流式识别方法中,分块识别破坏并行性且消耗资源较大,而限制自注意力机制的上下文识别很难获得所有信息.由此,文中提出轻量化端到端声学架构(CFLASH-Transducer).为了获取细腻的局部特征,采用轻量化的FLASH(Fast Linear Attention with... 在流式识别方法中,分块识别破坏并行性且消耗资源较大,而限制自注意力机制的上下文识别很难获得所有信息.由此,文中提出轻量化端到端声学架构(CFLASH-Transducer).为了获取细腻的局部特征,采用轻量化的FLASH(Fast Linear Attention with a Single Head)与卷积神经网络块结合.卷积块中采用Inception V2网络,提取语音信号多尺度的局部特征.再通过Coordinate Attention机制捕获特征的位置信息和多通道之间的相互关联.此外,采用深度可分离卷积,用于特征增强和层间平滑过渡.为了使其可流式化处理音频,采用RNN-T(Recurrent Neural Network Transducer)架构进行训练与解码.将当前块已经计算的全局注意力作为隐变量,传入后续块中,串联各块信息,保留训练的并行性和相关性,并且不会随着序列的增长而消耗计算资源.在开源数据集THCHS30上进行训练与测试,CFLASH-Transducer取得较高的识别率.并且相比离线识别,流式识别精度损失不超过1%. 展开更多
关键词 自动语言识别 流式识别 Fast linear attention with a Single Head(FLASH) 卷积神经网络(CNN) Re-current Neural Network Transducer(RNN-T)
下载PDF
基于线性注意力机制的单样本生成对抗网络研究 被引量:1
7
作者 陈曦 赵红东 +3 位作者 杨东旭 徐柯南 任星霖 封慧杰 《计算机工程与科学》 CSCD 北大核心 2022年第11期2056-2063,共8页
目前,使用单样本训练生成对抗网络已经成为研究人员关注的重点。但是,网络模型不容易收敛,生成的图像结构易崩塌,训练速度慢等问题依旧亟待解决。研究人员提出在生成对抗网络中使用自注意力模型用以获取样本更大范围的结构,提高生成图... 目前,使用单样本训练生成对抗网络已经成为研究人员关注的重点。但是,网络模型不容易收敛,生成的图像结构易崩塌,训练速度慢等问题依旧亟待解决。研究人员提出在生成对抗网络中使用自注意力模型用以获取样本更大范围的结构,提高生成图像的质量。但是,传统的卷积自注意力模型由于注意力图谱中的信息冗余,容易造成计算资源浪费。提出了一种新的线性注意力模型,在该模型中使用了双重归一化方法来缓解注意力模型对输入特征敏感的问题,并且基于该模型搭建了一种新的单样本生成对抗网络模型。此外,模型还使用了残差网络和光谱归一化方法用于稳定训练,降低了发生崩塌的风险。实验结果表明,相较于使用已有的网络结构,该模型具有训练速度快,生成图像的分辨率高且评价指标改善明显等特点。 展开更多
关键词 生成对抗网络 单样本 线性注意力模型 自注意力机制 光谱归一化
下载PDF
基于X-Linear和语义嵌入的视频描述算法
8
作者 李亚杰 关胜晓 倪长好 《信息技术与网络安全》 2021年第2期45-51,共7页
注意力机制和视频语义嵌入使得视频描述任务取得了显著的提升,为更好地利用时序动态特征和语义信息,提出一种基于X-Linear的语义嵌入视频描述算法(X-Linear Semantic Embedding Network,XLSNet)。该算法以基于编码解码器网络为基础,使用... 注意力机制和视频语义嵌入使得视频描述任务取得了显著的提升,为更好地利用时序动态特征和语义信息,提出一种基于X-Linear的语义嵌入视频描述算法(X-Linear Semantic Embedding Network,XLSNet)。该算法以基于编码解码器网络为基础,使用X-Linear注意力模块对视频特征进行编码,该模块使用双线性池化来增加视频时序特征的高阶交互,最终提取丰富的时序动态特征;为充分利用视频语义信息,使用语义嵌入的GRU和X-Linear作为解码器对视频描述进行生成。为防止过拟合现象,对解码器的GRU使用了层归一化和变分Dropout。所提出的算法仅仅使用了视频帧特征,在公开视频描述数据集MSVD上取得了很好的效果。 展开更多
关键词 视频描述 语义嵌入 X-linear注意力 XLSNet
下载PDF
基于多尺度线性全局注意力的运动员检测算法
9
作者 林芷薇 杨祖元 +1 位作者 王斯秋 杨超 《计算机工程》 CAS CSCD 北大核心 2024年第7期352-359,共8页
运动员在比赛过程中的快速移动且频繁遮挡,使得对视频中运动员检测容易出现漏检、多检、检测精度下降等问题。现有的主流方法对于移动和遮挡情况下的运动员检测表现不佳。当运动员受到遮挡后,检测目标框的尺度变化增大。引入cutout作为... 运动员在比赛过程中的快速移动且频繁遮挡,使得对视频中运动员检测容易出现漏检、多检、检测精度下降等问题。现有的主流方法对于移动和遮挡情况下的运动员检测表现不佳。当运动员受到遮挡后,检测目标框的尺度变化增大。引入cutout作为数据增强的方法来模拟遮挡情况,提出基于多尺度线性全局注意力Efficient ViT模块的运动员检测算法。使用线性全局注意力模块减少计算量,并辅以卷积模块来增强其局部的特征提取能力,通过轻量级小卷积聚合不同注意力头部的token获得多尺度信息,增强其全局特征提取能力。针对损失函数部分,选择EIo U作为边界框损失,加入检测框与目标框的宽高距离,使得检测框和真实目标框在尺度上更为贴近。在Sports MOT数据集中4个公开的篮球比赛视频数据集上的实验结果表明,该算法取得了98.0%准确率和98.2%的平均精度均值,相较于YOLOv5算法,其精度提升了4%,高置信度的平均精度均值提升了8.7%。 展开更多
关键词 YOLOv5算法 运动员检测 多尺度线性全局注意力 数据增强 边界框损失
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部