期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
视觉Transformer识别任务研究综述 被引量:10
1
作者 周丽娟 毛嘉宁 《中国图象图形学报》 CSCD 北大核心 2023年第10期2969-3003,共35页
Transformer模型在自然语言处理领域取得了很好的效果,同时因其能够更好地连接视觉和语言,也激发了计算机视觉界的极大兴趣。本文总结了视觉Transformer处理多种识别任务的百余种代表性方法,并对比分析了不同任务内的模型表现,在此基础... Transformer模型在自然语言处理领域取得了很好的效果,同时因其能够更好地连接视觉和语言,也激发了计算机视觉界的极大兴趣。本文总结了视觉Transformer处理多种识别任务的百余种代表性方法,并对比分析了不同任务内的模型表现,在此基础上总结了每类任务模型的优点、不足以及面临的挑战。根据识别粒度的不同,分别着眼于诸如图像分类、视频分类的基于全局识别的方法,以及目标检测、视觉分割的基于局部识别的方法。考虑到现有方法在3种具体识别任务的广泛流行,总结了在人脸识别、动作识别和姿态估计中的方法。同时,也总结了可用于多种视觉任务或领域无关的通用方法的研究现状。基于Transformer的模型实现了许多端到端的方法,并不断追求准确率与计算成本的平衡。全局识别任务下的Transformer模型对补丁序列切分和标记特征表示进行了探索,局部识别任务下的Transformer模型因能够更好地捕获全局信息而取得了较好的表现。在人脸识别和动作识别方面,注意力机制减少了特征表示的误差,可以处理丰富多样的特征。Transformer可以解决姿态估计中特征错位的问题,有利于改善基于回归的方法性能,还减少了三维估计时深度映射所产生的歧义。大量探索表明视觉Transformer在识别任务中的有效性,并且在特征表示或网络结构等方面的改进有利于提升性能。 展开更多
关键词 视觉transformer(vit) 自注意力 视觉识别 深度学习 图像处理 视频理解
原文传递
基于融合策略的突发公共卫生事件网络舆情多模态负面情感识别 被引量:9
2
作者 曾子明 孙守强 李青青 《情报学报》 CSSCI CSCD 北大核心 2023年第5期611-622,共12页
突发公共卫生事件以社交媒体为阵地进行线下舆情的线上映射,而图文并茂的多模态信息成为公众情感表达的主要方式。为充分利用不同模态间的关联性和互补性,提升突发公共卫生事件网络舆情多模态负面情感识别精准度,本文构建了两阶段混合... 突发公共卫生事件以社交媒体为阵地进行线下舆情的线上映射,而图文并茂的多模态信息成为公众情感表达的主要方式。为充分利用不同模态间的关联性和互补性,提升突发公共卫生事件网络舆情多模态负面情感识别精准度,本文构建了两阶段混合融合策略驱动的多模态细粒度负面情感识别模型(two-stage,hybrid fusion strategy-driven multimodal fine-grained negative sentiment recognition model,THFMFNSR)。该模型包括多模态特征表示、特征融合、分类器和决策融合4个部分。本文通过收集新浪微博新冠肺炎的相关图文数据,验证了该模型的有效性,并抽取了最佳情感决策融合规则和分类器配置。研究结果表明,相比于文本、图像、图文特征融合的最优识别模型,本文模型在情感识别方面精确率分别提高了14.48%、12.92%、2.24%;在细粒度负面情感识别方面,精确率分别提高了22.73%、10.85%、3.34%。通过该多模态细粒度负面情感识别模型可感知舆情态势,从而辅助公共卫生部门和舆情管控部门决策。 展开更多
关键词 突发公共卫生事件 网络舆情 多模态 负面情感识别 bidirectional encoder representations from transformers(BERT) vision transformer(vit)
下载PDF
CNN结合Transformer的深度伪造高效检测 被引量:8
3
作者 李颖 边山 +1 位作者 王春桃 卢伟 《中国图象图形学报》 CSCD 北大核心 2023年第3期804-819,共16页
目的 深度伪造视频检测是目前计算机视觉领域的热点研究问题。卷积神经网络和Vision Transformer(ViT)都是深度伪造检测模型中的基础结构,二者虽各有优势,但都面临训练和测试阶段耗时较长、跨压缩场景精度显著下降问题。针对这两类模型... 目的 深度伪造视频检测是目前计算机视觉领域的热点研究问题。卷积神经网络和Vision Transformer(ViT)都是深度伪造检测模型中的基础结构,二者虽各有优势,但都面临训练和测试阶段耗时较长、跨压缩场景精度显著下降问题。针对这两类模型各自的优缺点,以及不同域特征在检测场景下的适用性,提出了一种高效的CNN(convolutional neural network)结合Transformer的联合模型。方法 设计基于Efficient Net的空间域特征提取分支及频率域特征提取分支,以丰富单分支的特征表示。之后与Transformer的编码器结构、交叉注意力结构进行连接,对全局区域间特征相关性进行建模。针对跨压缩、跨库场景下深度伪造检测模型精度下降问题,设计注意力机制及嵌入方式,结合数据增广策略,提高模型在跨压缩率、跨库场景下的鲁棒性。结果 在Face Forensics++的4个数据集上与其他9种方法进行跨压缩率的精度比较,在交叉压缩率检测实验中,本文方法对Deepfake、Face2Face和Neural Textures伪造图像的检测准确率分别达到90.35%、71.79%和80.71%,优于对比算法。在跨数据集的实验中,本文模型同样优于其他方法,并且同设备训练耗时大幅缩减。结论 本文提出的联合模型综合了卷积神经网络和Vision Transformer的优点,利用了不同域特征的检测特性及注意力机制和数据增强机制,改善了深度伪造检测在跨压缩、跨库检测时的效果,使模型更加准确且高效。 展开更多
关键词 深度伪造检测 卷积神经网络(CNN) vision transformer(vit) 空间域 频率域
原文传递
融合CNN和ViT的声信号轴承故障诊断方法 被引量:5
4
作者 宁方立 王珂 郝明阳 《振动与冲击》 EI CSCD 北大核心 2024年第3期158-163,170,共7页
针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像... 针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像作为卷积神经网络的输入,用于隐式提取图像的深层特征,其输出作为视觉转换器的输入。视觉转换器用于提取信号的时间序列信息。并在输出层利用Softmax函数实现故障模式的识别。试验结果表明,该方法对于轴承故障诊断准确率较高。为了更好解释和优化提出的轴承故障诊断方法,利用t-分布领域嵌入算法对分类特征进行了可视化展示。 展开更多
关键词 短时傅里叶变换 卷积神经网络 视觉转换器 t-分布领域嵌入算法
下载PDF
视觉Transformer(ViT)发展综述
5
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 vision transformer(vit) 深度学习 自注意力
基于ViT和多任务自监督学习的图像质量评价
6
作者 王华成 桑庆兵 胡聪 《光电子.激光》 CAS CSCD 北大核心 2024年第8期785-792,共8页
针对现有的基于深度学习的图像质量评价方法,因为标注数据不足而存在的过拟合与泛化性能不足的问题,提出了一种基于多任务自监督学习的图像质量评价方法。首先,通过算法合成17种失真类型图像,并以全参考MDSI(mean deviation similarity ... 针对现有的基于深度学习的图像质量评价方法,因为标注数据不足而存在的过拟合与泛化性能不足的问题,提出了一种基于多任务自监督学习的图像质量评价方法。首先,通过算法合成17种失真类型图像,并以全参考MDSI(mean deviation similarity index)得分和失真类型作为合成失真图像的2个标签;随后,在ViT(vision transformer)上进行预测MDSI得分和失真类型的多任务自监督学习;最后,将训练得到的模型在下游任务上进行微调,将上游任务学习到的语义特征迁移到下游任务。将本文方法与主流无参考图像质量评价(no reference image quality assessment, NR-IQA)方法在多个公开的图像质量评价数据集上进行了充分比较,在LIVE、CSIQ、TID2013以及CID2013等数据集上的测试结果相比于表现最好的算法均提升了1—2个百分点,这表明提出的算法优于大多数主流的NR-IQA算法。 展开更多
关键词 图像质量评价 无参考 多任务学习 自监督学习 vision transformer(vit)
原文传递
结合动态自适应调制和结构关系学习的细粒度图像分类
7
作者 王衍根 陈飞 陈权 《计算机系统应用》 2024年第8期166-175,共10页
由于细粒度图像类间差异小,类内差异大的特点,因此细粒度图像分类任务关键在于寻找类别间细微差异.最近,基于Vision Transformer的网络大多侧重挖掘图像最显著判别区域特征.这存在两个问题:首先,网络忽略从其他判别区域挖掘分类线索,容... 由于细粒度图像类间差异小,类内差异大的特点,因此细粒度图像分类任务关键在于寻找类别间细微差异.最近,基于Vision Transformer的网络大多侧重挖掘图像最显著判别区域特征.这存在两个问题:首先,网络忽略从其他判别区域挖掘分类线索,容易混淆相似类别;其次,忽略了图像的结构关系,导致提取的类别特征不准确.为解决上述问题,本文提出动态自适应调制和结构关系学习两个模块,通过动态自适应调制模块迫使网络寻找多个判别区域,再利用结构关系学习模块构建判别区域间结构关系;最后利用图卷积网络融合语义信息和结构信息得出预测分类结果.所提出的方法在CUB-200-2011数据集和NA-Birds数据集上测试准确率分别达到92.9%和93.0%,优于现有最先进网络. 展开更多
关键词 细粒度图像分类 vision transformer(vit) 动态自适应调制 结构关系学习 图卷积网络
下载PDF
基于Vision Transformer-LSTM(ViTL)的多时序遥感影像农作物分类方法
8
作者 张青云 杨辉 +1 位作者 李兴伍 武永闯 《安徽农业大学学报》 CAS CSCD 2024年第5期888-898,共11页
针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL... 针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL)的深度学习模型,ViTL模型集成了双路Vision-Transformer特征提取、时空特征融合和长短期记忆递归神经网络(LSTM)时序分类等3个关键模块,双路Vision-Transformer特征提取模块用于捕获图像的时空特征相关性,一路提取空间分类特征,一路提取时间变化特征;时空特征融合模块用于将多时特征信息进行交叉融合;LSTM时序分类模块捕捉多时序的依赖关系并进行输出分类。综合利用基于多时序卫星影像的遥感技术理论和方法,对黑龙江省齐齐哈尔市讷河市作物信息进行提取,研究结果表明,ViTL模型表现出色,其总体准确率(Overall Accuracy,OA)、平均交并比(Mean Intersection over Union,MIoU)和F1分数分别达到0.8676、0.6987和0.8175,与其他广泛使用的深度学习方法相比,包括三维卷积神经网络(3-D CNN)、二维卷积神经网络(2-D CNN)和长短期记忆递归神经网络(LSTM),ViTL模型的F1分数提高了9%~12%,显示出显著的优越性。ViTL模型克服了面对多时序遥感影像的农作物分类任务中的时间和空间信息特征采样不足问题,为准确、高效地农作物分类提供了新思路。 展开更多
关键词 农作物分类 vision transformer(vit) LSTM 深度学习 遥感监测
下载PDF
基于EMDPWVD时频图像和改进ViT网络的滚动轴承智能故障诊断
9
作者 樊红卫 马宁阁 +3 位作者 马嘉腾 陈步冉 曹现刚 张旭辉 《振动与冲击》 EI CSCD 北大核心 2024年第11期246-254,共9页
滚动轴承是机械设备的关键零部件之一,其故障诊断对设备安全稳定运行至关重要。针对滚动轴承振动信号的非平稳特点,提出经验模态分解联合伪魏格纳分布(empirical mode decomposition&pseudo-Wigner-Ville distribution, EMDPWVD)时... 滚动轴承是机械设备的关键零部件之一,其故障诊断对设备安全稳定运行至关重要。针对滚动轴承振动信号的非平稳特点,提出经验模态分解联合伪魏格纳分布(empirical mode decomposition&pseudo-Wigner-Ville distribution, EMDPWVD)时频图像联合改进Vision Transformer(ViT)网络模型的智能故障诊断新方法。首先针对实际信号研究短时傅里叶变换(short-time Fourier transform, STFT)、连续小波变换(continuous wavelet transform, CWT)和EMDPWVD三种时频分析方法,考虑STFT和CWT无法同时获得高的时间分辨率和频率分辨率,优选EMDPWVD作为智能故障诊断网络的时频图像构造方法。其次,以经典ViT作为故障诊断基础模型,将时频图像按照预定尺寸分块并线性映射为输入序列,通过自注意力机制整合图像全局信息,借助堆叠Transformer编码器完成网络传输,进而实现故障诊断。为进一步提高故障诊断准确率,将池化层作为ViT的预处理网络,获得改进的Pooling ViT(PiT)模型,实现时频图像的空间特征延展,提升模型对输入图像敏感度。结果表明,所提方法对滚动轴承不同故障类型均有高的诊断准确率,PiT较ViT的准确率提高4.40%,证明对ViT加入池化层能够实现滚动轴承故障诊断效果提升。 展开更多
关键词 滚动轴承 故障诊断 时频图像 vision transformer(vit) 池化层
下载PDF
基于类相似特征扩充与中心三元组损失的哈希图像检索 被引量:3
10
作者 潘丽丽 马俊勇 +2 位作者 熊思宇 邓智茂 胡清华 《模式识别与人工智能》 EI CSCD 北大核心 2023年第8期685-700,共16页
现有的深度哈希图像检索方法主要采用卷积神经网络,提取的深度特征的相似性表征能力不足.此外,三元组深度哈希主要从小批量数据中构建局部三元组样本,样本数量较少,数据分布缺失全局性,使网络训练不够充分且收敛困难.针对上述问题,文中... 现有的深度哈希图像检索方法主要采用卷积神经网络,提取的深度特征的相似性表征能力不足.此外,三元组深度哈希主要从小批量数据中构建局部三元组样本,样本数量较少,数据分布缺失全局性,使网络训练不够充分且收敛困难.针对上述问题,文中提出基于类相似特征扩充与中心三元组损失的哈希图像检索模型(Hash Image Retrieval Based on Category Similarity Feature Expansion and Center Triplet Loss,HRFT-Net).设计基于Vision Transformer的哈希特征提取模块(Hash Feature Extraction Module Based on Vision Transformer,HViT),利用Vision Transformer提取表征能力更强的全局特征信息.为了扩充小批量训练样本的数据量,提出基于类约束的相似特征扩充模块(Similar Feature Expansion Based on Category Constraint,SFEC),利用同类样本间的相似性生成新特征,丰富三元组训练样本.为了增强三元组损失的全局性,提出基于Hadamard的中心三元组损失函数(Central Triplet Loss Function Based on Hadamard,CTLH),利用Hadamard为每个类建立全局哈希中心约束,通过增添局部约束与全局中心约束的中心三元组加速网络的学习和收敛,提高图像检索的精度.在CIFAR10、NUS-WIDE数据集上的实验表明,HRFT-Net在不同长度比特位哈希码检索上的平均精度均值较优,由此验证HRFT-Net的有效性. 展开更多
关键词 图像检索 深度哈希 vision transformer(vit) 特征扩充 三元组损失
下载PDF
基于双通道Transformer的地铁站台异物检测
11
作者 刘瑞康 刘伟铭 +2 位作者 段梦飞 谢玮 戴愿 《计算机工程》 CAS CSCD 北大核心 2024年第4期197-207,共11页
Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transforme... Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transformer块和通道交叉注意力机制的DualF ormer模型,用以检测地铁站台屏蔽门与列车门间隙中存在的异物。针对输入图像块尺寸固定的问题,提出双通道策略,通过设计2种不同的特征提取通道对不同尺度的输入图像块进行特征提取,增强网络对粗、细粒度特征的提取能力,提高对多尺度目标的识别精度;针对计算成本高的问题,构建金字塔轻量化Transformer块,将级联卷积引入到多头自注意力(MHSA)模块中,并利用卷积的维度压缩能力来降低模型的计算成本;针对局部与全局信息交互匮乏的问题,提出通道交叉注意力机制,利用提取到的粗细粒度特征在通道层面进行交互,优化局部与全局信息在网络中的权重。在标准化地铁异物检测数据集上的实验结果表明,DualFormer模型参数量为1.98×10^(7),实现了89.7%的精度和24帧/s的速度,优于对比的Transformer检测算法。 展开更多
关键词 视觉transformer 异物检测 双通道策略 金字塔轻量化transformer 注意力融合
下载PDF
融合局部与全局特征的DCE-MRI乳腺肿瘤良恶分类
12
作者 赵小明 廖越辉 +4 位作者 张石清 方江雄 何遐遐 汪国余 卢洪胜 《中国图象图形学报》 CSCD 北大核心 2024年第1期256-267,共12页
目的基于计算机辅助诊断的乳腺肿瘤动态对比增强磁共振成像(dynamic contrast-enhanced magnetic resonance imaging,DCE-MRI)检测和分类存在着准确度低、缺乏可用数据集等问题。方法针对这些问题,建立一个乳腺DCE-MRI影像数据集,并提... 目的基于计算机辅助诊断的乳腺肿瘤动态对比增强磁共振成像(dynamic contrast-enhanced magnetic resonance imaging,DCE-MRI)检测和分类存在着准确度低、缺乏可用数据集等问题。方法针对这些问题,建立一个乳腺DCE-MRI影像数据集,并提出一种将面向局部特征学习的卷积神经网络(convolutional neural network,CNN)和全局特征学习的视觉Transformer(vision Transformer,ViT)方法相融合的局部—全局跨注意力融合网络(local global cross attention fusion network,LG-CAFN),用于实现乳腺肿瘤DCE-MRI影像自动诊断,以提高乳腺癌的诊断准确率和效率。该网络采用跨注意力机制方法,将CNN分支提取出的图像局部特征和ViT分支提取出的图像全局特征进行有效融合,从而获得更具判别性的图像特征用于乳腺肿瘤DCE-MRI影像良恶性分类。结果在乳腺癌DCE-MRI影像数据集上设置了两组包含不同种类的乳腺DCE-MRI序列实验,并与VGG16(Visual Geometry Group 16-layer network)、深度残差网络(residualnetwork,ResNet)、SENet(squeeze-and-excitationnetwork)、ViT以及Swin-S(swinTransformer-small)方法进行比较。同时,进行消融实验以及与其他方法的比较。两组实验结果表明,LG-CAFN在乳腺肿瘤良恶性分类任务上分别取得88.20%和83.93%的最高准确率(accuracy),其ROC(receiver operating characteristic)曲线下面积(area under the curve,AUC)分别达到0.9154和0.8826,均优于其他方法并最接近1。结论提出的LG-CAFN方法具有优异的局部—全局特征学习能力,可以有效提升DCE-MRI乳腺肿瘤影像良恶性分类性能。 展开更多
关键词 乳腺肿瘤 动态对比增强磁共振成像(DCE-MRI) 视觉transformer(vit) 卷积神经网络(CNN) 注意力融合
原文传递
结合局部全局特征与多尺度交互的三维多器官分割网络
13
作者 柴静雯 李安康 +3 位作者 张浩 马泳 梅晓光 马佳义 《中国图象图形学报》 CSCD 北大核心 2024年第3期655-669,共15页
目的 高度适形放射治疗是常用的癌症治疗方法,该方法的有效性依赖于对癌组织和周边多个危及器官(organ at risk,OAR)解剖结构的精确刻画,因此研究三维图像多器官的高精度自动分割具有重要意义。以视觉Transformer(vision Transformer,V... 目的 高度适形放射治疗是常用的癌症治疗方法,该方法的有效性依赖于对癌组织和周边多个危及器官(organ at risk,OAR)解剖结构的精确刻画,因此研究三维图像多器官的高精度自动分割具有重要意义。以视觉Transformer(vision Transformer,ViT)和卷积神经网络(convolutional neural network,CNN)结合为代表的三维医学图像分割方法表现出了丰富的应用优势。然而,这类方法往往忽略同一尺度内和不同尺度间的信息交互,使得CNN和ViT特征的提取和融合受限。本文提出一种端到端多器官分割网络LoGoFUNet(local-global-features fusion UNet),旨在应对现有方法的缺陷。方法 首先,针对单一器官分割,提出在同一尺度下并行提取并融合CNN和ViT特征的LoGoF(local-global-features fusion)编码器,并构建了一个端到端的三维医学图像分割多尺度网络M0。此外,考虑到器官内部以及器官之间的相互关系,该方法在M0网络的基础上设计并引入了多尺度交互(multi-scale interaction,MSI)模块和注意力指导(attention guidance,AG)结构,最终形成了LoGoFUNet。结果 在Synapse数据集和SegTHOR(segmentation of thoracic organs at risk)数据集上,本文方法相比于表现第2的模型,DSC(Dice similarity cofficient)指标分别提高了2.94%和4.93%,而HD95(Hausdorff distance_95)指标则分别降低了8.55和2.45,切实提升了多器官分割任务的性能表现。在ACDC(automatic cardiac diagnosis challenge)数据集上,3D分割方法的适用性大多较差,但LoGoFUNet依然得到了比2D先进方法更好的结果,说明其对数据集的适应能力更强。结论 该方法的分割模型综合尺度内和尺度间的信息交互,具有更好的分割结果,且在数据集上的泛化性更好。 展开更多
关键词 多器官分割 深度神经网络(DNN) 视觉transformer(vit) 局部全局特征 多尺度交互(MSI)
原文传递
视觉Transformer预训练模型的胸腔X线影像多标签分类 被引量:3
14
作者 邢素霞 鞠子涵 +2 位作者 刘子骄 王瑜 范福强 《中国图象图形学报》 CSCD 北大核心 2023年第4期1186-1197,共12页
目的基于计算机的胸腔X线影像疾病检测和分类目前存在误诊率高,准确率低的问题。本文在视觉Transformer(vision Transformer,ViT)预训练模型的基础上,通过迁移学习方法,实现胸腔X线影像辅助诊断,提高诊断准确率和效率。方法选用带有卷... 目的基于计算机的胸腔X线影像疾病检测和分类目前存在误诊率高,准确率低的问题。本文在视觉Transformer(vision Transformer,ViT)预训练模型的基础上,通过迁移学习方法,实现胸腔X线影像辅助诊断,提高诊断准确率和效率。方法选用带有卷积神经网络(convolutional neural network,CNN)的ViT模型,其在超大规模自然图像数据集中进行了预训练;通过微调模型结构,使用预训练的ViT模型参数初始化主干网络,并迁移至胸腔X线影像数据集中再次训练,实现疾病多标签分类。结果在IU X-Ray数据集中对ViT迁移学习前、后模型平均AUC(area under ROC curve)得分进行对比分析实验。结果表明,预训练ViT模型平均AUC得分为0.774,与不使用迁移学习相比提升了0.208。并针对模型结构和数据预处理进行了消融实验,对ViT中的注意力机制进行可视化,进一步验证了模型有效性。最后使用Chest X-Ray14和CheXpert数据集训练微调后的ViT模型,平均AUC得分为0.839和0.806,与对比方法相比分别有0.014~0.031的提升。结论与其他方法相比,ViT模型胸腔X线影像的多标签分类精确度更高,且迁移学习可以在降低训练成本的同时提升ViT模型的分类性能和泛化性。消融实验与模型可视化表明,包含CNN结构的ViT模型能重点关注有意义的区域,高效获取胸腔X线影像的视觉特征。 展开更多
关键词 胸腔X线影像 多标签分类 卷积神经网络(CNN) 视觉transformer(vit) 迁移学习
原文传递
基于位置编码重叠切块嵌入和多尺度通道交互注意力的鱼类图像分类
15
作者 周雯 谌雨章 +1 位作者 温志远 王诗琦 《计算机应用》 CSCD 北大核心 2024年第10期3209-3216,共8页
水下鱼类图像分类是一项极具挑战性的任务。传统Vision Transformer(ViT)网络骨干的局限性较大,难以处理局部连续特征,在图像质量较低的鱼类分类中效果表现不佳。为解决此问题,提出一种基于位置编码的重叠切块嵌入(OPE)和多尺度通道交... 水下鱼类图像分类是一项极具挑战性的任务。传统Vision Transformer(ViT)网络骨干的局限性较大,难以处理局部连续特征,在图像质量较低的鱼类分类中效果表现不佳。为解决此问题,提出一种基于位置编码的重叠切块嵌入(OPE)和多尺度通道交互注意力(MCIA)的Transformer图像分类网络PIFormer(Positional overlapping and Interactive attention transFormer)。PIFormer采用多层级形式构建,每层以不同次数堆叠,利于提取不同深度的特征。首先,引入深度位置编码重叠切块嵌入(POPE)模块对特征图与边缘信息进行重叠切块,以保留鱼体的局部连续特征,并添加位置信息以排序,帮助PIFormer整合细节特征和构建全局映射;其次,提出MCIA模块并行处理局部与全局特征,并建立鱼体不同部位的长距离依赖关系;最后,由分组多层感知机(GMLP)分组处理高层次特征,以提升网络效率,并实现最终的鱼类分类。为验证PIFormer的有效性,提出自建东湖淡水鱼类数据集,并使用公共数据集Fish4Knowledge与NCFM(Nature Conservancy Fisheries Monitoring)以确保实验公平性。实验结果表明,所提网络在各数据集上的Top-1分类准确率分别达到了97.99%、99.71%和90.45%,与同级深度的ViT、Swin Transformer和PVT(Pyramid Vision Transformer)相比,参数量分别减少了72.62×10^(6)、14.34×10^(6)和11.30×10^(6),浮点运算量(FLOPs)分别节省了14.52×10^(9)、2.02×10^(9)和1.48×10^(9)。可见,PIFormer在较少的计算负荷下,具有较强的鱼类图像分类能力,取得了优越的性能。 展开更多
关键词 鱼类图像分类 位置编码 重叠切块嵌入 通道交互注意力 vision transformer
下载PDF
历史建筑多模态检索方法研究
16
作者 袁嘉梦 陈浪 +1 位作者 陈维亚 骆汉宾 《土木建筑工程信息技术》 2024年第4期7-13,共7页
在HBIM(Historic Building Information Modeling)数据库中进行信息查询面临三个问题:一是没有普适性的规则判断建筑之间的相似性;二是未考虑建筑本身所包含的历史文化信息;三是查询文本多基于关键词,难以检索到关键词未包含的信息。针... 在HBIM(Historic Building Information Modeling)数据库中进行信息查询面临三个问题:一是没有普适性的规则判断建筑之间的相似性;二是未考虑建筑本身所包含的历史文化信息;三是查询文本多基于关键词,难以检索到关键词未包含的信息。针对以上问题,提出了一种面向历史建筑的多模态检索方法,用户能通过输入图像或自然语言文本数据,检索到与输入特征相符的建筑,并以列表形式进行排序。在以图像检索建筑时,利用“dino_vit16”模型对图像进行特征提取,所提出的图像-建筑检索方法检索精度达90.08%;在文本检索建筑时则基于CLIP(Contrastive Language-Image Pre-training)模型建立图像和文本的关联,研究了图文相似度和文本相似度权重的取值,选择m=0.6,n=0.4作为权重的最佳配置。实验证明所提出的文本-建筑检索算法对于包含某种外观特征查询语句的检索效果最好,对于描述某种功能和建筑风格的查询语句检索效果最差,而当查询语句中包含4个以上的混合特征,能够描述出建筑的基本面貌时,可以准确地检索到符合条件的建筑。 展开更多
关键词 历史建筑 HBIM vit 相似性度量 多模态检索
下载PDF
基于弱监督的改进Transformer在人群定位中的应用 被引量:3
17
作者 高辉 邓淼磊 +2 位作者 赵文君 陈法权 张德贤 《计算机工程与应用》 CSCD 北大核心 2023年第19期92-98,共7页
针对现有人群定位方法采用伪边界框或预先设计的定位图,需要复杂的预处理和后处理来获得头部位置的问题,提出一种基于弱监督的端到端人群定位网络LocalFormer。在特征提取阶段,将纯Transformer作为骨干网络,并对每个阶段的特征执行全局... 针对现有人群定位方法采用伪边界框或预先设计的定位图,需要复杂的预处理和后处理来获得头部位置的问题,提出一种基于弱监督的端到端人群定位网络LocalFormer。在特征提取阶段,将纯Transformer作为骨干网络,并对每个阶段的特征执行全局最大池化操作,提取更加丰富的人头细节信息。在编码器-解码器阶段,将聚合特征嵌入位置信息作为编码器的输入,且每个解码器层采用一组可训练嵌入作为查询,并将编码器最后一层的视觉特征作为键和值,解码后的特征用于预测置信度得分。通过二值化模块自适应优化阈值学习器,从而精确地二值化置信度图。在不同数据环境下对三个数据集进行实验,结果表明该方法实现了最佳定位性能。 展开更多
关键词 人群定位 弱监督 卷积神经网络 全局最大池化 视觉transformer
下载PDF
基于自蒸馏视觉Transformer的无监督行人重识别
18
作者 贾洁茹 杨建超 +2 位作者 张硕蕊 闫涛 陈斌 《计算机应用》 CSCD 北大核心 2024年第9期2893-2902,共10页
针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的... 针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的特性,随机选择一个中间Transformer块并将它送入分类器以得到预测结果;其次,通过最小化随机选择的中间分类器输出与最终分类器输出分布之间的Kullback-Leibler散度,约束中间块的分类预测结果与最终分类器的结果保持一致,据此构建自蒸馏损失函数;最后,通过对聚类级对比损失、实例级对比损失和自蒸馏损失进行联合最小化,对模型进行优化。此外,通过从最终分类器向中间块提供软监督,有效地给ViT模型引入归纳偏置,进而有助于模型学习更鲁棒和通用的视觉表征。与基于TransReID的自监督学习(TransReID-SSL)相比,在Market-1501数据集上,所提方法的平均精度均值(mAP)和Rank-1分别提升1.2和0.8个百分点;在MSMT17数据集上,所提方法的mAP和Rank-1分别提升3.4和3.1个百分点。实验结果表明,所提方法能够有效提高无监督行人重识别的精度。 展开更多
关键词 行人重识别 无监督学习 视觉transformer 知识蒸馏 特征表示
下载PDF
基于自监督视觉Transformer的图像美学质量评价方法
19
作者 黄荣 宋俊杰 +1 位作者 周树波 刘浩 《计算机应用》 CSCD 北大核心 2024年第4期1269-1276,共8页
现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的... 现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的图像美学质量评价方法。利用自注意力机制建立图像局部块之间的长距离依赖关系,自适应地学习图像不同局部块之间的相关性,提取图像的全局特征,从而刻画图像的美学属性;同时,设计图像降质分类、图像美学质量排序和图像语义重构这3项美学质量感知任务,利用无标注的图像数据对视觉Transformer(ViT)进行自监督预训练,增强全局特征的表达能力。在AVA(Aesthetic Visual Assessment)数据集上的实验结果显示,SSViT模型在美学质量分类准确率、皮尔森线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC)指标上分别达到83.28%、0.7634和0.7462。以上实验结果表明,SSViT模型具有较高的图像美学质量评价准确性。 展开更多
关键词 图像美学质量评价 视觉transformer 自监督学习 全局特征 自注意力机制
下载PDF
基于改进ViT的熔池识别与焊接偏差在线检测方法
20
作者 蒋宇轩 林凯 +2 位作者 王瑶祺 张岳 洪宇翔 《现代制造工程》 CSCD 北大核心 2024年第10期130-137,共8页
焊接偏差的精确检测是实现焊接机器人焊缝轨迹自动跟踪及智能化焊接的前提。提出了一种基于改进视觉转换器(Vision Transformer,ViT)的熔池识别与焊接偏差在线检测方法。首先,采用轻量级ViT模型Segformer作为基线模型,在其掩码分割前嵌... 焊接偏差的精确检测是实现焊接机器人焊缝轨迹自动跟踪及智能化焊接的前提。提出了一种基于改进视觉转换器(Vision Transformer,ViT)的熔池识别与焊接偏差在线检测方法。首先,采用轻量级ViT模型Segformer作为基线模型,在其掩码分割前嵌入置换注意力(Shuffle Attention,SA)机制,以更好地捕获特征信息在空间和通道这2个维度中的依赖关系,从而提高模型的分割精度;其次,在多层感知机(Multilayer Perceptron,MLP)中加入上下文广播(Context Broadcasting,CB)模块,在保证模型低参数量的前提下提高泛化能力;最后,基于模型分割结果,提出一种焊接偏差计算方法来定量描述偏差检测精度。实验结果表明,相较于基线模型,所提出模型的平均交并比和平均像素准确率分别提高了2.67%和2.12%,且对于不同预设焊枪偏移情况均具有良好的泛化性,焊接偏差精度控制在±0.021 mm之内,为实现精密焊接焊缝跟踪提供基础。 展开更多
关键词 焊接偏差 焊缝跟踪 熔池识别 视觉转换器 注意力机制
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部