Visual attention network 被引量：39

导出

摘要 While originally designed for natural language processing tasks,the self-attention mechanism has recently taken various computer vision areas by storm.However,the 2D nature of images brings three challenges for applying self-attention in computer vision:(1)treating images as 1D sequences neglects their 2D structures;(2)the quadratic complexity is too expensive for high-resolution images;(3)it only captures spatial adaptability but ignores channel adaptability.In this paper,we propose a novel linear attention named large kernel attention(LKA)to enable self-adaptive and long-range correlations in self-attention while avoiding its shortcomings.Furthermore,we present a neural network based on LKA,namely Visual Attention Network(VAN).While extremely simple,VAN achieves comparable results with similar size convolutional neural networks(CNNs)and vision transformers(ViTs)in various tasks,including image classification,object detection,semantic segmentation,panoptic segmentation,pose estimation,etc.For example,VAN-B6 achieves 87.8%accuracy on ImageNet benchmark,and sets new state-of-the-art performance(58.2%PQ)for panoptic segmentation.Besides,VAN-B2 surpasses Swin-T 4%mloU(50.1%vs.46.1%)for semantic segmentation on ADE20K benchmark,2.6%AP(48.8%vs.46.2%)for object detection on COCO dataset.It provides a novel method and a simple yet strong baseline for the community.The code is available at https://github.com/Visual-Attention-Network.

作者 Meng-Hao Guo Cheng-Ze Lu Zheng-Ning Liu Ming-Ming Cheng Shi-Min Hu

机构地区 Department of Computer Science Nankai University Fitten Tech

出处《Computational Visual Media》 SCIE EI CSCD 2023年第4期733-752,共20页 计算可视媒体（英文版）

基金 supported by National Key R&D Program of China(Project No.2021ZD0112902) the National Natural Science Foundation of China(Project No.62220106003) Tsinghua-Tencent Joint Laboratory for Internet Innovation Technology.

关键词 vision backbone deep learning ConvNets ATTENTION

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献163

1范霄,孔金玲,钟炎伶,蒋镒竹,张静雅.基于XGBoost算法的遥感图像云检测[J].遥感技术与应用,2023,38(1):156-162. 被引量：3
2M.Reimold,S.Assenbaum,E.Beyreuther,E.Bodenstein,F.-E.Brack,C.Eisenmann,F.Englbrecht,F.Kroll,F.Lindner,U.Masood,J.Pawelke,U.Schramm,M.Schneider,M.Sobiella,M.E.P.Umlandt,M.Vescovi,K.Zeil,T.Ziegler,J.Metzkes-Ng.OCTOPOD:single-bunch tomography for angular-spectral characterization of laser-driven protons[J].High Power Laser Science and Engineering,2023,11(6):16-28. 被引量：1
3Jinpu Lin,Florian Haberstroh,Stefan Karsch,Andreas Döpp.Applications of object detection networks in high-power laser systems and experiments[J].High Power Laser Science and Engineering,2023,11(1):52-60. 被引量：19
4季丽琴,王加俊.视频字幕的自动检测与去除[J].中国图象图形学报,2008,13(3):461-466. 被引量：6
5孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：628
6戈霞晖,韩锋锋,刘松,孙娜,王翠,郭雪君.气管镜测量人体气管长度和内径及左、右主支气管长度的研究[J].中国呼吸与危重监护杂志,2017,16(1):55-59. 被引量：13
7郭莹,李伦,王鹏.基于Lanczos核的实时图像插值算法[J].通信学报,2017,38(6):142-147. 被引量：5
8王培珍,殷子睆,王高,张代林.一种基于PCA与RBF-SVM的煤岩显微组分镜质组分类方法[J].煤炭学报,2017,42(4):977-984. 被引量：20
9孙汝星,范荣双.基于支持向量机的多特征融合影像云检测[J].测绘与空间地理信息,2018,41(6):153-156. 被引量：7
10贾亮亮,汪小钦,王峰.基于波段运算和纹理特征的高分一号多光谱数据云检测[J].遥感信息,2018,33(5):62-68. 被引量：8

引证文献39

1王拓然,程娜,丁士佳,王洪玉.基于自适应注意力融合特征提取网络的图像超分辨率[J].计算机应用研究,2023,40(11):3472-3477. 被引量：3
2王艳芬,李旭寅,张晓光,董锴文.基于自适应时序运动聚合的动作识别实验设计[J].实验技术与管理,2023,40(10):48-55. 被引量：2
3刘树东,任慧娟,张众维.基于特征融合和注意力机制的遥感目标检测[J].遥感信息,2023,38(5):1-7. 被引量：2
4张鹏跃,马巧梅.跨模态融合的双注意力脑肿瘤分割算法[J].计算机系统应用,2024,33(1):119-126. 被引量：2
5吴明阳,奚峥皓,陈军然,徐国忠.基于空洞卷积自注意力机制的煤岩显微组分组识别模型[J].北京化工大学学报（自然科学版）,2024,51(2):120-129.
6黄为,赵佰亭,贾晓芬.用于图像超分辨率的轻量级残差平衡蒸馏网络[J].青岛科技大学学报（自然科学版）,2024,45(2):130-139.
7冯强,赵佳.VisFEM:一种基于交叉注意力的双视图视觉特征提取模型[J].长春工程学院学报（自然科学版）,2024,25(1):64-68.
8Shi-Min Hu.Message from the Editor-in-Chief[J].Computational Visual Media,2024,10(1):1-1.
9王卓,瞿绍军.深度学习实时语义分割研究进展和挑战[J].中国图象图形学报,2024,29(5):1188-1220. 被引量：1
10李雪森,谭北海,余荣,薛先斌.基于YOLOv5的轻量化无人机航拍小目标检测算法[J].广东工业大学学报,2024,41(3):71-80. 被引量：1

二级引证文献16

1陈新宇,方金生.轻型多注意力融合网络实现图像超分辨率重建[J].闽南师范大学学报（自然科学版）,2023,36(4):73-81. 被引量：2
2邹铁方,孙浩,赵晓波,袁湘婷,刘志旗.自行车控制人骑/推行姿态参数测量实验[J].实验技术与管理,2024,41(3):116-122.
3刘媛媛,张雨欣,王晓燕,朱路.基于多频特征和纹理增强的轻量化图像超分辨率重建[J].计算机应用研究,2024,41(8):2515-2520.
4WAN Xin-ei,SI Zhan-jun.Improved YOLOv8s-Based Night Vehicle Detection[J].印刷与数字媒体技术研究,2024(4):76-85.
5刘光花,杨发顶,程亚伟,胡振宇.基于深度神经网络的火箭图像目标识别与跟踪[J].沈阳航空航天大学学报,2024,41(4):59-66.
6范昊坤,刘向阳.基于ST-UNet和目标特征的混凝土裂缝检测[J].计算机系统应用,2024,33(9):77-84.
7徐晓滨,孔俊杰,张泽辉,王坚,陈龙,何宏.基于计算机视觉的工业人员行为分析实验平台[J].实验技术与管理,2024,41(9):101-110.
8刘闯.基于脉冲耦合神经网络和遗传算法的图像增强研究[J].信息记录材料,2024,25(10):100-102.
9刘忠,卢安舸,崔浩,刘俊,马秋成.基于改进YOLOv8的轻量化荷叶病虫害检测模型[J].农业工程学报,2024,40(19):168-176.
10周游,李泽萌,于欣琪,王晓春,周盛.基于改进YOLOv5s的眼科超声影像病灶区域检测方法研究[J].医疗卫生装备,2024,45(11):1-7.

1Fan-jie Meng,Xin-qing Wang,Fa-ming Shao,Dong Wang,Yao-wei Yu,Yi Xiao.Visual-attention gabor filter based online multi-armored target tracking[J].Defence Technology（防务技术）,2021,17(4):1249-1261. 被引量：1
2熊举举,徐杨,范润泽,孙少聪.基于轻量化视觉Transformer的花卉识别[J].图学学报,2023,44(2):271-279. 被引量：4
3张顾瀛,贺光华.基于深度学习通道交换的多模态脑肿瘤图像融合的分割模型[J].理论数学,2023,13(4):976-986.
4Bo Song,Meng Wang,Ruolan Shi,Zhiwen Du,Ning Guo,Fang Wang,Shengfeng Guo.Promoting hybrid twins structure to reduce yield asymmetry of rolled AZ31 plates by combining side-rolling and torsion[J].Journal of Magnesium and Alloys,2023,11(6):2096-2105. 被引量：1
5陈毅夫,何敬,刘刚,毛佳琪.融合Swin-Transformer网络模型的水体高光区域提取[J].遥感信息,2023,38(4):129-136. 被引量：2
6梁昌梅,张翔,吴凤燕,刘路广,黄洁.基于Win-TR55的小区域低影响开发水文效应评估[J].中国农村水利水电,2023(10):89-95. 被引量：1

Computational Visual Media

2023年第4期

浏览历史

内容加载中请稍等...

Visual attention network 被引量：39

同被引文献163

引证文献39

二级引证文献16

相关作者

相关机构

相关主题

浏览历史