视觉Transformer预训练模型的胸腔X线影像多标签分类被引量：3

Multi-label classification of chest X-ray images with pre-trained vision Transformer model

导出

摘要目的基于计算机的胸腔X线影像疾病检测和分类目前存在误诊率高,准确率低的问题。本文在视觉Transformer(vision Transformer,ViT)预训练模型的基础上,通过迁移学习方法,实现胸腔X线影像辅助诊断,提高诊断准确率和效率。方法选用带有卷积神经网络(convolutional neural network,CNN)的ViT模型,其在超大规模自然图像数据集中进行了预训练;通过微调模型结构,使用预训练的ViT模型参数初始化主干网络,并迁移至胸腔X线影像数据集中再次训练,实现疾病多标签分类。结果在IU X-Ray数据集中对ViT迁移学习前、后模型平均AUC(area under ROC curve)得分进行对比分析实验。结果表明,预训练ViT模型平均AUC得分为0.774,与不使用迁移学习相比提升了0.208。并针对模型结构和数据预处理进行了消融实验,对ViT中的注意力机制进行可视化,进一步验证了模型有效性。最后使用Chest X-Ray14和CheXpert数据集训练微调后的ViT模型,平均AUC得分为0.839和0.806,与对比方法相比分别有0.014~0.031的提升。结论与其他方法相比,ViT模型胸腔X线影像的多标签分类精确度更高,且迁移学习可以在降低训练成本的同时提升ViT模型的分类性能和泛化性。消融实验与模型可视化表明,包含CNN结构的ViT模型能重点关注有意义的区域,高效获取胸腔X线影像的视觉特征。 Objective The chest X-ray-relevant screening and diagnostic method is essential for radiology nowadays.Most of chest X-ray images interpretation is still restricted by clinical experience and challenged for misdiagnose and missed diag⁃noses.To detect and identify one or more potential diseases in images automatically,it is beneficial for improving diagnos⁃tic efficiency and accuracy using computer-based technique.Compared to natural images,multiple lesions are challenged to be detected and distinguished accurately in a single image because abnormal areas have a small proportion and complex representations in chest X-ray images.Current convolutional neural network(CNN)based deep learning models have been widely used in the context of medical imaging.The structure of the CNN convolution kernel has sensitive to local detail information,and it is possible to extract richer image features.However,the convolution kernel cannot be used to get global information,and the features-extracted are restricted of redundant information like its relevance of background,muscles,and bones.The model’s performance in multi-label classification tasks are affected to a certain extent.At pres⁃ent,the vision Transformer(ViT)model has achieved its priorities in computer vision-related tasks.The ViT can be used to capture information simultaneously and effectively for multiple regions of the entire image.However,it is required to use large-scale dataset training to achieve good performance.Due to some factors like patient privacy and manual annotate costs,the size of the chest X-ray image data set has been limited.To reduce the model′s dependence on data scale and improve the performance of multi-label classification,we develop the CNN-based ViT pre-training model in terms of the transfer learning method for diagnosis-assisted of chest X-ray image and multi-label classification.Method The CNN-based ViT model is pre-trained on a huge scale ground truth dataset,and it is used to obtain the initial parameters of the model.The model

作者邢素霞鞠子涵刘子骄王瑜范福强 Xing Suxia;Ju Zihan;Liu Zijiao;Wang Yu;Fan Fuqiang(Beijing Technology and Business University,Beijing 100048,China)

机构地区北京工商大学

出处《中国图象图形学报》 CSCD 北大核心 2023年第4期1186-1197,共12页 Journal of Image and Graphics

基金国家自然科学基金项目(61671028) 北京市自然科学基金项目(KZ202110011015)。

关键词胸腔X线影像多标签分类卷积神经网络(CNN) 视觉Transformer(ViT) 迁移学习 chest X-ray images multi-label classification convolutional neural network(CNN) vision Transformer(ViT) transfer learning

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] R816.4 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献4

1张智睿,李锵,关欣.密集挤压激励网络的多标签胸部X光片疾病分类[J].中国图象图形学报,2020,25(10):2238-2248. 被引量：13
2施俊,汪琳琳,王珊珊,陈艳霞,王乾,魏冬铭,梁淑君,彭佳林,易佳锦,刘盛锋,倪东,王明亮,张道强,沈定刚.深度学习在医学影像中的应用综述[J].中国图象图形学报,2020,25(10):1953-1981. 被引量：67
3潘海为,李鹏远,韩启龙,谢晓芹,张志强,高琳琳.一种新颖的医学图像建模及相似性搜索方法[J].计算机学报,2013,36(8):1745-1756. 被引量：4
4陈弘扬,高敬阳,赵地,汪红志,宋红,苏庆华.深度学习与生物医学图像分析2020年综述[J].中国图象图形学报,2021,26(3):475-486. 被引量：22

二级参考文献41

1韩家炜,KamberM.数据挖掘概念与技术.第2版.北京:机械工业出版社,2006:396-399. 被引量：1
2Datta R, Joshi D, Li J, et al. Image retrieval; Ideas, influ- enees, and trends of the new age. ACM Computing Surveys, 2008, 40(2): 51-60. 被引量：1
3Swain M J, Ballard D H. Color indexing. International Jour- nal of Computer Vision, 1991, 7(1): 11-32. 被引量：1
4Liu G H, Yang J Y. Image retrieval based on the texton co- occurrence matrix. Pattern Recognition, 2008, 41 (12) : 3521-3527. 被引量：1
5Quellec G, Lamard M, Cazuguel G, et al. Fast wavelet- based image characterization for highly adaptive image re- trieval. IEEE Transactions on Image Processing, 2012, 21 (4): 1613-1623. 被引量：1
6Deserno T M. Biomedical Image Processing. Germany: Springer Berlin Heidelberg, 2011. 被引量：1
7Pan Haiwei, Xie Xiaoqin, Zhang Wei, et al. Mining image sequence similarity patterns in brain images//Proceedings of the Pacifie Rim International Conference on Artificial Intelli- gence. Guilin, China, 2006:965-969. 被引量：1
8Quddus A, Basir O. Semantic image retrieval in magnetic resonance brain volumes. IEEE Transactions on Information Technology in Biomedicine, 2012, 16(3): 348-355. 被引量：1
9Wang Rui, Pan Haiwei, Han Qilong, et al. Medical image retrieval method based on relevance feedback//Proceedings of the International Conference on Advanced Data Mining and Applications. Nanjing, China, 2012:650-662. 被引量：1
10Rahman M, Antani S, Thoma G. A learning-based similarity fusion and filtering approach for biomedical image retrieval using SVM classification and relevance feedback. IEEE Transactions on Information Technology in Biomedicine, 2011, 15(4) : 640-646. 被引量：1

共引文献100

1徐坤财,冯宝,陈业航,刘昱,周皓阳,陈相猛.结合深度学习与改进的极限学习机的集成学习胸腺瘤CT图像预测方法[J].计算机科学,2022,49(S02):455-460.
2荣晶施,潘海为,高琳琳,韩启龙,冯晓宁,李青.基于对称性理论的医学图像多阶段分类算法[J].计算机学报,2015,38(9):1809-1824. 被引量：7
3徐中宇,徐红梅,徐勇.基于胃镜图像的胃脘痛特征数据分析[J].电子科技,2016,29(5):165-168. 被引量：1
4吴波,封松林,艾成汉,杨林杰,孙国栋,吴曦.基于不变矩的制动开关图像匹配方法[J].现代电子技术,2016,39(24):92-95. 被引量：3
5黄宁霞,张荣芬,刘宇红.改进深度学习框架Faster RCNN的人行道障碍物目标检测[J].机械设计与研究,2021,37(2):7-12. 被引量：11
6林倩.老年急诊的超声教学体会[J].继续医学教育,2021,35(5):46-48.
7郭艳芬,崔喆,杨智鹏,彭静,胡金蓉.基于深度学习的医学图像配准技术研究进展[J].计算机工程与应用,2021,57(15):1-8. 被引量：1
8邱陈辉,黄崇飞,夏顺仁,孔德兴.人工智能在医学影像辅助诊断中的应用综述[J].航天医学与医学工程,2021,34(5):407-414. 被引量：17
9梅少辉,张博威,马明阳,贾森.近红外高光谱图像数据预测技术[J].中国图象图形学报,2021,26(8):1786-1795. 被引量：3
10李祥霞,谢娴,李彬,尹华,许波,郑心炜.生成对抗网络在医学图像处理中的应用[J].计算机工程与应用,2021,57(18):24-37. 被引量：5

同被引文献20

1移洁,侯劲,石浩德.基于轻量型网络的口罩遮挡人脸识别方法[J].电子测量技术,2023,46(6):159-165. 被引量：2
2吴俊宏,张印,李莎,王付金.基于LSTM算法的线路故障智能诊断方法研究[J].大电机技术,2023(S02):62-67. 被引量：4
3施俊,汪琳琳,王珊珊,陈艳霞,王乾,魏冬铭,梁淑君,彭佳林,易佳锦,刘盛锋,倪东,王明亮,张道强,沈定刚.深度学习在医学影像中的应用综述[J].中国图象图形学报,2020,25(10):1953-1981. 被引量：67
4陈弘扬,高敬阳,赵地,汪红志,宋红,苏庆华.深度学习与生物医学图像分析2020年综述[J].中国图象图形学报,2021,26(3):475-486. 被引量：22
5朱斌,陈磊,邬金萍.基于改进卷积神经网络结构的机器视觉室内定位算法[J].国外电子测量技术,2021,40(1):58-64. 被引量：7
6余璀璨,李慧斌.基于深度学习的人脸识别方法综述[J].工程数学学报,2021,38(4):451-469. 被引量：46
7徐遐龄,刘涛,田国辉,于文娟,肖大军,梁陕鹏.有遮挡环境下的人脸识别方法综述[J].计算机工程与应用,2021,57(17):46-60. 被引量：12
8罗岩,冯天波,邵洁.基于注意力及视觉Transformer的野外人脸表情识别[J].计算机工程与应用,2022,58(10):200-207. 被引量：9
9薛继伟,孙宇锐,辛纪元.基于ArcFace算法的人脸识别应用研究[J].电子设计工程,2022,30(11):168-172. 被引量：11
10孙方伟,李承阳,谢永强,李忠博,杨才东,齐锦.深度学习应用于遮挡目标检测算法综述[J].计算机科学与探索,2022,16(6):1243-1259. 被引量：14

引证文献3

1金荷淇,盖绍彦,达飞鹏.基于卷积神经网络的胸部X光图像分类算法[J].信息技术与信息化,2024(1):33-41.
2赵小明,廖越辉,张石清,方江雄,何遐遐,汪国余,卢洪胜.融合局部与全局特征的DCE-MRI乳腺肿瘤良恶分类[J].中国图象图形学报,2024,29(1):256-267.
3李哲,苗丹,王承林,高娇娇,贾晓雪.一种轻量型有无遮挡混合式人脸识别算法[J].电子设计工程,2024,32(21):156-161.

1新吉乐图,张天资,陈昊,赵全良.C型臂X线影像系统引导下眼眶内异物取出1例[J].中国科技期刊数据库医药,2021(10):216-218.
2班明辉.探讨在骨质疏松测定中利用数字化放射影像与X线影像的临床价值[J].中国科技期刊数据库医药,2022(11):159-161.
3任振东.基于时空卷积网络的体育训练运动检测模型[J].西安文理学院学报（自然科学版）,2023,26(2):125-128.
4萧政.大数据时代关于预测的几点思考[J].复印报刊资料（统计与精算）,2022(4):3-14.
5赵文晖,伍昕忠,徐斌,赵鹏.目标检测在链条标准件动态抓取中的应用研究[J].制造业自动化,2023,45(4):213-216. 被引量：2
6刘忆萱.基于影像测量仪的试验筛自动检测方法研究[J].工业计量,2023,33(1):19-23.
7胡方成.GE PS800+数字胃肠机常见故障分析与排除[J].医疗装备,2023,36(7):113-114. 被引量：1
8刘云帆,舒鑫,艾光勇,谯孝凤.人工智能结合MRI在前列腺癌检测与分类中的进展[J].中文科技期刊数据库（全文版）医药卫生,2023(5):171-174.
9周勇,吴震宇.基于深度学习的动态手势识别方法[J].计算机时代,2023(5):77-80. 被引量：1
10田睿,李燕卿,刘占宁,王创业,陈世江,陈丽林,张志宏,郭振东.基于改进樽海鞘算法优化支持向量机的岩爆预测模型[J].矿冶工程,2023,43(2):5-9. 被引量：4

中国图象图形学报

2023年第4期

浏览历史

内容加载中请稍等...

视觉Transformer预训练模型的胸腔X线影像多标签分类被引量：3

参考文献4

二级参考文献41

共引文献100

同被引文献20

引证文献3

相关作者

相关机构

相关主题

浏览历史

视觉Transformer预训练模型的胸腔X线影像多标签分类 被引量：3

参考文献4

二级参考文献41

共引文献100

同被引文献20

引证文献3

相关作者

相关机构

相关主题

浏览历史

视觉Transformer预训练模型的胸腔X线影像多标签分类被引量：3