基于RoBERTa和T5的两阶段医学术语标准化

Two-stage Medical Terminology Standardization Based on RoBERTa and T5

下载PDF

导出

摘要医学术语标准化作为消除实体歧义性的重要手段,被广泛应用于知识图谱的构建过程之中.针对医学领域涉及大量的专业术语和复杂的表述方式,传统匹配模型往往难以达到较高的准确率的问题,提出语义召回加精准排序的两阶段模型来提升医学术语标准化效果.首先在语义召回阶段基于改进的有监督对比学习和RoBERTa-wwm提出语义表征模型CL-BERT,通过CL-BERT生成实体的语义表征向量,根据向量之间的余弦相似度进行召回并得到标准词候选集,其次在精准排序阶段使用T5结合prompt tuning构建语义精准匹配模型,并将FGM对抗训练应用到模型训练中,然后使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词.采用ccks2019公开数据集进行实验,F1值达到了0.9206,实验结果表明所提出的两阶段模型具有较高的性能,为实现医学术语标准化提供了新思路. Medical terminology standardization,as an important means to eliminate entity ambiguity,is widely used in the process of building knowledge graphs.Aiming at the problem that the medical field involves a large number of professional terminology and complex expressions,and the traditional matching models are often difficult to achieve a high accuracy rate,a two-stage model of semantic recall and precise sorting is proposed to improve the standardization effect of medical terminology.First,in the semantic recall stage,a semantic representation model CL-BERT is proposed based on the improved supervised contrastive learning and RoBERTa-wwm.The semantic representation vector of an entity is generated through CL-BERT,and recall is carried out according to the cosine similarity between the vectors,so as to obtain the standard word candidate set.Secondly,in the precise sorting stage,T5,combined with prompt tuning,is used to build a precise semantic matching model,and FGM confrontation training is applied to the model training;next,the precise matching model is used to precisely sort the original word and standard word candidate sets,so as to obtain the final standard words.The ccks2019 public data set is used for experiments,achieving an F1 value of 0.9206.The experimental results show that the proposed two-stage model showcases high performance,and provides a new idea for medical terminology standardization.

作者周景崔灿灿王梦迪王泽敏 ZHOU Jing;CUI Can-Can;WANG Meng-Di;WANG Ze-Min(School of Control and Computer Engineering,North China Electric Power University,Beijing 102206,China;Beijing Smart Insight Technology Co.Ltd.,Beijing 100080,China)

机构地区华北电力大学控制与计算机工程学院北京中科睿见科技有限公司

出处《计算机系统应用》 2024年第1期280-288,共9页 Computer Systems & Applications

关键词医学术语标准化 RoBERTa-wwm 对比学习 T5 prompt tuning 知识图谱 medical terminology standardization RoBERTa-wwm contrastive learning T5 prompt tuning knowledge graph

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献5

1赵兰枝,史欣沅.基于卷积神经网络的生物医学实体标准化研究[J].科技创新与应用,2022,12(15):30-35. 被引量：2
2胡宇,申德荣,聂铁铮,寇月.面向生物医学实体链接的联合式学习方法[J].计算机学报,2022,45(4):748-765. 被引量：6
3闫璟辉,向露,周玉,孙建,陈思,薛晨.深度生成式模型在临床术语标准化中的应用[J].中文信息学报,2021,35(5):77-85. 被引量：2
4韩振桥,付立军,刘俊明,郭宇捷,唐珂轲,梁锐.结合RoBERTa与多策略召回的医学术语标准化[J].计算机系统应用,2022,31(10):245-253. 被引量：2
5张重生,陈杰,李岐龙,邓斌权,王杰,陈承功.深度对比学习综述[J].自动化学报,2023,49(1):15-39. 被引量：14

二级参考文献9

1郭玉峰,刘保延,崔蒙,李平,杨阳.SNOMED CT内容简介[J].中国中医药信息杂志,2006,13(7):100-102. 被引量：9
2范苍宁,刘鹏,肖婷,赵巍,唐降龙.深度域适应综述:一般情况与复杂情况[J].自动化学报,2021,47(3):515-548. 被引量：30
3陈漠沙,仇伟,谭传奇.基于BERT的手术名称标准化重排序算法[J].中文信息学报,2021,35(3):88-93. 被引量：2
4孙曰君,刘智强,杨志豪,林鸿飞.基于BERT的临床术语标准化[J].中文信息学报,2021,35(4):75-82. 被引量：9
5郭东恩,夏英,罗小波,丰江帆.基于有监督对比学习的遥感图像场景分类[J].光子学报,2021,50(7):79-90. 被引量：9
6孙琦钰,赵超强,唐漾,钱锋.基于无监督域自适应的计算机视觉任务研究进展[J].中国科学：技术科学,2022,52(1):26-54. 被引量：13
7康健,王智睿,祝若鑫,孙显.基于监督对比学习正则化的高分辨率SAR图像建筑物提取方法[J].雷达学报（中英文）,2022,11(1):157-167. 被引量：5
8李巍华,何琛,陈祝云,黄如意,晋刚.基于对称式对比学习的齿轮箱无监督故障诊断方法[J].仪器仪表学报,2022,43(3):121-131. 被引量：8
9卢绍帅,陈龙,卢光跃,管子玉,谢飞.面向小样本情感分类任务的弱监督对比学习框架[J].计算机研究与发展,2022,59(9):2003-2014. 被引量：3

共引文献21

1姜京池,侯俊屹,李雪,关毅,关昌赫.基于协同集成学习的医疗实体标准化方法[J].中文信息学报,2023,37(3):135-142. 被引量：2
2王颖,朱南阳,谢浩川,李健,张凯锋.基于对比学习辅助训练的超短期风功率预测方法[J].仪器仪表学报,2023,44(3):89-97. 被引量：3
3张仰森,刘帅康,刘洋,任乐,辛永辉.基于深度学习的实体关系联合抽取研究综述[J].电子学报,2023,51(4):1093-1116. 被引量：3
4黄贺瑄,王晓燕,顾正位,刘静,臧亚男,孙歆.医学知识图谱构建技术及发展现状研究[J].计算机工程与应用,2023,59(13):33-48. 被引量：7
5卞雨玮,华立涛,周媛.基于对比学习的信息缺失手势识别新方法[J].电子测量技术,2023,46(7):180-186. 被引量：1
6柳博文,刘星.多尺度卷积神经网络模型优化在矿物识别中的应用[J].矿物岩石,2023,43(3):10-19. 被引量：2
7周明.感知信息的反事实特征增强社交推荐[J].现代计算机,2023,29(13):113-116.
8江汀莹,线岩团,王红斌.结合近邻分析的小样本命名实体识别方法[J].现代电子技术,2023,46(19):88-94.
9沈学利,张荣凯.联合自监督学习强化的多行为多任务推荐算法[J].计算机应用研究,2023,40(9):2688-2693.
10尤丽珏,尹远芳.基于BiLSTM-CRF模型的医学影像检查报告信息实体识别[J].微型电脑应用,2023,39(10):134-137. 被引量：1

1林昀.针灸推拿结合康复训练治疗腰椎间盘突出症的效果分析[J].中文科技期刊数据库（全文版）医药卫生,2024(1):0038-0041.
2刘丹丹.神经康复训练在脑梗死偏瘫患者中的应用价值[J].中文科技期刊数据库（引文版）医药卫生,2024(1):0151-0154.
3李鹊.智慧硬件设备在初中体育训练中的应用研究[J].文体用品与科技,2024(3):196-198. 被引量：5
4马利利,卜叶萱,陈诗露,孟敏.分阶段康复训练对肩袖损伤行肩关节镜修复术后患者生活质量改善的效果分析[J].大医生,2024,9(1):136-138.
5李春煜.早期腰背肌核心肌力训练对胸腰段骨折术后患者脊柱功能及步行功能恢复的影响[J].临床医学,2023,43(12):83-85.
6设施蔬菜生产LED光照系统如何选择?[J].农业工程技术,2023,43(33):94-94.

计算机系统应用

2024年第1期

浏览历史

内容加载中请稍等...

基于RoBERTa和T5的两阶段医学术语标准化

参考文献5

二级参考文献9

共引文献21

相关作者

相关机构

相关主题

浏览历史