基于BERT的中文电子病历命名实体识别被引量：8

Named entity recognition of Chinese electronic medical record based on BERT

下载PDF

导出

摘要电子病历中蕴含着丰富的医学信息,这些医学信息对疾病的诊疗具有十分重要的意义.利用命名实体识别技术对电子病历进行信息抽取已成为研究的热点之一,为了更加高效准确的抽取中文电子病历中的实体,提出了BERT-BiLSTM-CRF命名实体识别模型.模型在传统BiLSTM-CRF模型基础上,融合了BERT字嵌入模型,更好的结合文章上下文,充分考虑了一词多义等问题.实验结果证明,该模型在中文电子病历命名实体识别任务中取得了良好的效果,较现有命名实体识别方法,从准确率、召回率、F1值3方面都有着明显的提升.电子病历命名实体识别任务准确度的提高,对进一步构建医学知识图谱、医学知识库等任务有着重大帮助. The electronic medical records contain a wealth of medical information,which is of great significance for diseases diagnosis and treatment.Using named entity recognition technology to extract information from electronic medial record has become one of the research hotpots.In order to extract entities in Chinese electronic medical records more efficiently and accurately,BERT-BiLSTM-CRF model was proposed which incorporates BERT word embedding with traditional BiLSTM-CRF model to better combine the context of the article and fully consider the word polysemy.The experimental results showed that compared with the existing named entity recognition method,this model achieved better results on accuracy,recall rate and F1.The improvement in the accuracy of electronic medical record naming entity recognition task is of great help to the further construction of medical knowledge graphs,and medical knowledge bases and so on.

作者李灵芳杨佳琦李宝山杜永兴胡伟健 LI Lingfang;YANG Jiaqi;LI Baoshan;DU Yongxing;HU Weijian(Information Engineering School,Inner Mongolia University of Science and Technology,Baotou 014010,China)

机构地区内蒙古科技大学信息工程学院

出处《内蒙古科技大学学报》 CAS 2020年第1期71-77,共7页 Journal of Inner Mongolia University of Science and Technology

基金国家自然科学基金资助项目(61661044,61961033) 内蒙古自治区高等学校青年科技英才计划(NJYT-19-A15) 优秀青年科学基金项目(2017YQL10) 内蒙古自治区自然科学基金资助项目(2019MS06021).

关键词中文命名实体识别 BERT模型中文电子病历预训练语言模型 Chinese named entity recognition BERT Model Chinese lectronic medical record pre-trained language model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：124
2杨红梅,李琳,杨日东,周毅.基于双向LSTM神经网络电子病历命名实体的识别模型[J].中国组织工程研究,2018,22(20):3237-3242. 被引量：38
3杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：104
4王鹏远,姬东鸿.基于多标签CRF的疾病名称抽取[J].计算机应用研究,2017,34(1):118-122. 被引量：10
5曹春萍,关鹏举.基于E-CNN和BLSTM-CRF的临床文本命名实体识别[J].计算机应用研究,2019,36(12):3748-3751. 被引量：16

二级参考文献152

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
2林东,邵军力.医学诊疗领域通用专家系统设计与实现[J].自动化学报,1995,21(3):380-382. 被引量：6
3中华人民共和国卫生部.电子病历基本规范(试行)[Online],available:http://www.gov.cn/zwgk/2010-03/04/content_1547432.htm,December27,2013. 被引量：1
4Wasserman R C. Electronic medical records (EMRs), epi- demiology, and epistemology: reflections on EMRs and fu- ture pediatric clinical research. Academic Pediatrics, 2011, 11(4): 280-287. 被引量：1
5Uzuner O, Mailoa J, Ryan R, Sibanda T. Semantic relations for problem-oriented medical records. Artificial Intelligence in Medicine, 2010, 50(2): 63-73. 被引量：1
6Demner-Fushman D, Chapman W W, McDonald C J. What can natural language processing do for clinical decision sup- port? Journal of Bioxnedical Informatics, 2009, 42(5): 760- 772. 被引量：1
7Eysenbach G. Recent advances: consumer health informat- ics. British Medical Journal, 2000, 320(7251): 1713-1716. 被引量：1
8Sager N, Friedman C, Lyman M S. Review of Medical lan- guage processing: computer management of narrative data. Computational Linguistics, 1989, 15(3): 195-198. 被引量：1
9National Institutes of Health. Research Repositories, Databases, and the HIPAA Privacy Rule [Online], available: http: / / privacyruleandresearch.nih.gov / pdf/r esearch-r eposit- ories_final.pdf, December 27, 2013. 被引量：1
10Uzuner O, Luo Y, Szolovits P. Evaluating the state-of-the- art in automatic de-identification. Journal of the American Medical lnformatics Association, 2007, 14(5): 550-563. 被引量：1

共引文献257

1周永称,范少萍,晏归来,安新颖.精准医学文本语料库构建研究[J].医学信息学杂志,2019,40(12):41-47. 被引量：4
2席新,李波,王骁勇,胡云苹.面向电子病历的医学术语规范化系统设计及实现[J].中国数字医学,2021,16(12):65-68. 被引量：6
3姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
4赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
5孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
6邢毅雪,朱永华,高海燕,周金,张克.基于注意力机制的远程监督实体关系抽取[J].上海大学学报（自然科学版）,2021,27(5):983-992. 被引量：5
7昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方.面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J].中文信息学报,2020,34(5):19-26. 被引量：17
8吴婷,李明扬,孔芳.基于同义推理的篇章级实体上下位关系语料库构建[J].中文信息学报,2020(4):38-46. 被引量：1
9昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方.中文症状知识库的建立与分析[J].中文信息学报,2020,34(4):30-37. 被引量：9
10吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9

同被引文献71

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：14
2李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：53
3周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
4张梅,郝佳,阎艳,李波.基于本体的知识建模技术[J].北京理工大学学报,2010,30(12):1405-1408. 被引量：22
5周永梅,陶红,陈姣姣,张再跃.自动问答系统中的句子相似度算法的研究[J].计算机技术与发展,2012,22(5):75-78. 被引量：18
6刘广平,刘波,滕轶.“智慧林业”时代的信息资源开发与利用探讨[J].林业资源管理,2013(6):33-36. 被引量：16
7裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：15
8欧阳林男,陈少雄,张维耀,何沙娥,刘学锋.柠檬桉在中国的适生地理分布及其影响因子[J].生态学杂志,2019,38(2):361-367. 被引量：10
9杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：124
10刘辉,刘耀.基于条件随机场的专利术语抽取[J].数字图书馆论坛,2014(12):46-49. 被引量：7

引证文献8

1赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
2郭军成,万刚,胡欣杰,魏展基.基于BERT的中文简历命名实体识别[J].计算机应用,2021,41(S01):15-19. 被引量：11
3胡世杰.基于神经网络的命名实体提取方法研究[J].信息与电脑,2021,33(24):36-38. 被引量：1
4孙甜,陈海涛,吕学强,游新冬.新能源专利文本术语抽取研究[J].小型微型计算机系统,2022,43(5):950-956. 被引量：2
5李灵芳,陈效成,李宝山,杜永兴,杨颜博.一种用于关系抽取的双层时空图卷积神经网络[J].内蒙古科技大学学报,2022,41(3):274-279.
6刘明鹏,王忠明,马文君.基于本体的造林树种知识图谱构建与应用[J].北京林业大学学报,2023,45(8):109-122. 被引量：1
7陈婕卿,竹志超,张锋,曾可,姜会珍,程振宁.中文电子病历命名实体识别方法研究[J].医学信息学杂志,2024,45(4):78-84.
8叶恩光,张晓如,张再跃,丁腊春,朱向南,王译.基于BERT和领域词典融合的中文电子病历命名实体识别[J].计算机与数字工程,2024,52(3):746-750.

二级引证文献16

1文辉,徐永林,于敬.基于主动学习的领域知识多模式抽取框架[J].新一代信息技术,2022,5(6):137-143.
2朱博文,李莲,姚建伟.迁移学习在医疗卫生领域中的应用[J].信息与电脑,2021,33(22):7-9.
3朱亚军,拥措.基于深度学习的藏文人名地名识别[J].信息与电脑,2022,34(5):66-68.
4徐春,李胜楠.融合BERT-WWM和指针网络的旅游知识图谱构建研究[J].计算机工程与应用,2022,58(12):280-288. 被引量：8
5陈鹏,蔡冰,何晓勇,金兆轩,金志刚,侯瑞.面向电力规章制度的命名实体识别[J].计算机系统应用,2022,31(6):210-216. 被引量：1
6傅源坤,柳先辉,赵卫东.基于BERT的智能制造装备命名实体识别方法[J].制造业自动化,2022,44(9):120-124. 被引量：1
7金璐钰,姚建民.面向事件抽取的汉语时间词识别与表示[J].数字技术与应用,2023,41(2):82-84.
8李嘉茜,张丽玮.面向专利文本的实体识别研究综述[J].信息系统工程,2023(2):120-122.
9朱红,牛浩然,朱彤.基于字词融合与对抗训练的行业人物实体识别[J].计算机工程,2023,49(5):56-62. 被引量：3
10高国忠,李宇,华远鹏,吴文旷.基于BERT-BiLSTM-CRF模型的油气领域命名实体识别[J].长江大学学报（自然科学版）,2024,21(1):57-65. 被引量：2

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：53
2黄石,林政.基于深度学习的古代汉语生成模型[J].电子技术与软件工程,2020(3):166-167.
3马月坤,刘鑫,裴嘉诚,秦帅波.基于BERT的中文关系抽取方法[J].计算机产品与流通,2019,0(12):251-251. 被引量：5
4陈玉娜,史晓东.通过标点恢复提高机器同传效果[J].计算机应用,2020,40(4):972-977. 被引量：1
5王赞超,冯一鸣,高帅华.基于MetaEdit+的eFFBD建模工具设计[J].电子测试,2020,31(6):66-68.
6程名,于红,冯艳红,任媛,付博,刘巨升,杨鹤.融合注意力机制和BiLSTM+CRF的渔业标准命名实体识别[J].大连海洋大学学报,2020,35(2):296-301. 被引量：17
7杨飘,董文永.基于BERT嵌入的中文命名实体识别方法[J].计算机工程,2020,46(4):40-45. 被引量：97
8陆江,朱道仙,赵学刚,刘莉.丁酸梭菌对慢性肾衰竭犬肠道菌群及血清小分子尿毒素含量的影响[J].动物营养学报,2020,32(4):1826-1835. 被引量：5

内蒙古科技大学学报

2020年第1期

浏览历史

内容加载中请稍等...

基于BERT的中文电子病历命名实体识别被引量：8

参考文献5

二级参考文献152

共引文献257

同被引文献71

引证文献8

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于BERT的中文电子病历命名实体识别 被引量：8

参考文献5

二级参考文献152

共引文献257

同被引文献71

引证文献8

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于BERT的中文电子病历命名实体识别被引量：8