基于多标签CRF的疾病名称抽取被引量：10

Multi-label CRF based method for disease extraction

下载PDF

导出

摘要生物医疗文本中的命名实体识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而其中一个基础工作是疾病名称的识别。医疗文本中存在大量的复合疾病名称,难以分离抽取出其中的实体。针对这一问题,提出一种基于多标签的条件随机场算法,首先对数据标注多层标签,每层标签针对复合疾病名称中的不同疾病,然后用整合后的最终标签去训练模型,最后再对模型预测的标签进行分离。此方法能够识别传统条件随机场算法无法识别的复合疾病名称,实验结果验证了所提算法的有效性。 Named entity recognition in medical text for building and digging large clinical database to serve the clinical decision is of great significance, and one of the important basic work is to be able to accurately identify the name of the disease. There are a large number of compound disease name in the medical texts. In order to solve this problem, this paper proposed a kind of CRF algorithm based on multi-label, first of all, it put muhilayer labels to the data, labels on each floor for different diseases, and then integrated into an end label to training model, finally, it isolated each layer label from the model predicts result, and then identified the diseases. This method can recognize composite disease name which cannot be identified by the traditional CRF algorithm. The experimental results verify the effectiveness of the proposed algorithm.

作者王鹏远姬东鸿

机构地区武汉大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2017年第1期118-122,共5页 Application Research of Computers

基金国家自然科学基金重点资助项目(61133012) 国家自然科学基金资助项目(61173062) 国家哲学社会科学重大计划招标项目(11&ZD189)

关键词命名实体识别条件随机场多标签医疗文本复合实体 named entity recognition conditional random fields multi-label medical text composite entity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献77

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：53
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3孔东林,罗向阳,邓崎皓,罗军勇.基于AC自动机匹配算法的入侵检测系统研究[J].微电子学与计算机,2005,22(3):89-92. 被引量：7
4张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：65
5衡中青,侯汉清.方志类古籍引书挖掘及其引书分析研究[J].中国索引,2008,6(2):22-29. 被引量：2
6胡文博,都云程,吕学强,施水才.基于多层条件随机场的中文命名实体识别[J].计算机工程与应用,2009,45(1):163-165. 被引量：25
7汪青青.先秦人名识别初探[J].文教资料,2009(18):202-204. 被引量：7
8衡中青,侯汉清.地方志中基于模式匹配的物产异名别称表达方式研究[J].图书馆理论与实践,2009(12):83-86. 被引量：3
9石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：69
10马创新,李斌.基于VC++的人工分词及词性标注辅助程序设计与实现[J].电脑编程技巧与维护,2011(1):12-14. 被引量：1

引证文献10

1王若佳,赵常煜,王继民.中文电子病历的分词及实体识别研究[J].图书情报工作,2019,63(2):34-42. 被引量：18
2李娜.基于条件随机场的方志古籍别名自动抽取模型构建[J].中文信息学报,2018,32(11):41-48. 被引量：28
3马孟铖,艾斯卡尔.艾木都拉,吐尔地.托合提.基于条件随机场多特征融合的中文地名、机构名实体识别[J].现代计算机,2019,25(12):13-17. 被引量：5
4尚小溥,许吴环,赵红梅,张润彤,朱燊.中文超声文本结构化与知识网络构建方法研究[J].图书情报工作,2019,63(16):112-120. 被引量：3
5王若佳,魏思仪,王继民.BiLSTM-CRF模型在中文电子病历命名实体识别中的应用研究[J].文献与数据学报,2019,1(2):53-66. 被引量：18
6曹春萍,关鹏举.基于E-CNN和BLSTM-CRF的临床文本命名实体识别[J].计算机应用研究,2019,36(12):3748-3751. 被引量：16
7杨晓辉,毕雪华,张琳琳,高颖.基于多任务的中文电子病历中命名实体识别研究[J].东北师大学报（自然科学版）,2020,52(1):81-87. 被引量：5
8李灵芳,杨佳琦,李宝山,杜永兴,胡伟健.基于BERT的中文电子病历命名实体识别[J].内蒙古科技大学学报,2020,39(1):71-77. 被引量：8
9王栋,李业刚,张晓,蒲相忠.基于准循环神经网络的中文命名实体识别[J].计算机工程与设计,2020,41(7):2038-2043. 被引量：11
10申晖,张英俊,谢斌红,赵红燕.基于BSTTC模型的中文命名实体识别[J].计算机系统应用,2021,30(6):262-270. 被引量：3

二级引证文献109

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
3赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
4屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：6
5张秋颖,傅洛伊,王新兵.基于BERT-BiLSTM-CRF的学者主页信息抽取[J].计算机应用研究,2020,37(S01):47-49. 被引量：13
6黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评[J].图书情报工作,2019,63(22):5-12. 被引量：15
7李灵芳,杨佳琦,李宝山,杜永兴,胡伟健.基于BERT的中文电子病历命名实体识别[J].内蒙古科技大学学报,2020,39(1):71-77. 被引量：8
8刘云.新媒体视域下我国生态文明传播的嬗变与策略[J].南京林业大学学报（人文社会科学版）,2020,20(2):102-112. 被引量：17
9李嘉敏,李娜(指导)."4P"视角下电商"网红品牌"营销模式研究[J].艺术科技,2020,33(8):17-20. 被引量：12
10王卫池.沉浸式体验和H5产品绿色传播的劝说艺术研究[J].艺术科技,2020,33(9):70-73. 被引量：10

1苏娅,刘杰,黄亚楼.在线医疗文本中的实体识别研究[J].北京大学学报（自然科学版）,2016,52(1):1-9. 被引量：16
2魏加中.VX非本位数据处理功能在模具行业的应用[J].机械工人（冷加工）,2003(6):86-87.
3杨舟,岳亮,卓林,赵朋朋,崔志明.一种基于领域本体的Deep Web数据自动标注方法[J].苏州大学学报（工科版）,2011,31(4):11-15.
4基于稀疏表示的半监督学习新方法及应用研究[J].中国科技成果,2017,0(4):15-16.
5袁凌云,王兴超.语义技术在物联网中的应用研究综述[J].计算机科学,2014,41(S1):239-246. 被引量：6
6付阶辉,赵林度.数据挖掘技术在HIS中的应用[J].东南大学学报（哲学社会科学版）,2002,4(S2):80-84. 被引量：14
7许华,刘茂福,姜丽,顾进广.基于语言规则的病症菌实体抽取[J].武汉大学学报（理学版）,2015,61(2):151-155. 被引量：8
8常勇,王亮,姚增利,袁方.基于领域知识和决策树的Deep Web数据标注[J].广西师范大学学报（自然科学版）,2009,27(1):129-132. 被引量：1
9闫宝华.信息管理系统中实体bean问题之解决方案研究[J].网络安全技术与应用,2011(1):44-47.
10李明,李秀兰.基于结果模式的Deep Web数据标注方法[J].计算机应用,2011,31(7):1733-1736. 被引量：2

计算机应用研究

2017年第1期

浏览历史

内容加载中请稍等...

基于多标签CRF的疾病名称抽取被引量：10

同被引文献77

引证文献10

二级引证文献109

相关作者

相关机构

相关主题

浏览历史

基于多标签CRF的疾病名称抽取 被引量：10

同被引文献77

引证文献10

二级引证文献109

相关作者

相关机构

相关主题

浏览历史

基于多标签CRF的疾病名称抽取被引量：10