基于深度表示的中医病历症状表型命名实体抽取研究被引量：20

Depth Representation-based Named Entity Extraction for Symptom Phenotype of TCM Medical Record

下载PDF

导出

摘要目的:命名实体识别在自然语言处理中是最基本的任务之一,本文通过应用深度表示的方法实现临床上的现病史数据的自动标识。方法:本文随机选取了10 426条现病史句子作为主要的文本研究对象,分别用词嵌入(word2vec)和网络结构特征(node2vec)两种构建向量的方法生成不同的词向量特征,再在基于条件随机场(Conditional Random Field,CRF)和结构化支持向量机(Structured Support Vector Machines,SSVM)的方法上进行十重交叉验证,计算并比较基于深度表示的症状表型命名实体抽取的性能。结果:传统的CRF算法的三个评价指标(准确率,召回率,F值)为(0.888 9,0.786 9,0.834 8);基于WENER方法下的CRF和SSVM的评价指标为(0.975 0,0.984 9,0.979 8)和(0.992 8,0.988 9,0.990 8);在GENER方法下基于词的CRF和SSVM算法的三个评价指标为(0.972 8,0.976 8,0.975 2)和(0.983 3,0.974 5,0.978 8);GENER方法下基于字的CRF和SSVM算法的评价指标为(0.927 8,0.862 8,0.887 9)和(0.943 7,0.946 8,0.941 3)。结论:深度表示的命名实体抽取算法性能要比传统的非深度表示的命名实体标识算法性能好。另外,通过比较深度表示的两种算法的性能后发现,无论是基于word2vec生成的词向量还是基于node2vec生成的词向量,SSVM模型算法性能均优于CRF算法的性能。 Named entity recognition is one of most basic tasks in natural language processing. In this paper, deeprepresentation-based method is applied to automatic identification of clinical data. First, 10,426 sentences about presenthistory were selected randomly as text training data. Then word2vec-based and node2vec-based deep representationmethods were used to construct low-dimensional word embedding. Based on word vectors of symptoms, we conductedconditional random field（CRF） and structured support vector machine（SSVM） to extract symptom named entity. Finally,the performance of different named entity extraction algorithms for TCM＇s symptom phenotype were compared with 10-fold cross validation. Three evaluation metrics： precision（P）, recall（R） and F1-score（F1） were considered. The results showed, compared with classic CRF algorithm（PR： 0.888 9; RE： 0.786 9; F1：0.834 8）, WENRE-based CRF（P： 0.975 0;R： 0.984 9; F1： 0.979 8）, WENRE-based SSVM（P： 0.992 8; R： 0.988 9; F1： 0.990 8）, word-based CRF under GENER（P：0.972 8; R：0.976 8; F1：0.975 2）, word-based SSVM under GENER（P： 0.983 3; R： 0.974 5; F1： 0.978 8）, character-based CRF under GENER（P： 0.927 8; R： 0.862 8; F1： 0.887 9）, character-based SSVM under GENER（P： 0.943 7; R：0.946 8; F1： 0.941 3）. In conclusion, compared with classic CRF algorithm, deep representation-based named entityextraction method of symptom phenotype has a better performance. For both word2vec-based and node2vec-based vectorrepresentation, SSVM algorithm has a better performance than CRF algorithm.

作者原旎卢克治袁玉虎舒梓心杨扩张润顺李晓东周雪忠 Yuan Ni;Lu Kezhi;Yuan Yuhu;Shu Zixin;Yang Kuo;Zhang Runshun;Li Xiaodong;Zhou Xuezhong(College of Computer Science and Information Technology Beifing Jiaotong University, Belting 100044, China;Hubei Hospital of Traditional Chinese Medicine, Wuhan 430061, China;Guang＇anmen Hospital, Chinese Academy of Chinese Medical Sciences, Beijing 100053, China)

机构地区北京交通大学计算机与信息技术学院湖北省中医院中国中医科学院广安门医院

出处《世界科学技术-中医药现代化》 CSCD 北大核心 2018年第3期355-362,共8页 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology

基金国家中医药管理局2015年度国家中医临床研究基地业务建设第二批科研专项(JDZX2015171):肝病回顾性病例表型信息抽取方法与分析研究负责人:周雪忠国家科技部国家重点研发计划项目(2017YFC1703506):中医药大数据挖掘研究与创新应用负责人:于剑

关键词条件随机场结构化支持向量机命名实体抽取中医病历 Conditional random field structured support vector machines named entity recognition deep representationtraditional Chinese medical reeordst

分类号 R33 [医药卫生—人体生理学]

引文网络
相关文献

参考文献4

1刘凯,周雪忠,于剑,张润顺.基于条件随机场的中医临床病历命名实体抽取[J].计算机工程,2014,40(9):312-316. 被引量：31
2王世昆,李绍滋,陈彤生.基于条件随机场的中医命名实体识别[J].厦门大学学报（自然科学版）,2009,48(3):359-364. 被引量：37
3袁玉虎,周雪忠,张润顺,李晓东.面向中医临床现病史文本的命名实体抽取方法研究[J].世界科学技术-中医药现代化,2017,19(1):70-77. 被引量：10
4胡俊锋,陈蓉,陈源,陈浩,于中华.一种松耦合的生物医学命名实体识别算法[J].计算机应用,2007,27(11):2866-2869. 被引量：2

二级参考文献36

1Burr Settles. Biomedical named entity recognition using conditional random fields and rich feature sets[C]//Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and Its Applications. Geneva, Switzerland ; COLING, 2004 : 104 -- 107. 被引量：1
2Hieuxuan. FlexCRFs, flexible conditional random fields [EB/OL]. http,//www, jaist, ae. jp. html. 被引量：1
3中国科学院计算技术研究所.汉语词法分析工具ICT-CLAS[EB/0L].http://www.nlp.org.cn/. 被引量：1
4Zhang Leo Maximum entropy modeling toolkit for python and C+ + [EB/OL]. 2007-07. http:Hhomepages, inf. ed. ac. uk/s0450736/maxent_toolkit, html. 被引量：1
5Chang Chihchung, Lin Chihjen. LIBSVM -- a library for support vector machines[EB/OL], http://www, csie.ntu. edu. tw/-cjlin/libsvm. 被引量：1
6[美]MANNING CD,[德]SCHUTZE H.统计自然语言处理基础[M].苑春法,李庆中,王昀,等译.北京:电子工业出版社,2005.335-338. 被引量：2
7ROSARIO B,HEARST M.Classifying semantic relations in bioscience text[C] // Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics.[S.l.]:Association for Computational Linguistics,2004:430-437. 被引量：1
8TAMAMES J.Text detective:BioAlma's gene annotation tool[J].BMC Bioinformatics,2005,6:S10. 被引量：1
9CIARAMITA M,GANGEMI A,RATSCH E,et al.Unsupervised learning of semantic relations between concepts of a molecular biology ontology[C]// IJCAI.Berlin:Morgan Kaufinann,2005:659-664. 被引量：1
10CHIANG J H,YU H C.MeKE:Discovering the functions of gene products from biomedical literature via sentence alignment[J].BMC Bioinformatics,2003,19(11):1417-1422. 被引量：1

共引文献63

1李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622. 被引量：1
2肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：33
3张妮楠,曹馨宇,林睿凡,王斌,史华新,周洪伟,谢琪.癫痫中医症状术语规范化研究[J].世界科学技术-中医药现代化,2020,22(5):1386-1391. 被引量：9
4刘龙航,赵铁军.融合知识的中文医疗实体识别模型[J].智能计算机与应用,2021,11(3):94-97.
5王世昆,李绍滋,陈彤生.基于条件随机场的中医命名实体识别[J].厦门大学学报（自然科学版）,2009,48(3):359-364. 被引量：37
6叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
7孟洪宇,孟庆刚.基于条件随机场的中医术语抽取方法及其应用探析[J].中华中医药学刊,2014,32(10):2334-2337. 被引量：7
8胡秧.一种基于条件随机场的专利功效标注方法[J].计算机光盘软件与应用,2014,17(16):115-117.
9栗伟,赵大哲,李博,彭新茗,刘积仁.CRF与规则相结合的医学病历实体识别[J].计算机应用研究,2015,32(4):1082-1086. 被引量：41
10孟洪宇,谢晴宇,常虹,孟庆刚.基于条件随机场的《伤寒论》中医术语自动识别[J].北京中医药大学学报,2015,38(9):587-590. 被引量：15

同被引文献270

1方碧陶.国家药品监督管理局印发《真实世界证据支持药物研发与审评的指导原则(试行)》[J].中医药管理杂志,2020,0(2):107-107. 被引量：18
2仲怿,茹晨雷,张伯礼,程翼宇.基于知识图谱的中药制药过程质量控制方法学研究[J].中国中药杂志,2019,44(24):5269-5276. 被引量：22
3程引,高文波,陈彦静,张治国.专利中药复方治疗骨质疏松症的用药规律分析[J].世界科学技术-中医药现代化,2021,23(9):3298-3306. 被引量：3
4屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：7
5王明强,张磊,崔一迪,陈欣然,李国正.利用Neo4j存储中医皮肤病“病-证-治”本体方法的研究[J].世界科学技术-中医药现代化,2020,22(8):2914-2921. 被引量：15
6肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：33
7罗粤铭,侯海晶,卢家言,李晓朋,翁衡,刘旭生,周薇,杨霓芝.基于知识图谱和专家访谈分析杨霓芝教授治疗糖尿病肾病用药规律[J].世界科学技术-中医药现代化,2020,22(5):1464-1471. 被引量：12
8程小恩,温川飙,许强,胡远樟,张小会.基于中医药人工智能技术探讨中医药大数据的典型特征[J].世界科学技术-中医药现代化,2020,22(4):1243-1248. 被引量：6
9李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：55
10崔晗,姚春海,宋艳丽,佘远遥,郎娜,陈少君,张天博,王晶晶.基于知识图谱中医药诊治特应性皮炎现状分析[J].辽宁中医杂志,2022,49(7):5-8. 被引量：5

引证文献20

1李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622. 被引量：1
2屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：7
3肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：33
4叶辉,卓奕荣,曹东,李敬华.基于深度学习的中文病历病史智能分类研究[J].中国数字医学,2019,14(3):41-43. 被引量：8
5依力达尔·依明.特定领域的命名实体识别方法的研究[J].电脑知识与技术,2020,16(8):208-210.
6高佳奕,刘震,杨涛,谢佳东,史话跃,董海艳,胡孔法.基于条件随机场的中医临床医案症状命名实体抽取研究[J].世界科学技术-中医药现代化,2020,22(6):1947-1954. 被引量：19
7刘双巧,周璐,李彩艳,袁慧敏,张异卓,李昱达,刘锦钢,郑丰杰,孙燕,李宇航.基于SentencePiece的中医学分词模型建模研究[J].世界中医药,2021,16(6):981-985. 被引量：1
8李易真,夏椰,张佳玮,张雨楠,赵磊,窦智丽,韩东燃.中医药大数据在真实世界中的应用现状研究进展[J].中华中医药杂志,2021,36(6):3471-3474. 被引量：10
9任燕春,赵瑛,王铁,许丹彤.基于新冠肺炎知识图谱的智能问答系统研究[J].内蒙古科技大学学报,2021,40(3):287-292. 被引量：7
10张雨琪,李宗友,王映辉,李敬华,于琦,朱玲,姜威,于彤.中医药知识图谱的构建与应用研究[J].世界中医药,2022,17(4):553-558. 被引量：12

二级引证文献142

1洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：4
2李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622. 被引量：1
3徐安迎,胡孔法,杨涛.基于Neo4j的肺癌中医诊疗知识图谱构建研究[J].世界科学技术-中医药现代化,2023,25(4):1456-1461. 被引量：10
4孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：6
5张硕,赵卓峰,刘晨.基于图卷积网络的产业领域科技服务资源命名实体识别[J].计算机与数字工程,2023,51(1):20-27.
6施华宇,刘敏超,辛海莉,李闯,张震江.利用深度学习技术构建药品包装识别系统方法研究[J].中国医院,2019,23(10):16-18. 被引量：2
7胡磊,肖明朝,王琦.人工智能在新冠肺炎咨询平台中的应用研究[J].中国数字医学,2020,15(5):87-88. 被引量：4
8吴骋,徐蕾,秦婴逸,何倩,王志勇.中文电子病历多层次信息抽取方法的探索[J].中国数字医学,2020,15(6):29-31. 被引量：5
9王天罡,李晓亮,张晓滨,蔡宏伟.基于预训练表征模型的自动ICD编码[J].中国数字医学,2020,15(7):53-56. 被引量：3
10夏向玲,雷磊,沈丹凤.基于深度卷积神经网络的异常心音识别算法[J].中国数字医学,2020,15(12):71-74. 被引量：1

1高尚.博尔赫斯的世界[J].世界文学,1986(6):299-303.
2卢倩雯,陶青川,赵娅琳,刘蔓霄.基于生成对抗网络的漫画草稿图简化[J].自动化学报,2018,44(5):840-854. 被引量：12
3王璐璐,张卓,刘一新.江苏省产学研合作创新网络结构特征及其优化策略[J].科技管理研究,2018,38(8):94-99. 被引量：21
4苏德位.初中语文多元化教学解析[J].东西南北（教育）,2018(2):225-225.
5蒋登科.与惯性对抗的胡弦[J].太湖,2018,0(3):10-12.
6程月.大数据资源中用户需求信息定向提取仿真[J].计算机仿真,2018,35(5):422-425. 被引量：4
7陈连亭.雷管激光自动标识控制系统的应用[J].建材与装饰,2018,14(10):331-331.
8程淑红,高许,周斌.基于多特征提取和SVM参数优化的车型识别[J].计量学报,2018,39(3):348-352. 被引量：19
9黄烨,陈兰英,李冶夫,朱蓬弟.醋酸棉酚——PVP固体分散体研究及体外杀精子活性的观察[J].药学学报,1985,22(12):918-922. 被引量：6
10化学学报征稿简约[J].化学学报,1966,44(2):201-201.

世界科学技术-中医药现代化

2018年第3期

浏览历史

内容加载中请稍等...

基于深度表示的中医病历症状表型命名实体抽取研究被引量：20

参考文献4

二级参考文献36

共引文献63

同被引文献270

引证文献20

二级引证文献142

相关作者

相关机构

相关主题

浏览历史

基于深度表示的中医病历症状表型命名实体抽取研究 被引量：20

参考文献4

二级参考文献36

共引文献63

同被引文献270

引证文献20

二级引证文献142

相关作者

相关机构

相关主题

浏览历史

基于深度表示的中医病历症状表型命名实体抽取研究被引量：20