基于知识库实体增强BERT模型的中文命名实体识别被引量：6

Chinese named entity recognition based on knowledge base entity enhanced BERT model

下载PDF

导出

摘要针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先,从中文通用百科知识库CN-DBPedia中下载文档并用Jieba中文分词抽取实体来扩充实体词典;然后,将词典中的实体嵌入到BERT中进行预训练,将训练得到的词向量输入到双向长短期记忆网络(BiLSTM)中提取特征;最后,经过条件随机场(CRF)修正后输出结果。在CLUENER 2020和MSRA数据集上进行模型验证,将所提模型分别与Entity Enhanced BERT Pre-training、BERT+BiLSTM、ERNIE和BiLSTM+CRF模型进行对比实验。实验结果表明,该模型的F1值在两个数据集上比四个对比模型分别提高了1.63个百分点和1.1个百分点、3.93个百分点和5.35个百分点、2.42个百分点和4.63个百分点以及6.79个百分点和7.55个百分点。可见,所提模型对命名实体识别的综合效果得到有效提升,F1值均优于对比模型。 Aiming at the problem that the pre-training model BERT(Bidirectional Encoder Representation from Transformers)lacks of vocabulary information,a Chinese named entity recognition model called OpenKG + Entity Enhanced BERT + CRF(Conditional Random Field)based on knowledge base entity enhanced BERT model was proposed on the basis of the semi-supervised entity enhanced minimum mean-square error pre-training model. Firstly,documents were downloaded from Chinese general encyclopedia knowledge base CN-DBPedia and entities were extracted by Jieba Chinese text segmentation to expand entity dictionary. Then,the entities in the dictionary were embedded into BERT for pre-training. And the word vectors obtained from the training were input into Bidirectional Long-Short-Term Memory network(BiLSTM)for feature extraction.Finally,the results were corrected by CRF and output. Model validation was performed on datasets CLUENER 2020 and MSRA,and the proposed model was compared with Entity Enhanced BERT pre-training,BERT+BiLSTM,ERNIE and BiLSTM+CRF models. Experimental results show that compared with these four models,the proposed model has the F1 score increased by 1. 63 percentage points and 1. 1 percentage points,3. 93 percentage points and 5. 35 percentage points,2. 42percentage points and 4. 63 percentage points,6. 79 and 7. 55 percentage points,respectively in the two datasets. It can be seen that the comprehensive effect of the proposed model on named entity recognition is effectively improved,and the F1 scores of the model are better than those of the comparison models.

作者胡婕胡燕刘梦赤张龑 HU Jie;HU Yan;LIU Mengchi;ZHANG Yan(School of Computer Science and Information Engineering,Hubei University,Wuhan Hubei 430062,China;School of Computer Science,South China Normal University,Guangzhou Guangdong 510631,China)

机构地区湖北大学计算机与信息工程学院华南师范大学计算机学院

出处《计算机应用》 CSCD 北大核心 2022年第9期2680-2685,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61977021) 广州市大数据与智能教育重点实验室资助项目(201905010009)。

关键词命名实体识别知识库实体词典预训练模型双向长短期记忆网络 Named Entity Recognition(NER) knowledge base entity dictionary pre-training model Bidirectional Long Short-Term Memory(BiLSTM)network

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李源,马磊,邵党国,袁梅宇,张名芳.用于社交媒体的中文命名实体识别[J].中文信息学报,2020,34(8):61-69. 被引量：8
2张毅,王爽胜,何彬,叶培明,李克强.基于BERT的初等数学文本命名实体识别方法[J].计算机应用,2022,42(2):433-439. 被引量：9
3李韧,李童,杨建喜,莫天金,蒋仕新,李东.基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别[J].中文信息学报,2021,35(4):83-91. 被引量：19

二级参考文献23

1肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：33
2张秋颖,傅洛伊,王新兵.基于BERT-BiLSTM-CRF的学者主页信息抽取[J].计算机应用研究,2020,37(S01):47-49. 被引量：14
3乐娟,赵玺.基于HMM的京剧机构命名实体识别算法[J].计算机工程,2013,39(6):266-271. 被引量：18
4奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：226
5杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：107
6程健一,关毅,何彬.基于SVM和CRF双层分类器的英文电子病历去隐私化[J].智能计算机与应用,2016,6(6):17-19. 被引量：9
7张海楠,伍大勇,刘悦,程学旗.基于深度神经网络的中文命名实体识别[J].中文信息学报,2017,31(4):28-35. 被引量：76
8贺拴海,赵祥模,马建,赵煜,宋焕生,宋宏勋,程磊,袁卓娅,黄福伟,张健,田斌,王路阳,戚秀真.公路桥梁检测及评价技术综述[J].中国公路学报,2017,30(11):63-80. 被引量：133
9李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(1):116-122. 被引量：124
10刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：151

共引文献33

1张明芳,余正涛,郭军军,高盛祥,线岩团.联合罪名预测的涉案新闻重叠实体关系抽取[J].南京理工大学学报,2021,45(1):46-55. 被引量：2
2崔丽平,古丽拉·阿东别克,王智悦.基于有向图模型的旅游领域命名实体识别[J].计算机工程,2022,48(2):306-313. 被引量：5
3陈柱辉,刘新,张明键,张达为.简要案情的命名实体识别技术[J].计算机系统应用,2022,31(1):47-54. 被引量：1
4李军怀,陈苗苗,王怀军,崔颖安,张爱华.基于ALBERT-BGRU-CRF的中文命名实体识别方法[J].计算机工程,2022,48(6):89-94. 被引量：12
5顾乾晖,徐力晨,涂振宇,黄逸翠.基于BERT-CRF与对抗训练的水利领域命名实体识别[J].南昌工程学院学报,2022,41(3):29-34. 被引量：4
6杨小霞,杨建喜,李韧,罗梦婷,蒋仕新,王桂平,杨一帆.桥梁检测领域知识图谱构建与知识问答方法[J].计算机应用,2022,42(S01):28-36. 被引量：7
7莫俊铭,郑成勇,戴紫灵.基于BERT模型的企业安全隐患排查[J].电子技术与软件工程,2022(14):225-228. 被引量：2
8林立涛,王东波,刘江峰,李斌,冯敏萱.数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):42-50. 被引量：11
9童昭,王露笛,朱小杰,杜一.基于预训练模型的军事领域命名实体识别研究[J].数据与计算发展前沿,2022,4(5):120-128. 被引量：6
10王宗泽,张吴波.完全自注意力融合多元卷积的中文命名实体识别研究[J].佳木斯大学学报（自然科学版）,2022,40(5):34-38. 被引量：1

同被引文献53

1肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：33
2李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：55
3曾江辉,曾凤章,陈嵩辉.马田系统与SVM相集成的模式识别技术研究[J].计算机工程与应用,2010,46(8):245-248. 被引量：4
4陈立玮,冯岩松,赵东岩.基于弱监督学习的海量网络数据关系抽取[J].计算机研究与发展,2013,50(9):1825-1835. 被引量：34
5杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：127
6郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(2):14-17. 被引量：87
7杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：107
8马敬东,梁力凡,夏晨曦.电子病历自由文本实体关系抽取[J].医学信息学杂志,2016,37(12):2-9. 被引量：6
9蒋友好.深度电子病历分析研究综述[J].电脑知识与技术,2018,14(5X):301-304. 被引量：1
10王斌,郭剑毅,线岩团,王红斌,余正涛.融合多特征的基于远程监督的中文领域实体关系抽取[J].模式识别与人工智能,2019,32(2):133-143. 被引量：11

引证文献6

1马永军,王野.基于LNBC模型的中文命名实体识别[J].天津科技大学学报,2023,38(2):50-55. 被引量：1
2吉旭瑞,魏德健,张俊忠,张帅,曹慧.中文电子病历信息提取方法研究综述[J].计算机工程与科学,2024,46(2):325-337. 被引量：1
3才让加措,拥措,拉毛东只,张英,周青.基于语义增强的藏医药命名实体识别研究[J].中国数字医学,2024,19(5):53-58.
4闫河,李尧,雷秋霞,王旭.一种结合词汇信息特征的中文命名实体识别方法[J].小型微型计算机系统,2024,45(7):1622-1628.
5孟伟伦,郭景峰,邢珂萱,魏宁,王巧梭,刘滨.基于字形特征的中文医学命名实体识别方法[J].电子学报,2024,52(6):1945-1954.
6杨竣辉,刘保冰.基于词汇增强和对抗训练的中文命名实体识别[J].计算机工程与设计,2024,45(12):3712-3718.

二级引证文献2

1宋煜,李可丰.基于Bert融合词汇的中文命名实体识别[J].上海第二工业大学学报,2024,41(2):203-207.
2甘伟男,夏小琴,欧阳小平,杨坚敏.基于层级参数变换的电子病历多任务信息提取[J].中国生物医学工程学报,2024,43(5):631-635.

1李冬梅,罗斯斯,张小平,许福.命名实体识别方法研究综述[J].计算机科学与探索,2022,16(9):1954-1968. 被引量：18
2梁兵涛,倪云峰.基于集成学习的中文命名实体识别方法[J].南京师大学报（自然科学版）,2022,45(3):123-131. 被引量：5
3孔丹.大循环为主,双循环共进的新发展格局[J].经济导刊,2021(2):20-24.
4徐关友,冯伟森.基于transformer的python命名实体识别模型[J].计算机应用,2022,42(9):2693-2700. 被引量：2
5方红,苏铭,冯一铂,张澜.结合gazetteers和句法依存树的中文命名实体识别[J].计算机工程与应用,2022,58(18):227-232. 被引量：1
6刘华玲,孙毅.基于实体识别和信息融合的知识图谱研究——以新冠肺炎疫情为例[J].计算机技术与发展,2022,32(9):107-113. 被引量：1
7王瑶,顾磊.基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点[J].软件导刊,2022,21(9):7-13. 被引量：2
8余诗媛,郭淑明,黄瑞阳,张建朋,胡楠.分层区域穷举的中文嵌套命名实体识别方法[J].计算机技术与发展,2022,32(9):161-166.
9Wen-Ming Wu,Xiao-Hui Yang,Yun-Mei Chen,Juan Zhang,Dan Long,Li-Jun Yang,Chen-Xi Tian.Layer-Wise Pre-Training Low-Rank NMF Model for Mammogram-Based Breast Tumor Classification[J].Journal of the Operations Research Society of China,2019,7(4):515-537. 被引量：1
10Carolina Crisci,Gonzalo Perera.Asymptotic Extremal Distribution for Non-Stationary, Strongly-Dependent Data[J].Advances in Pure Mathematics,2022,12(8):479-489.

计算机应用

2022年第9期

浏览历史

内容加载中请稍等...

基于知识库实体增强BERT模型的中文命名实体识别被引量：6

参考文献3

二级参考文献23

共引文献33

同被引文献53

引证文献6

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于知识库实体增强BERT模型的中文命名实体识别 被引量：6

参考文献3

二级参考文献23

共引文献33

同被引文献53

引证文献6

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于知识库实体增强BERT模型的中文命名实体识别被引量：6