基于多步聚类的汉语命名实体识别和歧义消解被引量：17

Chinese Named Entity Recognition and Disambiguation Based on Multi-stage Clustering

下载PDF

导出

摘要命名实体识别和歧义消解是自然语言理解的重要研究内容。针对提供实体知识库情况下的命名实体识别和歧义消解任务,该文提出了一种基于多步聚类的方法。首先通过两轮聚类将命名实体与知识库实体定义链接,然后通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于K-Means聚类的结果调整。在CLP-2012的汉语命名实体识别和歧义消解评测数据上的实验表明,该文的方法表现出良好的性能,在测试集上的F值高出评测参赛队伍最好水平6.46%,达到86.68%。 Named Entity Recognition and Disambiguation is an important research of Natural Language Understanding.For the task of Named Entity Recognition and Disambiguation in the situation of entity knowledge base provided,this paper presents a method based on multi-stage clustering.First,we link the document to the entity definition in the knowledge base by two rounds of clustering.Second,we group entities which don’t exist in the knowledge base by Hierarchical Agglomerative Clustering.Finally,we recognize ordinary words and adjust the results by KMeans Clustering.Our experiments on data of CLP-2012Chinese person name disambiguation task proves our system performs well.The F score on test data is 86.68%,exceeding the best result of the Bake-off by 6.46%.

作者李广一王厚峰

机构地区北京大学计算语言学教育部重点实验室北京大学计算语言学研究所

出处《中文信息学报》 CSCD 北大核心 2013年第5期29-34,42,共7页 Journal of Chinese Information Processing

基金国家社科基金重大资助项目(12&ZD227) 国家863计划资助项目(2012AA0111101) 国家自然科学基金资助项目(91024009)

关键词命名实体识别命名实体消歧聚类 named entity recognition name entity disambiguation clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17. 被引量：50
2J Artiles,j Gonzalo,S Sekine.The SemEval-2007 WePS evaluation:Establishing a Benchmark for the Web People Search Task[C]//Proceedings of SemEval '07 Proceedings of the 4th International Workshop on Semantic Evaluations,2007:64-69. 被引量：1
3J Artiles,J Gonzalo,S Sekine.WePS 2 Evaluation Campaign:Overview of the Web People Search Clustering Task[C]//Proceedings of 2nd Web People Search Evaluation Workshop,18th WWW Conference,2009. 被引量：1
4J Artiles,A Borthwick,J Gonzalo,et al.WePS-3 Evaluation Campaign:Overview of the Web People Search Clustering and Attribute Extraction Tasks[C]//Proceedings of Conference on Multilingual and Multimodal Information Access Evaluation (CLEF).2010. 被引量：1
5H Ji,R Grishman,H T.Dang,et al.An Overview of the TAC2010 Knowledge Base Population Track[C]//Proceedings of Text Analytics Conference (TAC2010). 被引量：1
6H Ji,R Grishman,H T Dang.An Overview of the TAC2011 Knowledge Base Population Track[C]//Proceedings of Text Analysis Conference (TAC2011). 被引量：1
7R Grishman,B Sundheim.Design of the MUC-6 evaluation[C]//Proceedings of 6th Message Understanding Conference,1995. 被引量：1
8J Sun,J Gao,L Zhang,et al.Chinese Named Entity Identification Using Class-based Language Model[C]//Proceedings of the 19 th International Conference on Computational Linguistics(COLING 2002):1-7. 被引量：1
9A Borthwick.A Maximum Entropy Approach to Named Entity Recognition[D].New York:New York University.1999. 被引量：1
10X Mao,Y Dong,S He,et al.Chinese Word Segmentation and Named Entity Recognition Based on Conditional Random Fields[C]//Proceedings of Sixth SIGHAN Workshop on Chinese Language Processing.2008:90-93. 被引量：1

二级参考文献76

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
2蒋龙,周明,简立峰.利用音译和网络挖掘翻译命名实体[J].中文信息学报,2007,21(1):23-29. 被引量：11
3NIST. The ACE 2007 (ACE07) Evaluation Plan: Evaluation of the Detection and Recognition of ACE Entities, Values, Temporal Expressions, Relations, and Events [EB/OL]. [-2007]. http://www, hist. gov/ speech/tests/ace/2OOT/doc/aceOT-evalplan, vl. 3a. pdf. 被引量：1
4Nancy A. Chinchor. Overview of MUC-7/MET-2[C]//Proceedings of the Seventh Message Under- standing Conference (MUC-7), Fairfax, Virginia, 1998. 被引量：1
5Gina Anne Levow. The Third International Chinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition[C]//Proceedings of the Fifth SigHAN Workshop on Chinese Language Processing, Sydney: Association for Computational Lin- guistics, 2006:108 117. 被引量：1
6A. Mikheev, C. Grover, Moens M. Description of the LTG System Used for MUC-7[C]//Proceedings of 7th Message Understanding Conference ( MUC-7 ), Fairfax, Virginia, 1998. 被引量：1
7863计划中文信息处理与智能人机接口技术评测组.2004年度863计划中文信息处理与智能人机交互技术评测:命名实体评测结果报告[R].北京:863计划中文信息处理与智能人机接口技术评测组,2004. 被引量：1
8Ralph Grishman, Beth Sundheim. Design of the MUC-6 evaluation [C]//Proceedings of 6th Message Under- standing Conference, Columbia, MD, 199S. 被引量：1
9G. R. Krupka, K. Hausman. IsoQuest. Inc.:Description of the NetOwl TM Extractor System as Used for MUC-7 [C]//Proceedings of the 7th Message Understanding Conference. (MUC-7), Fairfax, Virginia, 1998. 被引量：1
10W.J. Black, F. Rinaldi, D. Mowart. FACILE: Description of the NE System Used for MUC-7 [C]// Proceedings of the 7th Message Understanding Conference. (MUC-7), Fairfax, Virginia, 1998. 被引量：1

共引文献51

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
2姜丽婷,古丽拉·阿东别克,马雅静.基于混合卷积网络的短文本实体消歧[J].中文信息学报,2021,35(11):101-108. 被引量：3
3罗文华.非结构化数据处理分析在电子数据取证中的应用[J].警察技术,2010(3):42-45.
4李楠,郑荣廷,吉久明,滕青青.基于启发式规则的中文化学物质命名识别研究[J].现代图书情报技术,2010(5):13-17. 被引量：12
5赵军,刘康,周光有,蔡黎.开放式文本信息抽取[J].中文信息学报,2011,25(6):98-110. 被引量：62
6张俊三,瞿有利.信息检索中相关实体发现综述[J].计算机工程与设计,2011,32(12):4035-4038. 被引量：2
7李静,罗文华,林鸿飞.自然语言处理技术在网络案情分析系统中的应用[J].计算机工程与应用,2012,48(3):216-220. 被引量：5
8胡伟,柏文阳,瞿裕忠.语义Web中对象共指的消解研究[J].软件学报,2012,23(7):1729-1744. 被引量：7
9张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
10杜婧君,陆蓓,谌志群.基于中文维基百科的命名实体消歧方法[J].杭州电子科技大学学报（自然科学版）,2012,32(6):57-60. 被引量：3

同被引文献167

1张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：156
4周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
5罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36
6丁海波,肖桐,朱靖波.基于多阶段的中文人名消歧聚类技术的研究[C].见:第六届全国信息检索学术会(CCIR2010).2010:316—324. 被引量：3
7[OL].<http://www.ictclas.org.>. 被引量：2
8张榕,宋柔.基于互联网的汉语术语定义提取研究[C]//全国第八届计算语言学联合学术会议.北京:清华大学出版社.2005:428-434. 被引量：1
9Banerjee S,Pedersen T.An adapted Lesk algorithm for word sense disambiguation using WordNet[C]// Proceedings of the 3rd International Conference on Intelligent Text Processing and Computational Linguistics,Mexico City,2002:17-23. 被引量：1
10张刚,刘挺,卢志茂等.隐马尔可夫模型和HowNet在汉语词义标注中的应用[J].计算机应用研究,2004,10(增刊):67-69. 被引量：1

引证文献17

1于东,荀恩东.基于Word Embedding语义相似度的字母缩略术语消歧[J].中文信息学报,2014,28(5):51-59. 被引量：6
2郭喜跃,周琴,陈前军.基于CRF与规则的工程领域命名实体识别方法[J].软件导刊,2014,13(11):28-30. 被引量：2
3许华,刘茂福,姜丽,顾进广.基于语言规则的病症菌实体抽取[J].武汉大学学报（理学版）,2015,61(2):151-155. 被引量：8
4孙雪闵,李晓戈,周晓辉.信息抽取中地点归一化研究[J].软件导刊,2015,14(7):26-29.
5阳怡林,周杰,李弼程,席耀一.基于分步聚类的人名消歧算法[J].数据采集与处理,2016,31(1):213-222. 被引量：3
6珠杰,李天瑞,刘胜久.基于条件随机场的藏文人名识别技术研究[J].南京大学学报（自然科学版）,2016,52(2):289-299. 被引量：12
7周杰,李弼程,唐永旺.基于关键证据与E^2LSH的增量式人名聚类消歧方法[J].情报学报,2016,35(7):714-722. 被引量：6
8阳怡林,周杰,李弼程,李爱国.基于职业特征的人名消歧算法[J].信息工程大学学报,2016,17(5):548-554. 被引量：2
9甘蓉.中文分词交叉型歧义消解算法[J].西华大学学报（自然科学版）,2018,37(6):32-36. 被引量：2
10阳怡林,周杰,李弼程.基于聚类集成的人名消歧算法[J].计算机应用研究,2016,33(9):2716-2720. 被引量：6

二级引证文献88

1余传明,钟韵辞,林奥琛,安璐.基于网络表示学习的作者重名消歧研究[J].数据分析与知识发现,2020,4(2):48-59. 被引量：10
2李娜.基于条件随机场的方志古籍别名自动抽取模型构建[J].中文信息学报,2018,32(11):41-48. 被引量：28
3LEI Gang.Mixed Attributes Two-Stage-Clustering Entity Resolution[J].通讯和计算机（中英文版）,2015,12(6):297-302.
4唐共波,于东,荀恩东.基于知网义原词向量表示的无监督词义消歧方法[J].中文信息学报,2015,29(6):23-29. 被引量：14
5龚凡,王梦婕,阮彤,王昊奋,陆灏.电子病历文本症状自动识别方法[J].医学信息学杂志,2016,37(7):7-14. 被引量：6
6王瑞云,贾君枝.基于作品关系扩展的中文同名个人规范记录识别与聚簇研究[J].图书情报工作,2017,61(5):125-131. 被引量：1
7王桂平,赵康,许祥平.浅谈我国钎焊材料的专利分析[J].焊接技术,2017,46(2):54-57. 被引量：1
8王东波,吴毅,叶文豪,刘睿伦.多特征知识下的食品安全事件实体抽取研究[J].数据分析与知识发现,2017,1(3):54-61. 被引量：9
9阿迪来.艾合买提,冯向萍.基于条件随机场的维吾尔语音乐实体识别[J].智能计算机与应用,2017,7(2):59-62. 被引量：2
10郭喻栋,郭志刚,陈刚,魏晗.基于数据降维与精确欧氏局部敏感哈希的k近邻推荐方法[J].计算机应用,2017,37(9):2665-2670. 被引量：5

1杨克领.基于条件随机场的汉语命名实体识别[J].江西科学,2013,31(5):675-678.
2于亮.STEP-NC技术浅析[J].决策与信息（下旬）,2011(10):233-233.
3张玥杰,徐智婷,薛向阳.融合多特征的最大熵汉语命名实体识别模型[J].计算机研究与发展,2008,45(6):1004-1010. 被引量：32
4郭颂,朱叶.Web服务组合中异构数据的解决方案[J].信阳师范学院学报（自然科学版）,2012,25(2):258-261. 被引量：1
5黄丽霞,李俊红,刘立国,柳香.基于FPGA的可控ARM异常表设计实现[J].计算机工程与设计,2011,32(12):4010-4014.
6Prashanth Hirematada,吴炜（译）.MMOG开发系列讲座（七）——GNet的相关介绍[J].程序员（游戏创造）,2008(5):54-54.
7阳怡林,周杰,李弼程,席耀一.基于分步聚类的人名消歧算法[J].数据采集与处理,2016,31(1):213-222. 被引量：3
8王蓁蓁.基于测试结果调整语句出错概率方法[J].计算机工程与科学,2014,36(5):891-899.
9夏振海.SATWE程序参数选取及结果调整[J].黑龙江科技信息,2010(14):243-243.
10杨兴平.固定“动态调整”网卡[J].网管员世界,2007(3):98-99.

中文信息学报

2013年第5期

浏览历史

内容加载中请稍等...

基于多步聚类的汉语命名实体识别和歧义消解被引量：17

参考文献20

二级参考文献76

共引文献51

同被引文献167

引证文献17

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

基于多步聚类的汉语命名实体识别和歧义消解 被引量：17

参考文献20

二级参考文献76

共引文献51

同被引文献167

引证文献17

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

基于多步聚类的汉语命名实体识别和歧义消解被引量：17