基于自学习的汉语开放域命名实体边界识别

Chinese Open-domain Named Entity Boundary Identification based on A Self-Training Method

下载PDF

导出

摘要命名实体识别是自然语言处理领域的一个重要任务,为许多上层应用提供支持。本文主要研究汉语开放域命名实体边界的识别。由于目前该任务尚缺乏训练语料,而人工标注语料的代价又太大,本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。实验结果表明自学习的方法可以提高边界识别的准确率和召回率。 Named entity recognition is an important task in the domain of Natural Language Processing, which plays an important role in many applications. This paper focuses on the boundary identification of Chinese open - domain named entities. Because the shortage of training data and the huge cost of manual annotation, the paper proposes a self - training approach to identify the boundaries of Chinese open - domain named entities in context. Due to the lack of training data, the paper firstly generates a large scale Chinese proper noun corpus based on parallel corpora, and also transforms a Chinese dependency tree bank to a noun compound training corpus. Subsequently, the paper proposes a self - training - based approach to combine the two corpora and train a model to identify boundaries of named entities. The experiments show the proposed method can take full advantage of the two corpora and improve the performance of named entity boundary identification.

作者付瑞吉秦兵刘挺

机构地区哈尔滨工业大学计算机科学与技术学院

出处《智能计算机与应用》 2014年第4期1-4,8,共5页 Intelligent Computer and Applications

基金国家自然科学基金(61133012 61273321) 国家高技术研究发展计划(863)前沿技术研究项目(2012AA011102)

关键词开放域命名实体识别自学习训练语料融合 Open- domain Named Entity Recognition Self- training Training Corpus Combination

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1赵军,黄昌宁.汉语基本名词短语结构分析模型[J].计算机学报,1999,22(2):141-146. 被引量：28

二级参考文献1

1赵　军，博士学位论文，1998年被引量：1

共引文献27

1刘云,俞士汶.“句管控”与中文信息处理[J].汉语学报,2004(2):56-62. 被引量：5
2张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
3奚建清,罗强.基于HMM的汉语介词短语自动识别研究[J].计算机工程,2007,33(3):172-173. 被引量：9
4徐艳华.基于语料库的基本名词短语研究[J].语言文字应用,2008(1):120-125. 被引量：5
5何亮,戴新宇,周俊生,陈家骏.中心词驱动的汉语统计句法分析模型的改进[J].中文信息学报,2008,22(4):3-9. 被引量：3
6袁里驰.基于依存关系的句法分析统计模型[J].中南大学学报（自然科学版）,2009,40(6):1630-1635. 被引量：12
7李双红,李茹,钟立军,郭伟昱.基于多词块的框架元素语义核心词自动识别研究[J].中文信息学报,2010,24(1):30-36. 被引量：4
8袁里驰.基于词聚类的依存句法分析[J].中南大学学报（自然科学版）,2011,42(7):2023-2027. 被引量：10
9袁里驰.基于配价结构的词汇化句法分析模型[J].中南大学学报（自然科学版）,2012,43(5):1808-1813. 被引量：2
10袁里驰.融合语言知识的统计句法分析[J].中南大学学报（自然科学版）,2012,43(3):986-991. 被引量：5

1吕学强,仵永栩,周强,刘殷.异源语料融合研究[J].中文信息学报,2016,30(5):160-168.
2孟凡东,徐金安,姜文斌,刘群.异种语料融合方法:基于统计的中文词法分析应用[J].中文信息学报,2012,26(2):3-7. 被引量：5
3葛建新,董金祥.基于交线存储的快速实体边界生成算法[J].计算机辅助设计与图形学学报,1995,7(2):87-90.
4刘海涛,赵怿怡.基于树库的汉语依存句法分析[J].模式识别与人工智能,2009,22(1):17-21. 被引量：4
5何鑫,王李管.一种基于八叉树的地质体三维网格剖分方法[J].金属矿山,2008,37(11):66-70. 被引量：6
6高松,冯志伟.基于依存树库的文本聚类研究[J].中文信息学报,2011,25(3):59-63. 被引量：3
7程健一,关毅,何彬.基于SVM和CRF双层分类器的英文电子病历去隐私化[J].智能计算机与应用,2016,6(6):17-19. 被引量：9
8张霄军,陈小荷.双语平行语料的预处理[J].外语教育,2007(1):145-149. 被引量：1
9苏劲松,董槐林,陈毅东,史晓东,吴清强.引入基于主题复述知识的统计机器翻译模型[J].浙江大学学报（工学版）,2014,48(10):1843-1849. 被引量：1
10周强,赵颖泽.汉语功能块自动分析[J].中文信息学报,2007,21(5):18-24. 被引量：13

智能计算机与应用

2014年第4期

浏览历史

内容加载中请稍等...

基于自学习的汉语开放域命名实体边界识别

参考文献1

二级参考文献1

共引文献27

相关作者

相关机构

相关主题

浏览历史