摘要
目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。
Researches on Uyghur named entity recognition is currently focused on a single entity without using unsupervised semantic and structural information in un-annotated data.A Uyghur named entity recognition method based on semi-supervised learning is proposed in the framework of conditional random fields(CRF).The lexical features,dictionary features and unsupervised learning features based on word embedding are introduced and analyzed.The experimental results illustrate that the F-score of Uyghur named entity recognition reach 87.43%.
作者
王路路
艾山.吾买尔
买合木提.买买提
卡哈尔江.阿比的热西提
吐尔根.依布拉音
Wang Lulu;Aishan Wumaier;Maihemuti Maimaiti;Kahaerjiang Abiderexiti;Tuergen Yibulayin(College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;Xinjiang Laboratory of Multi-language Information Technology,Xinjiang University,Urumqi,Xinjiang 830046,China)
出处
《中文信息学报》
CSCD
北大核心
2018年第11期16-26,33,共12页
Journal of Chinese Information Processing
基金
国家973计划(2014CB340506)
国家自然科学基金(61462083
61262060
61662077
61331011)
新疆多语种信息技术实验室开放课题(2016D03023)
关键词
维吾尔文命名实体识别
条件随机场
半监督学习
Uyghur named entity recognition
conditional random fields
semi-supervised learning