期刊文献+

基于CRF和半监督学习的维吾尔文命名实体识别 被引量:13

A Semi-supervised Approach to Uyghur Named Entity Recognition Based on CRF
下载PDF
导出
摘要 目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。 Researches on Uyghur named entity recognition is currently focused on a single entity without using unsupervised semantic and structural information in un-annotated data.A Uyghur named entity recognition method based on semi-supervised learning is proposed in the framework of conditional random fields(CRF).The lexical features,dictionary features and unsupervised learning features based on word embedding are introduced and analyzed.The experimental results illustrate that the F-score of Uyghur named entity recognition reach 87.43%.
作者 王路路 艾山.吾买尔 买合木提.买买提 卡哈尔江.阿比的热西提 吐尔根.依布拉音 Wang Lulu;Aishan Wumaier;Maihemuti Maimaiti;Kahaerjiang Abiderexiti;Tuergen Yibulayin(College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;Xinjiang Laboratory of Multi-language Information Technology,Xinjiang University,Urumqi,Xinjiang 830046,China)
出处 《中文信息学报》 CSCD 北大核心 2018年第11期16-26,33,共12页 Journal of Chinese Information Processing
基金 国家973计划(2014CB340506) 国家自然科学基金(61462083 61262060 61662077 61331011) 新疆多语种信息技术实验室开放课题(2016D03023)
关键词 维吾尔文命名实体识别 条件随机场 半监督学习 Uyghur named entity recognition conditional random fields semi-supervised learning
  • 相关文献

参考文献12

二级参考文献107

共引文献171

同被引文献105

引证文献13

二级引证文献84

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部