基于CRF和半监督学习的维吾尔文命名实体识别被引量：13

A Semi-supervised Approach to Uyghur Named Entity Recognition Based on CRF

下载PDF

导出

摘要目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。 Researches on Uyghur named entity recognition is currently focused on a single entity without using unsupervised semantic and structural information in un-annotated data.A Uyghur named entity recognition method based on semi-supervised learning is proposed in the framework of conditional random fields(CRF).The lexical features,dictionary features and unsupervised learning features based on word embedding are introduced and analyzed.The experimental results illustrate that the F-score of Uyghur named entity recognition reach 87.43%.

作者王路路艾山.吾买尔买合木提.买买提卡哈尔江.阿比的热西提吐尔根.依布拉音 Wang Lulu;Aishan Wumaier;Maihemuti Maimaiti;Kahaerjiang Abiderexiti;Tuergen Yibulayin(College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;Xinjiang Laboratory of Multi-language Information Technology,Xinjiang University,Urumqi,Xinjiang 830046,China)

机构地区新疆大学信息科学与工程学院新疆大学新疆多语种信息技术实验室

出处《中文信息学报》 CSCD 北大核心 2018年第11期16-26,33,共12页 Journal of Chinese Information Processing

基金国家973计划(2014CB340506) 国家自然科学基金(61462083 61262060 61662077 61331011) 新疆多语种信息技术实验室开放课题(2016D03023)

关键词维吾尔文命名实体识别条件随机场半监督学习 Uyghur named entity recognition conditional random fields semi-supervised learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1加日拉·买买提热衣木,吐尔根·依布拉音,艾山·吾买尔.基于统计和规则混合策略的维吾尔人名识别研究[J].新疆大学学报（自然科学版）,2014,31(3):319-324. 被引量：8
2塔什甫拉提.尼扎木丁,汪昆,艾斯卡尔.艾木都拉,帕力旦.吐尔逊.统计与规则相结合的维吾尔语人名识别方法[J].自动化学报,2017,43(4):653-664. 被引量：9
3木合塔尔.艾尔肯,艾斯卡尔.艾木都拉,地里木拉提.吐尔逊.基于规则的维吾尔地名识别[J].通信技术,2013,46(7):103-105. 被引量：9
4买合木提.买买提,卡哈尔江.阿比的热西提,艾山.吾买尔,吐尔根.依布拉音,王路路.CRF与规则相结合的维吾尔文地名识别研究[J].中文信息学报,2017,31(6):110-118. 被引量：9
5麦合甫热提,米日姑.肉孜,麦热哈巴.艾力,吐尔根.依布拉音.基于语法语义知识的维吾尔文机构名识别[J].计算机工程与设计,2014,35(8):2944-2948. 被引量：7
6闫丹辉,毕玉德.基于规则的越南语命名实体识别研究[J].中文信息学报,2014,28(5):198-205. 被引量：15
7张玥杰,徐智婷,薛向阳.融合多特征的最大熵汉语命名实体识别模型[J].计算机研究与发展,2008,45(6):1004-1010. 被引量：32
8陈霄..基于支持向量机的中文组织机构名识别[D].上海交通大学,2007:
9孙晓,孙重远,任福继.基于深层条件随机场的生物医学命名实体识别[J].模式识别与人工智能,2016,29(11):997-1008. 被引量：18
10鲁亚楠,孙锐,姬东鸿.基于位置敏感Embedding的中文命名实体识别[J].计算机应用研究,2017,34(2):365-368. 被引量：3

二级参考文献107

1张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
2王华,丁晓青,哈力木拉提.多字体多字号印刷维吾尔文字符识别[J].清华大学学报（自然科学版）,2004,44(7):946-949. 被引量：18
3缪成,袁保社,吾守尔.斯拉木,李莉.维、哈、柯、汉、英多文种处理平台的设计与实现[J].计算机工程,2004,30(10):71-73. 被引量：20
4欧邦才.基于BP神经网络的经济预测方法[J].南京工程学院学报（自然科学版）,2004,2(2):11-14. 被引量：31
5古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
6力提甫.托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报（哲学社会科学版）,2004,31(5):108-113. 被引量：14
7哈力木拉提,阿孜古丽.多字体印刷维吾尔文字符识别系统的研究与开发[J].计算机学报,2004,27(11):1480-1484. 被引量：36
8陈瑜.维吾尔族人名结构分析[J].语言与翻译,2000(4):34-36. 被引量：2
9罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
10玉素甫.艾白都拉,阿布都热依木.沙力.现代维语语料库的词类标注研究[J].民族语文,2005(4):63-66. 被引量：7

共引文献171

1高原,施元磊,张蕾,曹天奕,冯筠.基于游记文本的游客游览行程重构[J].数据分析与知识发现,2020,4(2):165-172. 被引量：5
2步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
3成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
4王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.
5许晓丽,卢志茂,张格森.基于条件随机场的中文命名实体识别研究[J].中国新技术新产品,2009(2):15-15. 被引量：3
6刘鹏博,车海燕,陈伟.知识抽取技术综述[J].计算机应用研究,2010,27(9):3222-3226. 被引量：15
7滕青青,吉久明,郑荣廷,李楠.基于文献的中文命名实体识别算法适用性分析研究[J].情报杂志,2010,29(9):157-161. 被引量：9
8李丽双,党延忠,李丹.基于修正SVM-KNN组合算法的汉语专有名词自动抽取[J].情报学报,2011,30(6):610-617. 被引量：2
9刘重来.论卢作孚“乡村现代化”思想[J].西南师范大学学报（人文社会科学版）,2000,26(2):134-139. 被引量：6
10高巍,万廷彬.甜菜碱对商品产蛋鸡生产性能的影响[J].中国禽业导刊,2000,17(6):16-17. 被引量：1

同被引文献105

1肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：31
2李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：53
3王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
4林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
5张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
6向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
7吴云芳.并列成分中心语语义相似性考察[J].当代语言学,2005,7(4):305-315. 被引量：15
8俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：156
9李丽双,黄德根,陈春荣,杨元生.基于支持向量机的中文文本中地名识别[J].大连理工大学学报,2007,47(3):433-438. 被引量：16
10陈霄,刘慧,陈玉泉.基于支持向量机方法的中文组织机构名的识别[J].计算机应用研究,2008,25(2):362-364. 被引量：19

引证文献13

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2王健,郑七凡,李超,石晶.基于ENCODER_ATT机制的远程监督关系抽取[J].广西师范大学学报（自然科学版）,2019,37(4):53-60.
3刘宇鹏,栗冬冬.基于BLSTM-CNN-CRF的中文命名实体识别方法[J].哈尔滨理工大学学报,2020,25(1):115-120. 被引量：19
4董瑞,杨雅婷,蒋同海.融合多种语言学特征的维吾尔语神经网络命名实体识别[J].计算机应用与软件,2020,37(5):183-188. 被引量：4
5王欢,朱文球,吴岳忠,何频捷,万烂军.基于数控机床设备故障领域的命名实体识别[J].工程科学学报,2020,42(4):476-482. 被引量：12
6郭晓然,王维兰,罗平.汉译藏传佛教典籍中的神灵命名实体识别方法研究[J].高原科学研究,2020,4(4):87-94. 被引量：1
7郭晓然,罗平,王维兰.基于Transformer编码器的中文命名实体识别[J].吉林大学学报（工学版）,2021,51(3):989-995. 被引量：14
8杨丹,邵玉斌,张海玲,龙华,杜庆治.融合多特征的半监督并列结构识别[J].小型微型计算机系统,2021,42(9):1818-1825. 被引量：2
9廖涛,勾艳杰,张顺香.融合注意力机制的BERT-BiLSTM-CRF中文命名实体识别[J].阜阳师范大学学报（自然科学版）,2021,38(3):86-91. 被引量：6
10李冬梅,罗斯斯,张小平,许福.命名实体识别方法研究综述[J].计算机科学与探索,2022,16(9):1954-1968. 被引量：16

二级引证文献84

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2李健,张凤江.数控机床电气设备故障的维修与保养分析[J].中国金属通报,2020(12):81-82.
3阎志刚,李成城,林民.融合知识图谱信息的命名实体识别方法[J].山西师范大学学报（自然科学版）,2021,35(1):51-58. 被引量：1
4陈雄,李昕昕,李碧君,陈磊辉,吴焱.基于大数据和BiLSTM+CRF的网络空间安全领域命名实体识别研究[J].信息与电脑,2021,33(4):134-136.
5王卫红,吕红燕,曹玉辉,霍峥.基于BERT的混合神经网络实体识别方法[J].计算机技术与发展,2021,31(8):100-105. 被引量：1
6沈宙锋,苏前敏,郭晶磊.基于XLNet-BiLSTM的中文电子病历命名实体识别方法[J].智能计算机与应用,2021,11(8):97-102. 被引量：6
7储德平,万波,李红,方芳,王润.基于ELMO-CNN-BiLSTM-CRF模型的地质实体识别[J].地球科学,2021,46(8):3039-3048. 被引量：19
8廖涛,勾艳杰,张顺香.融合注意力机制的BERT-BiLSTM-CRF中文命名实体识别[J].阜阳师范大学学报（自然科学版）,2021,38(3):86-91. 被引量：6
9徐会芳,张中浩,谈元鹏,韩富佳.面向电网调度领域的实体识别技术[J].电力建设,2021,42(10):71-77. 被引量：8
10杨洁.一种快速阴影标注方法研究[J].自动化应用,2021(6):75-77.

1桑杰端珠,才让加.神经网络藏文分词方法研究[J].青海科技,2018,25(6):15-21. 被引量：6
2钟忺,王灿,卢炎生,钟珞.基于ISA网络的视频人体行为分类识别[J].华中科技大学学报（自然科学版）,2019,47(2):103-108. 被引量：3
3马志俊,金立民,王先荣.海昆肾喜胶囊对慢性肾衰竭大鼠肾功能的保护作用[J].西部医学,2019,31(2):198-202. 被引量：16
4陈世梅,伍星,唐凡.基于BiLSTM-CRF模型的汉语否定信息识别[J].中文信息学报,2018,32(11):55-61. 被引量：2
5侯雷静,郭婷婷,孙燕,齐英杰,应冬文,唐闽,颜永红.面向心音分割的个性化高斯混合建模方法[J].声学学报,2019,44(1):20-27. 被引量：7
6冯雪.中文分词模型词典融入方法比较[J].计算机应用研究,2019,36(1):8-10. 被引量：6
7郭婷婷,刘嘉勇.基于多特征的信息安全事件语料标注方法[J].现代计算机,2019,25(5):27-32.
8孙成,孔芳.基于转移的中文篇章结构解析研究[J].中文信息学报,2018,32(12):48-56. 被引量：5
9林广和,张绍武,林鸿飞.基于细粒度词表示的命名实体识别研究[J].中文信息学报,2018,32(11):62-71. 被引量：15

中文信息学报

2018年第11期

浏览历史

内容加载中请稍等...

基于CRF和半监督学习的维吾尔文命名实体识别被引量：13

参考文献12

二级参考文献107

共引文献171

同被引文献105

引证文献13

二级引证文献84

相关作者

相关机构

相关主题

浏览历史

基于CRF和半监督学习的维吾尔文命名实体识别 被引量：13

参考文献12

二级参考文献107

共引文献171

同被引文献105

引证文献13

二级引证文献84

相关作者

相关机构

相关主题

浏览历史

基于CRF和半监督学习的维吾尔文命名实体识别被引量：13