期刊文献+

基于条件随机域和语义类的中文组块分析方法 被引量:5

Chinese chunking method based on conditional random fields and semantic classes
下载PDF
导出
摘要 为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词典中抽取的语义类特征应用到中文组块分析中,提高分析精度.实验表明,该方法取得了F值为92.77%的中文组块分析性能,实验进一步还表明了特征模板的选取和训练语料的规模对于分析性能的影响. To improve the accuracy of Chinese chunking and utilize the semantic information of words,a new Chinese chunking method is proposed based on conditional random fields and semantic classes.Through the analysis of Chinese chunking task and its sequential characteristics,conditional random fields that could incorporate various types of features were applied to overcome the label bias problem.Semantic features were utilized to improve the chunking performance.Experimental results show that the algorithm achieves impressive accuracy of 92.77% in terms of the F-score.A further experiment indicates the effects of feature template selection and training data′s scales on the aspect of chunking performance.
出处 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第7期135-139,共5页 Journal of Harbin Institute of Technology
基金 国家自然科学基金资助项目(60903083) 黑龙江省自然科学基金项目(F200936) 黑龙江省高等学校新世纪优秀人才基金资助项目(1155-ncet-008)
关键词 条件随机域 中文组块分析 特征模板 语义词典 conditional random fields Chinese chunking feature template semantic dictionary
  • 相关文献

参考文献4

二级参考文献39

  • 1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量:90
  • 2俞士汶.网上的基础语言信息资源[J].术语标准化与信息技术,2001(4):19-23. 被引量:2
  • 3俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述[J].语言文字应用,2001(3):21-26. 被引量:6
  • 4周强.汉语基本块描述体系[J].中文信息学报,2007,21(3):21-27. 被引量:25
  • 5周强 陈力为 等.一个人机互助的汉语语料库多级加工处理系统CCMP.计算语言学进展与应用[M].北京:清华大学出版社,1995.50. 被引量:1
  • 6Introduction to CoNLL 1999 Shared Task: NP braketing [OL]. http://www. cnts. ua. ac. be/conll99/. 被引量:1
  • 7Erik F. Tjong Kim Sang and Sabine Buchholz. Introduction to CoNLL-2000 Shared Task: Chunking [C]// Proeeedings of CoNLL 2000 and LLL 2000. Lisbon, Portugal, 2000: 127-132. 被引量:1
  • 8Sang T K and D jean H. Introduction to the CoNLL- 2001 Shared Task: Clause Identification [C]//Proc. of CoNLL 2001, Toulouse, France, 2001: p53-57. 被引量:1
  • 9Erik F. Tjong Kim Sang Introduction to the CoNLL-2002 Shared Task: Language Independent Named Entity Recognition[C]//Proc. of CoNLL-2002,2002. 被引量:1
  • 10Erik F. Tjong Kim Sang & Fien De Meulder Introduction to the CoNLL-2003 Shared Task: Language Independent Named Entity Recognition [ C]//Proc. of CoNLL-2003,2003. 被引量:1

共引文献85

同被引文献83

引证文献5

二级引证文献15

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部