期刊文献+

基于HMM的哈萨克语词性标注研究 被引量:3

RESEARCH ON KAZAKH PART-OF-SPEECH TAGGING BASED ON HIDDEN MARKOV MODELS
下载PDF
导出
摘要 词性标注在自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等自然语言处理的基础,对于哈萨克语同样如此。在基于词典静态标注的基础上分析了隐马尔科夫模型HMM(H idden M arkovModel)模型参数的选取、数据平滑以及未登录词的处理方法,利用基于统计的方法对哈萨克语熟语料进行训练,然后用V iterb i算法实现词性标注。实验结果表明利用HMM进行词性标注的准确率有所提高。 Part-of-speech(POS) tagging plays a key role in natural language information processing.It is the basis of natural language processing including syntactic parsing,information retrieval,and machine translation,etc.,and the same for Kazak as well.In the thesis we analyse the selection of HMM model parameters,data smoothing and the processing approach for new words based on static tagging on dictionary,and use statistics-based means to train mature Kazak corps;then we adopt the Viterbi algorithm to implement part-of-speech tagging.Experimental results show that the preciseness of POS tagging is improved with the use of HMM.
出处 《计算机应用与软件》 CSCD 北大核心 2012年第2期31-33,共3页 Computer Applications and Software
基金 国家自然科学基金(60763005) 国家教育部 国家语委民族语言文字规范标准建设及信息化科研项目(MZ115-92)
关键词 隐马尔科夫模型 哈萨克语 词性标注 自然语言处理 Hidden Markov model Kazak Part-of-speech tagging Natural language processing
  • 相关文献

参考文献8

二级参考文献28

  • 1梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量:25
  • 2温锐,朱巧明,李培峰.HMM和负反馈模型在词性标注中的应用[J].苏州大学学报(自然科学版),2005,21(3):39-42. 被引量:5
  • 3陈晓文.自动词性标注方法的比较[J].温州大学学报,2006,19(1):53-57. 被引量:4
  • 4刘开瑛 等.语料库词类自动标注算法研究[A].陈肇雄.机器翻译研究进展[C].北京:电子工业出版社,1992.378—386. 被引量:1
  • 5周强 俞士汶.一种切分和词性标注相融合的汉语语料库多级处理方法[A].陈力为.计算语言学研究与应用[C].北京:北京语言学院出版社,1993.126—131. 被引量:1
  • 6白栓虎 黄昌宁 夏莹.基于统计的汉语语料库词性自动标注的研究与实现[A].黄昌宁,夏莹.语言信息处理专论[C].北京:清华大学出版社,.. 被引量:1
  • 7詹卫东.词汇分析(二)从词串到词性标记串[EB/OL].[2007].http://ccl.pku.edu.cn. 被引量:1
  • 8刘群.计算语言学(词法分析Ⅱ).[EB/OL].[2007].http://www.nip.org.cn. 被引量:1
  • 9Jelinek, F.. Self-organized language modeling for speech recognition. Readings in Speech Recognition[C], A. Waibel and K. F. Lee, eds., Morgan-Kaufmann, San Mateo, CA, 1990, 450-506. 被引量:1
  • 10Miller, D., Leek, T., and Schwartz, R. M.. A hidden Markov model information retrieval system.Proc. 22nd International Conference on Research and Development in Information Retrieval[C], Berkeley, CA, 1999, 214-221. 被引量:1

共引文献41

同被引文献29

  • 1林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量:48
  • 2周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量:112
  • 3周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量:35
  • 4周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量:21
  • 5Marcinczuk M, Piasecki M. Study on named entity recognition for polish based on hidden Markov models [ C ]//Proceedings of Text, Speech and Dialogue-13th International Conference ( TSD 2010 ) ,2010 : 142 - 149. 被引量:1
  • 6Martens D,Baesens B,et al. Decompositional rule extraction from sup- port vector machines by active learning[ J]. Knowledge and Data Engi- neering,2008,21 (2) :178 - 191. 被引量:1
  • 7Nianwen Xue,Fu Dong Chiou,Martha Palmer.Building a Large-Scale Annotated Chinese Corpus[C]//Proc.of 19th International Conference on Computational Linguistics(COLING-02),Taiwan,2002:1-7. 被引量:1
  • 8Chu Ren Huang,Feng Yi Chen,Zhao ming Gao,et al.Sinica Treebank:design criteria,annotation guidelines,and on-line interface[C]//Proceedings of the Second Workshop Chinese Language Processing,Hong Kong,2000:29-37. 被引量:1
  • 9Wojciech Skut,Thorsten Brants,Brigitte Krenn,et al.A linguistically interpreted corpus of German Newspaper text[C]//Proceedings of the Conference on Language Resources and Evaluation LREC-98.Granade,Spain,1998:705-711. 被引量:1
  • 10Sabine Brants,Silvia Hansen.Developments in the TIGER annotation scheme and their realization in the corpus[C]//Proceedings of the Third Conference on Language Resources and Evaluation(LREC-02).Las Palmas de Gran Canaria,Spain,2002:1643-1649. 被引量:1

引证文献3

二级引证文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部