基于HMM的哈萨克语词性标注研究被引量：3

RESEARCH ON KAZAKH PART-OF-SPEECH TAGGING BASED ON HIDDEN MARKOV MODELS

下载PDF

导出

摘要词性标注在自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等自然语言处理的基础,对于哈萨克语同样如此。在基于词典静态标注的基础上分析了隐马尔科夫模型HMM(H idden M arkovModel)模型参数的选取、数据平滑以及未登录词的处理方法,利用基于统计的方法对哈萨克语熟语料进行训练,然后用V iterb i算法实现词性标注。实验结果表明利用HMM进行词性标注的准确率有所提高。 Part-of-speech（POS） tagging plays a key role in natural language information processing.It is the basis of natural language processing including syntactic parsing,information retrieval,and machine translation,etc.,and the same for Kazak as well.In the thesis we analyse the selection of HMM model parameters,data smoothing and the processing approach for new words based on static tagging on dictionary,and use statistics-based means to train mature Kazak corps;then we adopt the Viterbi algorithm to implement part-of-speech tagging.Experimental results show that the preciseness of POS tagging is improved with the use of HMM.

作者侯呈风古丽拉.阿东别克陈景超

机构地区新疆大学信息科学与工程学院

出处《计算机应用与软件》 CSCD 北大核心 2012年第2期31-33,共3页 Computer Applications and Software

基金国家自然科学基金(60763005) 国家教育部国家语委民族语言文字规范标准建设及信息化科研项目(MZ115-92)

关键词隐马尔科夫模型哈萨克语词性标注自然语言处理 Hidden Markov model Kazak Part-of-speech tagging Natural language processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Andrew W Moore. Hidden Markov Models [ D ]. Professor School of Computer Science Carnegie Mellon University,2004. 被引量：1
2Rabiner L. A tutorial on hidden markov models and selected applica- fionsin speech recognition [ C ]//Proceedings of IEEE, 1989. 被引量：1
3袁里驰..基于统计的自然语言处理[D].北京邮电大学,2005:
4王敏,郑家恒.基于改进的隐马尔科夫模型的汉语词性标注[J].计算机应用,2006,26(S2):197-198. 被引量：10
5刘艳,古丽拉.阿东别克,伊力亚尔.哈萨克语词性自动标注研究初探[J].计算机工程与应用,2008,44(20):242-244. 被引量：8
6买合木提·买买提.基于统计的维吾尔语词性标注研究与实现[D].乌鲁木齐:新疆大学,2009. 被引量：3
7MANNING C D，SCHOTZE H．统计自然语言处理基础[M]．苑春法，等译．北京：电子工业出版社，2005．被引量：18
8张孝飞,陈肇雄,黄河燕,蔡智.词性标注中生词处理算法研究[J].中文信息学报,2003,17(5):1-5. 被引量：13

二级参考文献28

1梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
2温锐,朱巧明,李培峰.HMM和负反馈模型在词性标注中的应用[J].苏州大学学报（自然科学版）,2005,21(3):39-42. 被引量：5
3陈晓文.自动词性标注方法的比较[J].温州大学学报,2006,19(1):53-57. 被引量：4
4刘开瑛等.语料库词类自动标注算法研究[A].陈肇雄.机器翻译研究进展[C].北京:电子工业出版社,1992.378—386. 被引量：1
5周强俞士汶.一种切分和词性标注相融合的汉语语料库多级处理方法[A].陈力为.计算语言学研究与应用[C].北京:北京语言学院出版社,1993.126—131. 被引量：1
6白栓虎黄昌宁夏莹.基于统计的汉语语料库词性自动标注的研究与实现[A].黄昌宁,夏莹.语言信息处理专论[C].北京:清华大学出版社,.. 被引量：1
7詹卫东.词汇分析(二)从词串到词性标记串[EB/OL].[2007].http://ccl.pku.edu.cn. 被引量：1
8刘群.计算语言学(词法分析Ⅱ).[EB/OL].[2007].http://www.nip.org.cn. 被引量：1
9Jelinek, F.. Self-organized language modeling for speech recognition. Readings in Speech Recognition[C], A. Waibel and K. F. Lee, eds., Morgan-Kaufmann, San Mateo, CA, 1990, 450-506. 被引量：1
10Miller, D., Leek, T., and Schwartz, R. M.. A hidden Markov model information retrieval system.Proc. 22nd International Conference on Research and Development in Information Retrieval[C], Berkeley, CA, 1999, 214-221. 被引量：1

共引文献41

1张孝飞,陈肇雄,黄河燕,王建德.基于锚点词对的双语词对齐算法[J].小型微型计算机系统,2006,27(2):330-334. 被引量：10
2姜维,关毅,王晓龙.基于条件随机域的词性标注模型[J].计算机工程与应用,2006,42(21):13-16. 被引量：12
3倪瑞煜,戴新宇,尹存燕,陈家骏.一种基于语料库的日语动词格框架自动构造技术[J].计算机应用研究,2007,24(6):66-68.
4陈天莹,陈蓉,潘璐璐,李红军,于中华.基于前后文n-gram模型的古汉语句子切分[J].计算机工程,2007,33(3):192-193. 被引量：25
5刘美茹.基于LSI和SVM的文本分类研究[J].计算机工程,2007,33(15):217-219. 被引量：8
6王金铨,梁茂成,俞洪亮.基于N-gram和向量空间模型的语句相似度研究[J].现代外语,2007,30(4):405-413. 被引量：14
7于江德,樊孝忠,尹继豪.隐马尔可夫模型在自然语言处理中的应用[J].计算机工程与设计,2007,28(22):5514-5516. 被引量：14
8徐扬.基于最大熵模型的汉语隐喻现象识别[J].计算机工程与科学,2007,29(4):95-97. 被引量：3
9吴春颖,王士同.基于二元语法的N-最大概率中文粗分模型[J].计算机应用,2007,27(12):2902-2905. 被引量：12
10高研博,赵京雷,陆汝占.基于自动模板方法的汉语语义标注[J].计算机工程与应用,2008,44(7):182-184.

同被引文献29

1林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
2周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
3周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
4周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
5Marcinczuk M, Piasecki M. Study on named entity recognition for polish based on hidden Markov models [ C ]//Proceedings of Text, Speech and Dialogue-13th International Conference ( TSD 2010 ) ,2010 : 142 - 149. 被引量：1
6Martens D,Baesens B,et al. Decompositional rule extraction from sup- port vector machines by active learning[ J]. Knowledge and Data Engi- neering,2008,21 (2) :178 - 191. 被引量：1
7Nianwen Xue,Fu Dong Chiou,Martha Palmer.Building a Large-Scale Annotated Chinese Corpus[C]//Proc.of 19th International Conference on Computational Linguistics(COLING-02),Taiwan,2002:1-7. 被引量：1
8Chu Ren Huang,Feng Yi Chen,Zhao ming Gao,et al.Sinica Treebank:design criteria,annotation guidelines,and on-line interface[C]//Proceedings of the Second Workshop Chinese Language Processing,Hong Kong,2000:29-37. 被引量：1
9Wojciech Skut,Thorsten Brants,Brigitte Krenn,et al.A linguistically interpreted corpus of German Newspaper text[C]//Proceedings of the Conference on Language Resources and Evaluation LREC-98.Granade,Spain,1998:705-711. 被引量：1
10Sabine Brants,Silvia Hansen.Developments in the TIGER annotation scheme and their realization in the corpus[C]//Proceedings of the Third Conference on Language Resources and Evaluation(LREC-02).Las Palmas de Gran Canaria,Spain,2002:1643-1649. 被引量：1

引证文献3

1李荣,冯丽萍,王鸿斌.基于改进遗传退火HMM的Web信息抽取研究[J].计算机应用与软件,2014,31(4):40-44. 被引量：3
2马伟珍,陈硕,赵栋材.基于HMM的藏文词性标注的研究与实现[J].信息安全与技术,2016,0(2):33-35. 被引量：2
3于智娟,古丽拉.阿东别克.基于层叠条件随机场的哈语树库构建技术研究[J].计算机应用与软件,2016,33(3):71-75.

二级引证文献5

1平措群培,赵栋材,马伟珍,周欢欢,巴旦团玉.基于HMM和Bayes算法的垃圾观点评论识别[J].科技创业月刊,2016,29(11):130-131.
2杜秋霞,王洪国,邵增珍,付鑫,刘衍民.基于混合HMM的文献元数据地名抽取方法研究[J].计算机与数字工程,2017,45(1):101-106. 被引量：5
3双哲,孙蕾.基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用[J].计算机应用与软件,2017,34(2):42-47. 被引量：10
4色差甲,贡保才让,才让加.基于最大熵和HMM的藏文新词识别对比研究[J].青海师范大学学报（自然科学版）,2018,34(1):12-16. 被引量：2
5张西宁,雷威,杨雨薇,张雯雯.采用自适应基因粒子群算法优化隐马尔科夫模型的方法及应用[J].西安交通大学学报,2018,52(8):1-8. 被引量：9

1侯呈风,古丽拉.阿东别克.改进的HMM应用于哈萨克语词性标注[J].计算机工程与应用,2010,46(36):147-149. 被引量：8
2刘艳,古丽拉.阿东别克,伊力亚尔.哈萨克语词性自动标注研究初探[J].计算机工程与应用,2008,44(20):242-244. 被引量：8

计算机应用与软件

2012年第2期

浏览历史

内容加载中请稍等...

基于HMM的哈萨克语词性标注研究被引量：3

参考文献8

二级参考文献28

共引文献41

同被引文献29

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于HMM的哈萨克语词性标注研究 被引量：3

参考文献8

二级参考文献28

共引文献41

同被引文献29

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于HMM的哈萨克语词性标注研究被引量：3