一种基于改进的最大熵模型的汉语词性自动标注的新方法被引量：3

A Chinese Part-of-Speech Based on Improved Maximum Entropy Model

下载PDF

导出

摘要最大熵模型已成为自然语言处理领域中的研究热点,但由于熟语料库规模的限制,模型参数会出现稀疏现象,影响了模型的精确度.另外最大熵模型参数众多、计算量大,一个好的参数估计算法将会有效地提高模型的效率.实验证明,采用BLMVM算法的基于Gaussian prior平滑技术的最大熵模型具有出色的表现.基于以上认识,结合汉语自身的特点,设计了一个基于词和字特征的汉语词性自动标注系统,取得了较好的标注效果.

作者赵伟赵法兴王东海韩达奇

机构地区吉林大学计算机科学与技术学院长春工业大学计算机科学与工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2006年第z3期174-178,共5页 Journal of Computer Research and Development

基金吉林省科技条件平台建设基金项目(20030340)

关键词最大熵模型词性标注 GAUSSIAN prior平滑方法 BLMVM算法

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1姚天顺等编著..自然语言理解一种让机器懂得人类语言的研究第2版[M].北京:清华大学出版社,2002:470.
2[2]Chen Wenliang,Chang Xingzhi,Wang Huizhen,et al.Automatic word clustering for text categorization using global information.AIRS2004,Beijing,2004 被引量：1
3[3]Adwait Ratnaparkhi.A maximum entropy model for part-of-speech tagging.Conf on Empirical Methods in Natural Language Processing,University of Pennsylvania,1996 被引量：1
4[4]Steven J Benson,Jorge J More.A limited-memory variable-metric method for bound-constrained minimization.Mathematics and Computer Science Division,Argonne National Laboratory,Tech Rep ANL/MCS-P909-0901,2001 被引量：1
5[5]Stanley F Chen,Ronald Rosenfeld.A Gaussian priori for smoothing maximum entropy models.Computer Science Department,Carnegie Mellon University,Tech Rep CMU-CS-99-108,1999 被引量：1
6[6]Fabrizio Sebastiani.Machine learning in automated text categorization.ACM Computing Surveys,2000,34(1):1-47 被引量：1
7[7]Jinying Chen,NianWen Xue,Martha Palmer.Using a smoothing maximum entropy model for chinese nominal entity tagging.The 1st Int'l Joint Conf on Natural Language Processing,Hainan Island,2004 被引量：1
8[8]D Lewis,Ringuette.A comparison of two learning algorithms for text categorization.Symposium on Document Analysis and IR,Las Vegas,1994 被引量：1

同被引文献35

1赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
2洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
3苏新春,杨尔弘.2005年度汉语词汇统计的分析与思考[J].厦门大学学报（哲学社会科学版）,2006,56(6):84-91. 被引量：13
4赵法兴,赵伟.平滑的最大熵模型在汉语词性自动标注中的应用[J].长春工业大学学报,2007,28(2):213-216. 被引量：2
5Black E, Jelinek F, Lafferty J, et al. Decision tree applied to the labeling of text with parts-of-speech HLT'91: Proc of the Workshop on Speech and Language. Morristown, NJ: ACL, 1992:117-121 els // ral. 被引量：1
6Brants T. TnT: A statistical part of speech tagger [C] // Proc of the 6th Conf on Applied Natural Language Processing. Morristown, NJ: ACL, 2000: 224-231. 被引量：1
7Lee S Z, Tsujii J I, Rim H C. Lexicalized hidden Markov models for part of-speech tagging [C]//Proc of the 18th Conf on Computational Linguistics. Morristown, NJ: ACL, 2000:481-487. 被引量：1
8Bar-haim R, Sima'an K, Winter Y. Part of speech tagging of modern Hebrew text [J]. Natural Language Engineering, 2008, 14(2): 223-251. 被引量：1
9Gimenez J, Marquez L. Fast and accurate part of speech tagging: The SVM approach [C/OL] //Proc of the 4th Int Conf on Recent Advances in Natural Language Processing. 2003: 158-165. [2010-01-08]. http://www, lsi. upc. edu/- jgimenez/pubs, html. 被引量：1
10Ratnaparkhi A. A maximum entropy model of part of speech tagging[C]//Proc EMNLP, Computational I.inguistics. Cambridge: MIT Press, 1996:133-141. 被引量：1

引证文献3

1张贯虹,斯.劳格劳,乌达巴拉.融合形态特征的最大熵蒙古文词性标注模型[J].计算机研究与发展,2011,48(12):2385-2390. 被引量：10
2艾孜尔古丽,阿力木.木拉提,玉素甫.艾白都拉.基于形态分析的现代维吾尔语名词词干识别研究[J].中文信息学报,2015,29(6):208-212. 被引量：4
3王东波,黄水清,何琳.基于多特征知识的先秦典籍词性自动标注研究[J].图书情报工作,2017,61(12):64-70. 被引量：20

二级引证文献33

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
2任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
3赵建东,高光来,飞龙.基于历史模型的蒙古文自动词性标注研究[J].中文信息学报,2013,27(5):156-159. 被引量：1
4于洪志,李亚超,汪昆,冷本扎西.融合音节特征的最大熵藏文词性标注研究[J].中文信息学报,2013,27(5):160-165. 被引量：15
5王国龙,杜建强,郝竹林,程春雷,蔡良俊,张鑫.中医诊断古文的词性标注与特征重组[J].计算机工程与设计,2015,36(3):835-840. 被引量：11
6那日松,淑琴.蒙古文词性标注研究[J].内蒙古大学学报（哲学社会科学版）,2015,47(2):26-32.
7帕力旦.吐尔逊,房鼎益.融合形态特征的最大熵维吾尔语词性标注[J].西北大学学报（自然科学版）,2015,45(5):721-726. 被引量：1
8于江德,胡顺义,余正涛.三位一体字标注的汉语词法分析[J].中文信息学报,2015,29(6):1-7. 被引量：4
9斯.劳格劳.蒙古语固定短语识别算法的设计与实现[J].中文信息学报,2017,31(5):85-91. 被引量：3
10艾孜尔古丽,艾孜海尔江,玉素甫.艾白都拉,祖力克尔江,米尔夏提.维吾尔文初中数学教材词干分析研究[J].中文信息学报,2017,31(5):108-113. 被引量：1

1赵法兴,赵伟.平滑的最大熵模型在汉语词性自动标注中的应用[J].长春工业大学学报,2007,28(2):213-216. 被引量：2
2李军,王鑫,常荣清.基于机器学习的兼类词词性标注[J].黑龙江电子技术,1999(12):12-13.
3曲慧雁,赵伟,王东海,李洁.基于隐Markov模型汉语词性自动标注的新算法[J].东北师大学报（自然科学版）,2013,45(4):66-70.
4王东海,赵伟,陈洁,梁贺.基于隐Markov模型汉语词性自动标注的若干分析与改进[J].长春工业大学学报,2007,28(1):48-52. 被引量：2
5魏欧,吴健,孙玉芳,sonata.iscas.ac.cn.基于统计的汉语词性标注方法的分析与改进[J].软件学报,2000,11(4):473-480. 被引量：31
6张民,李生,赵铁军.基于评价的汉语词性纯概率标注算法[J].计算机研究与发展,1998,35(4):349-352. 被引量：1
7谷川,田喜平.基于条件随机场的汉语词性标注方法研究[J].安阳师范学院学报,2010(5):6-8.
8林红,苑春法,郭树军.基于最大熵方法的汉语词性标注[J].计算机应用,2004,24(1):14-16. 被引量：8
9袁萍,周铁军.一种汉语词性标注规则获取算法的实现[J].湖南大学学报（自然科学版）,2003,30(S1):200-202.
10董兴华,周俊林,郭树盛,吐尔洪.吾司曼.基于短语的汉维/维汉统计机器翻译[J].计算机工程,2011,37(9):16-18. 被引量：15

计算机研究与发展

2006年第z3期

浏览历史

内容加载中请稍等...

一种基于改进的最大熵模型的汉语词性自动标注的新方法被引量：3

参考文献8

同被引文献35

引证文献3

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

一种基于改进的最大熵模型的汉语词性自动标注的新方法 被引量：3

参考文献8

同被引文献35

引证文献3

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

一种基于改进的最大熵模型的汉语词性自动标注的新方法被引量：3