Skip-N蒙古文统计语言模型被引量：8

Skip-N Mongolian Statistical Language Model

下载PDF

导出

摘要蒙古文具有典型的构词词缀的特点,一个词往往可以切分成词干和词缀等若干个部分.如果采用通常的N-gram语言模型很难描述词干、词缀等的长距离依赖关系.提出了一种利用长距离依赖的Skip-N语言模型,给出了相隔N个词的二元依赖关系.对这种方法进行了实现,并在一个基于实例的汉蒙机器翻译系统上进行了实验,实验证明Skip-N语言模型能够有效地提高汉蒙机器翻译的效果. Etymas and suffixes are the typical characters of Mongolian. A Mongolian word could usually be divided into an etyma and several suffixes. It is difficult to describe the dependent relationship of long distance between an etyma and suffixes if using the N-gram language model. Based on long-distance dependence ,a new kind of language model called Skip-N model is presented, and the relation of N-word separated bigram dependence is given. The technique is realized, to applied to a Chinese-Mongolian machine translation system. The experiments prove that the Skip-N language model can improve the translation result.

作者侯宏旭刘群刘志文张国强

机构地区中科院计算技术实验室智能信息处理重点实验室内蒙古大学计算机学院

出处《内蒙古大学学报（自然科学版）》 CAS CSCD 北大核心 2008年第2期220-224,共5页 Journal of Inner Mongolia University：Natural Science Edition

基金内蒙古自然基金项目“蒙古语文本语言模型的构建研究”(200607010805) 国家自然基金项目“基于短语结构转换模板的统计机器翻译方法研究”(60573188)资助

关键词机器翻译蒙古语语言模型 machine translation Mongolian language model

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1那顺乌日图.关于在蒙古语文研究中运用统计学方法的问题[J].民族语文,1993(5):46-50. 被引量：4
2那顺乌日图.关于“汉蒙机器翻系统”.ALTAIHAKPO(Journal of the Altaisociety of Korea),2001,. 被引量：1
3刘群,詹卫东,常宝宝,等.一个汉英机器翻译系统的计算模型与语言模型[C]//吴泉源,钱跃良.智能计算机接口与应用进展-第三届全国智能接口与智能应用学术会议论文集.北京:电子工业出版社,1997. 被引量：3
4Andreas Stolcke. SRILM - an extensible language modeling toolkit [C]. In Proceedings of International Conference on Spoken Language Processing, 2002,2 : 901-904. 被引量：1
5Hongxu Hou,Dan Deng,Gang Zou,et al. An EBMT System Based on Word Alignment [C]. Proceeding of International Workshop of Spoken Language Translation, 2004,47-49. 被引量：1
6侯宏旭,刘群,张玉洁,井佐原均.2005年度863机器翻译评测方法研究与实施[J].中文信息学报,2006,20(B03):7-18. 被引量：6

二级参考文献5

1http://www. nist. gov/speech/tests/mt [EB]. 被引量：1
2http://nlp. cs. nyu. edu/GTM/[EB]. 被引量：1
3F. J. Och, Minimum error rate training in statistical machine translation[C]. In:Proc. of the 41st ACL, Sapporo, Japan, 2003, 160-167. 被引量：1
4F. J. Oeh, Statistical Machine Translation: From Single-Word Models to Alignment Templates [D], 38-39. 被引量：1
5Yasuhiro Akiba, etc. Overview of the IWSLTD4 Evaluation Campaign[C]. 2004. 被引量：1

共引文献7

1张大鲲,张玮,冯元勇,孙乐.基于非连续短语的统计翻译模型研究[J].中文信息学报,2007,21(1):101-108. 被引量：5
2张霄军.翻译质量量化评价研究综述[J].外语研究,2007(4):80-84. 被引量：18
3李晶,庄梓新.面向公安应用的智能移动翻译软件的研究与实现[J].计算机应用研究,2007,24(11):175-177. 被引量：2
4侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量：14
5刘志文,侯宏旭,李沙茹拉,柳林.基于trigger对的蒙古语语言模型的三种实现方法比较[J].中文信息学报,2009,23(6):105-109. 被引量：1
6刘志文,侯宏旭,宋美娜,李沙茹拉.基于trigger对的长距离蒙古语语言模型的改进Katz平滑技术[J].内蒙古大学学报（自然科学版）,2010,41(1):107-110.
7苏依拉,赵亚平,牛向华.基于统计的蒙汉机器翻译中词对齐方法研究[J].中文信息学报,2018,32(6):44-51. 被引量：2

同被引文献63

1那顺乌日图.关于在蒙古语文研究中运用统计学方法的问题[J].民族语文,1993(5):46-50. 被引量：4
2那顺乌日图,确精扎布.蒙古文国际标准编码诸规则[J].内蒙古大学学报（哲学社会科学版）,1998,30(4):77-84. 被引量：6
3巴达玛敖德斯尔.面向信息处理的蒙古语词语分类体系研究[J].中央民族大学学报（哲学社会科学版）,2004,31(3):93-99. 被引量：3
4林民.一种竖向编辑控件的设计与实现[J].计算机工程,2004,30(18):174-175. 被引量：4
5华沙宝.蒙古文网络信息技术处理的对策[J].民族语文,2002(6):58-60. 被引量：3
6许永林,史晓东,蔡骏.利用FP-树构造多词Trigger对语言模型[J].厦门大学学报（自然科学版）,2005,44(B06):243-246. 被引量：2
7杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
8侯宏旭,刘群,张玉洁,井佐原均.2005年度863机器翻译评测方法研究与实施[J].中文信息学报,2006,20(B03):7-18. 被引量：6
9伊.达瓦,张玉洁,上园一知,大川茂树,章森,井佐原均,白井克彦.蒙古语语言-文字的自动化处理[J].中文信息学报,2006,20(4):56-62. 被引量：6
10徐波,史晓东,刘群,宗成庆,庞薇,陈振标,杨振东,魏玮,杜金华,陈毅东,刘洋,熊德意,侯宏旭,何中军.2005统计机器翻译研讨班研究报告[J].中文信息学报,2006,20(5):1-9. 被引量：10

引证文献8

1侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量：14
2侯宏旭,张国强,刘志文.层次化蒙古语统计语言模型[J].内蒙古大学学报（自然科学版）,2009,40(3):336-340. 被引量：2
3侯宏旭,刘群,李锦涛.一种基于短语的汉蒙统计机器翻译与调序模型[J].高技术通讯,2009,19(5):475-479. 被引量：3
4刘志文,侯宏旭,李沙茹拉,柳林.基于trigger对的蒙古语语言模型的三种实现方法比较[J].中文信息学报,2009,23(6):105-109. 被引量：1
5张聪品,赵理莉.统计模型中附加语言学规则的蒙古语词法分析[J].计算机工程与设计,2011,32(8):2861-2864.
6白双成.蒙古文原始语料统计建模研究[J].中文信息学报,2017,31(1):118-125. 被引量：1
7阿日木扎,林民,马占新.一类蒙文词切分方法构造及智能词切分系统设计[J].内蒙古师范大学学报（自然科学汉文版）,2019,48(5):393-399.
8鲁一冰,刘驰.Skip-ngram模型解决数据稀疏问题的研究[J].自动化技术与应用,2015,34(3):35-37 46. 被引量：2

二级引证文献22

1赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：13
2赵理莉,张聪品,吴金星,长青.蒙古语词干提取单带非线性自动机构造[J].信阳师范学院学报（自然科学版）,2010,23(4):621-624.
3刘赛,王江晴,张振绘.一种用于脱机手写体女书字符切分的方法[J].计算机应用研究,2011,28(3):1188-1190. 被引量：4
4姜文斌,吴金星,乌日力嘎,那顺乌日图,刘群.蒙古语有向图形态分析器的判别式词干词缀切分[J].中文信息学报,2011,25(4):30-34. 被引量：5
5李文,李淼,梁青,朱海,应玉龙,乌达巴拉.基于短语统计机器翻译模型蒙古文形态切分[J].中文信息学报,2011,25(4):122-128. 被引量：4
6张聪品,赵理莉.统计模型中附加语言学规则的蒙古语词法分析[J].计算机工程与设计,2011,32(8):2861-2864.
7姜文斌,吴金星,长青,那顺乌日图,刘群,赵理莉.蒙古语词法分析的有向图模型[J].中文信息学报,2011,25(5):94-100. 被引量：3
8乌云巴特尔.浅谈蒙汉翻译工作[J].文学界（理论版）,2011(6):159-159. 被引量：3
9陈韵,张鹏华,任利华.机器翻译研究述评[J].价值工程,2013,32(1):174-176. 被引量：3
10米成刚,王磊,杨雅婷,陈科海.维汉机器翻译未登录词识别研究[J].计算机应用研究,2013,30(4):1112-1115. 被引量：9

1阳馨,蒋伟,刘晓玲.基于多种特征池化的中文文本分类算法[J].四川大学学报（自然科学版）,2017,54(2):287-292. 被引量：11
2于洁.Skip-Gram模型融合词向量投影的微博新词发现[J].计算机系统应用,2016,25(7):130-136. 被引量：3
3李天彩,刘欣,王波,席耀一,王晓雯.短文本信息流中的用户建模与应用[J].信息工程大学学报,2016,17(2):225-230. 被引量：1
4卢先宁,高泽华,高峰.Web日志挖掘中的会话识别技术研究[J].数据通信,2012(4):19-21.
5蔡慧苹,王丽丹,段书凯.基于word embedding和CNN的情感分类模型[J].计算机应用研究,2016,33(10):2902-2905. 被引量：20
6朱波,侯敏.基于边界特征的情感新词提取方法[J].重庆邮电大学学报（自然科学版）,2014,26(6):796-802.
7雷军.影驰750A SLI魔盒版强大的DIY玩家主板[J].微型计算机,2008(24):73-73.
8朱鸿宇,刘瑰,陈左宁,唐福华.实体关系识别中长距离依赖问题的研究[J].小型微型计算机系统,2008,29(2):364-367. 被引量：2
9江铭虎,朱小燕,袁保宗.一种适应域的汉语N-gram语言模型平滑算法[J].清华大学学报（自然科学版）,1999,39(9):99-102. 被引量：9
10李春生.一种体现长距离依赖关系的语言模型[J].科技视界,2014(5):55-56. 被引量：4

内蒙古大学学报（自然科学版）

2008年第2期

浏览历史

内容加载中请稍等...

Skip-N蒙古文统计语言模型被引量：8

参考文献6

二级参考文献5

共引文献7

同被引文献63

引证文献8

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

Skip-N蒙古文统计语言模型 被引量：8

参考文献6

二级参考文献5

共引文献7

同被引文献63

引证文献8

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

Skip-N蒙古文统计语言模型被引量：8