摘要
汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。
To deal with the morphological difference between Chinese and Mongolian,this paper proposes a method of adopting morpheme of Mongolian as the pivot to Chinese-Mongolian statistical machine translation(SMT).First,we segment Mongolian word into morphemes,achieving a balance in the morphology of the language pair.Then,we treat Mongolian morpheme as pivot language and construct two new SMT systems:Chinese-Morpheme SMT and Morpheme-Mongolian SMT.New translation knowledge including phrase translation table and reordering model is introduced for these two SMT systems.Finally,we use multiple decoding paths and multiple features to incorporate the new translation knowledge.Experimental results demonstrate our method can improve the translation quality significantly.
出处
《中文信息学报》
CSCD
北大核心
2017年第4期57-62,69,共7页
Journal of Chinese Information Processing
基金
国家自然科学基金(61502445
61572462)
中国科学院信息化专项(XXH12504-1-10)
关键词
中间语言
词素
统计机器翻译
短语翻译表
调序模型
pivot language
morpheme
statistical machine translation
phrase translation table
reordering model