摘要
在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升,字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明,字级别的蒙汉翻译模型更能捕捉单元之间的语义联系,提高蒙汉翻译性能。
Most current NMT models applies word or sub-word as the unit to learn embedded representations.To deal with the existing errors at the word level,this paper conducts sub-word segmentation for Mongolian,and sub-word and character segmentation for Chinese,respectively,on the translation models of LSTM and Transformer.Experimental results show that transformer and LSTM models with char segmentation both achieve significant improvements in terms of BLEU.
作者
苏依拉
高芬
仁庆道尔吉
SU Yila;GAO Fen;RENQING Dao'erji(College of Information Engineering,Inner Mongolia University of Technology,Hohhot,Inner Mongolia 010080,China)
出处
《中文信息学报》
CSCD
北大核心
2019年第12期54-60,共7页
Journal of Chinese Information Processing
基金
国家自然科学基金(61966027,61966028)
内蒙古自治区自然科学基金(2016MS0605)
内蒙古自治区民族事务委员会基金(MW-2017-MGYWXXH-03)