期刊文献+

中文字粒度切分在蒙汉机器翻译的应用 被引量:2

Application of Chinese Character in Mongolian-Chinese Machine Translation
下载PDF
导出
摘要 在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升,字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明,字级别的蒙汉翻译模型更能捕捉单元之间的语义联系,提高蒙汉翻译性能。 Most current NMT models applies word or sub-word as the unit to learn embedded representations.To deal with the existing errors at the word level,this paper conducts sub-word segmentation for Mongolian,and sub-word and character segmentation for Chinese,respectively,on the translation models of LSTM and Transformer.Experimental results show that transformer and LSTM models with char segmentation both achieve significant improvements in terms of BLEU.
作者 苏依拉 高芬 仁庆道尔吉 SU Yila;GAO Fen;RENQING Dao'erji(College of Information Engineering,Inner Mongolia University of Technology,Hohhot,Inner Mongolia 010080,China)
出处 《中文信息学报》 CSCD 北大核心 2019年第12期54-60,共7页 Journal of Chinese Information Processing
基金 国家自然科学基金(61966027,61966028) 内蒙古自治区自然科学基金(2016MS0605) 内蒙古自治区民族事务委员会基金(MW-2017-MGYWXXH-03)
关键词 字粒度切分 TRANSFORMER LSTM char granular segmentation Transformer LSTM
  • 相关文献

参考文献3

二级参考文献1

共引文献120

同被引文献18

引证文献2

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部