面向低资源神经机器翻译的回译方法被引量：2

Back translation for low resources neural machine translation

下载PDF

导出

摘要神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据,并通过回译方法分段利用不同的单语数据训练翻译模型,然后借助模型平均和模型集成等方法进一步提升维汉和蒙汉翻译质量.使用第16届全国机器翻译大会(CCMT 2020)的评测数据进行实验,结果表明该方法可以有效地提升维汉和蒙汉翻译的翻译质量. Neural machine translation has achieved great success in high-resource situations,but the translation effect in low-resource situations needs to be improved.At present,both Uyghur-Chinese and Mongolian-Chinese translation are low resource translation tasks.This paper proposes to divide Chinese monolingual data into multiple monolingual data according to domain similarity,and to train a translation model on different monolingual data by pre-training and fine-tuning.Then,the translation quality of Uyghur-Chinese and Mongolian-Chinese is further improved by model averaging and model ensemble.Using the evaluation data of the 16th China Conference on Machine Translation(CCMT 2020)for experimental comparison,the results show that this method can effectively improve the translation quality of Uyghur-Chinese and Mongolian-Chinese translation.

作者张文博张新路杨雅婷董瑞李晓 ZHANG Wenbo;ZHANG Xinlu;YANG Yating;DONG Rui;LI Xiao(The Xinjiang Technical Institute of Physics & Chemistry,Chinese Academy of Sciences,Urumqi 830011,China;School of Computer and Technology,University of Chinese Academy of Sciences,Beijing 100049,China;Xinjiang Laboratory of Minority Speech and Language Information Processing,Urumqi 830011,China)

机构地区中国科学院新疆理化技术研究所中国科学院大学计算机科学与技术学院新疆民族语音语言信息处理实验室

出处《厦门大学学报（自然科学版）》 CAS CSCD 北大核心 2021年第4期675-679,共5页 Journal of Xiamen University：Natural Science

基金国家自然科学基金(U1703133) 新疆自治区高层次人才引进工程项目(Y839031201) 新疆维吾尔自治区重点实验室开放课题(2018D04018)。

关键词神经机器翻译低资源语言回译领域相似性预训练 neural machine translation low-resource language back translation domain similarity pre-trainning

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献56

1陈海艳.新中国成立以来的维吾尔语研究概述[J].民族翻译,2021(1):88-96. 被引量：1
2肖桐,朱靖波.《机器翻译:基础与模型》[J].中文信息学报,2021,35(12):167-167. 被引量：1
3夏玲,李宜蔓,李弘武.人工智能背景下科技论文摘要的机器翻译与译后编辑[J].编辑学报,2022,34(4):396-401. 被引量：11
4陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：6896
5维尼拉.木沙江,木合塔尔.日——维机器翻译中粘着性特点的应用[J].新疆大学学报（社会科学版）,2005,33(1):129-134. 被引量：3
6刘洋,刘群,林守勋.机器翻译评测中的模糊匹配[J].中文信息学报,2005,19(3):45-53. 被引量：8
7维尼拉.木沙江,米尔夏提.力提甫,木合塔尔.日-维机器翻译系统中词典的研究[J].新疆大学学报（哲学社会科学版）,2006,34(1):149-153. 被引量：1
8许亚梅,张立臣.基于实例的机器翻译方法及其优化策略探讨[J].福建电脑,2006(5):48-49. 被引量：1
9阿里甫.库尔班,阿布力米提.阿不都热依木,吐尔根.依布拉音.维汉机器翻译用电子词典的设计[J].计算机工程与应用,2006,42(20):76-78. 被引量：3
10杨攀,李淼,张建.基于短语统计翻译的汉维机器翻译系统[J].计算机应用,2009,29(7):2022-2025. 被引量：5

引证文献2

1傅琳凌,刘磊.基于CiteSpace的机器翻译研究可视化分析[J].黑龙江科学,2023,14(15):1-5.
2哈里旦木·阿布都克里木,侯钰涛,姚登峰,阿布都克力木·阿布力孜,陈吉尚.维吾尔语机器翻译研究综述[J].计算机工程,2024,50(1):1-16.

1张大平.进阶式系统分析与设计教学案例开发[J].福建电脑,2020,36(6):26-30.
2蒙根彩次克.如何提高蒙汉翻译的基本素养[J].环球首映,2020(10):79-79.
3李静.编者的话[J].制造技术与机床,2008(6).
4赵兰英.冷泉水分段养殖虹鳟鱼史氏鲟技术探讨[J].中国水产,2021(1):82-85.
5赖朝阳.本土文化资源在小学美术教学中分段利用的实践[J].师道（教研）,2021(2):34-35.
6贾浩,王煦,季佰军,段湘煜,张民.基于掩码机制的非自回归神经机器翻译[J].厦门大学学报（自然科学版）,2021,60(4):648-654. 被引量：3
7张一鸣,刘俊鹏,宋鼎新,黄德根.融合数据增强与多样化解码的神经机器翻译[J].厦门大学学报（自然科学版）,2021,60(4):670-674. 被引量：4
8于红.知势而为,逆势而上——山崎马扎克(中国)有限公司工程技术部副部长莫悦[J].今日制造与升级,2020(10):22-27.
9杨邦国,申展,黎祖尧,李应兰,沈学桂,陈怡君.厚竹秆形因子与纤维性状及其相关性研究[J].江西农业大学学报,2020,42(1):101-109. 被引量：2
10孙硕,侯宏旭,乌尼尔,常鑫,贾晓宁,李浩然.基于迭代知识精炼的对偶学习蒙汉机器翻译[J].厦门大学学报（自然科学版）,2021,60(4):687-692. 被引量：1

厦门大学学报（自然科学版）

2021年第4期

浏览历史

内容加载中请稍等...

面向低资源神经机器翻译的回译方法被引量：2

同被引文献56

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向低资源神经机器翻译的回译方法 被引量：2

同被引文献56

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向低资源神经机器翻译的回译方法被引量：2