期刊文献+

语料循环推进低资源神经机器翻译 被引量:1

Boost Corpus for Low-Resource Neural Machine Translation
下载PDF
导出
摘要 双语句对资源稀缺导致一些基于深度学习的机器翻译算法无法在低资源机器翻译中取得更优的性能。因此该文针对低资源机器翻译中语言资源建设问题,提出语料循环推进思想,设计了多趟循环框架和半监督算法。这种框架是与具体机器翻译算法无关的元框架。而这种算法充分利用适当规模的双语种子资源和超大规模单语资源增量扩建双语句对资源,逐级训练机器翻译模型提高译文质量。多个语种的神经机器翻译实验结果证明,该文提出的语料循环推进能够利用源源不断的单语资源自我进化。其有效性不仅体现在易于实现高性能低资源机器翻译,更体现在是快速搭建精准领域机器翻译系统的实用选项。 The scarcity of bilingual sentence pair resources prevents neural machine translation algorithms from better performance.To deal with the problem of language resource construction in low-resource machine translation,this paper proposes a corpus boosting strategy in a multi-loop framework and a semi-supervised algorithm.This framework is a meta-framework independent of specific machine translation algorithms.This algorithm makes full use of bilingual seed resources and large-scale monolingual resources to incrementally expand bilingual sentence pair resources.The experimental results of neural machine translation in multiple languages prove that our method can use a steady stream of monolingual resources to self-evolve.
作者 刘伍颖 王琳 LIU Wuying;WANG Lin(Center for Lingnistics and Applied Linguistics,Guangdong University of Foreign Studies,Guangzhou,Guangdong 510-120,China;Xianda College of Economics and Humanities,Shanghai International Studies University,Shanghai 200083,China)
出处 《中文信息学报》 CSCD 北大核心 2023年第6期89-95,共7页 Journal of Chinese Information Processing
基金 教育部人文社会科学研究规划基金(20YJAZH069) 上海市哲学社会科学“十三五”规划课题(2019BYY028) 教育部人文社会科学研究青年基金(20YJC740062) 广州市科技计划项目(202201010061)。
关键词 语料循环推进 机器翻译 低资源语言 半监督学习 增量学习 corpus boosting machine translation low-resource language semi-supervised learning incremental learning
  • 相关文献

参考文献3

二级参考文献26

共引文献38

同被引文献11

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部