摘要
双语句对资源稀缺导致一些基于深度学习的机器翻译算法无法在低资源机器翻译中取得更优的性能。因此该文针对低资源机器翻译中语言资源建设问题,提出语料循环推进思想,设计了多趟循环框架和半监督算法。这种框架是与具体机器翻译算法无关的元框架。而这种算法充分利用适当规模的双语种子资源和超大规模单语资源增量扩建双语句对资源,逐级训练机器翻译模型提高译文质量。多个语种的神经机器翻译实验结果证明,该文提出的语料循环推进能够利用源源不断的单语资源自我进化。其有效性不仅体现在易于实现高性能低资源机器翻译,更体现在是快速搭建精准领域机器翻译系统的实用选项。
The scarcity of bilingual sentence pair resources prevents neural machine translation algorithms from better performance.To deal with the problem of language resource construction in low-resource machine translation,this paper proposes a corpus boosting strategy in a multi-loop framework and a semi-supervised algorithm.This framework is a meta-framework independent of specific machine translation algorithms.This algorithm makes full use of bilingual seed resources and large-scale monolingual resources to incrementally expand bilingual sentence pair resources.The experimental results of neural machine translation in multiple languages prove that our method can use a steady stream of monolingual resources to self-evolve.
作者
刘伍颖
王琳
LIU Wuying;WANG Lin(Center for Lingnistics and Applied Linguistics,Guangdong University of Foreign Studies,Guangzhou,Guangdong 510-120,China;Xianda College of Economics and Humanities,Shanghai International Studies University,Shanghai 200083,China)
出处
《中文信息学报》
CSCD
北大核心
2023年第6期89-95,共7页
Journal of Chinese Information Processing
基金
教育部人文社会科学研究规划基金(20YJAZH069)
上海市哲学社会科学“十三五”规划课题(2019BYY028)
教育部人文社会科学研究青年基金(20YJC740062)
广州市科技计划项目(202201010061)。
关键词
语料循环推进
机器翻译
低资源语言
半监督学习
增量学习
corpus boosting
machine translation
low-resource language
semi-supervised learning
incremental learning