摘要
缺少平行句对的低资源机器翻译面临跨语言语义转述科学问题。该文围绕具体的低资源印尼语-汉语机器翻译问题,探索了基于同源语料的数据增广方法,并混合同源语料训练出更优的神经机器翻译模型。这种混合语料模型在印尼语-汉语机器翻译实验中提升了3个多点的BLEU4评分。实验结果证明,同源语料能够有效增强低资源神经机器翻译性能,而这种有效性主要是源于同源语言之间的形态相似性和语义等价性。
Low-resource machine translation is challenged by lacking parallel sentence pairs.We address the specific low-resource machine translation issue from Indonesian to Chinese,and proposes a data augmentation method based on a cognate corpus.Specifically,we optimize the neural machine translation(NMT)model by mixing a cognate corpus,which is mainly derived from the morphological similarity and semantic equivalence between the cognate languages.Experiments demonstrate that the proposed method achieves more than 3 points of the BLEU4 score in the Indonesian-Chinese machine translation.
作者
王琳
刘伍颖
WANG Lin;LIU Wuying(Xianda College of Economics and Humanities,Shanghai International Studies University,Shanghai 200083,China;Shandong Key Laboratory of Language Resources Development and Application,Ludong University,Yantai,Shandong 264025,China)
出处
《中文信息学报》
CSCD
北大核心
2024年第2期54-60,共7页
Journal of Chinese Information Processing
基金
教育部人文社会科学研究青年基金(20YJC740062)
教育部人文社会科学研究规划基金(20YJAZH069)
教育部新文科研究与改革实践项目(2021060049)
上海市哲学社会科学“十三五”规划课题(2019BYY028)
山东省研究生教育改革研究项目(SDYJG21185)
山东省本科教学改革研究重点项目(Z2021323)。
关键词
同源语料
数据增广
低资源机器翻译
印尼语
马来语
cognate corpus
data augmentation
low-resource machine translation
Indonesian
Malay