-
题名基于词典注入的藏汉机器翻译模型预训练方法
被引量:1
- 1
-
-
作者
桑杰端珠
才让加
-
机构
青海师范大学计算机学院
青海师范大学藏语智能信息处理及应用国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2023年第8期43-51,共9页
-
基金
青海省重点研发与转化计划项目(2022-GX-104)
青海省中央引导地方科技发展资金项目(2022ZY006)。
-
文摘
近年来,预训练方法在自然语言处理领域引起了广泛关注,但是在比如藏汉机器翻译等低资源的任务设定下,由于双语监督信息无法直接参与预训练,限制了预训练模型在此类任务上的性能改进。考虑到双语词典是丰富且廉价的先验翻译知识来源,同时受到跨语言交流中人们往往会使用混合语言增加沟通效率这一现象启发,该文提出一种基于词典注入的藏汉机器翻译模型的预训练方法,为预训练提供学习双语知识关联的广泛可能。经验证,该方法在藏汉和汉藏翻译方向测试集上的BLEU值比BART强基准分别高出2.3和2.1,证实了该文所提出的方法在藏汉机器翻译任务上的有效性。
-
关键词
藏汉
机器翻译
预训练
词典注入
-
Keywords
Tibetan-Chinese
machine translation
pretraining
dictionary injection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-