-
题名基于双语词典的远距离语对无监督神经机器翻译方法
- 1
-
-
作者
黄孟钦
-
机构
昆明理工大学信息工程与自动化学院
-
出处
《现代电子技术》
北大核心
2024年第7期161-164,共4页
-
文摘
为了缓解大型平行语料库稀缺性对机器翻译质量的影响,无监督方法在神经机器翻译领域备受关注,但其在远距离语言对上的翻译表现仍有待提高。因此,文中引入了翻译语言模型(TLM)并提出了Dict-TLM方法。该方法的核心思想是结合单语语料和无监督双语词典训练语言模型。具体而言,模型首先接受源语言句子作为输入,然后,不同于传统TLM只接受平行语料,Dict-TLM模型还接受源语言句子通过无监督双语词典处理后的数据作为输入,在这种输入中,模型将源语言句子中在双语词典中出现的单词替换为相应的目标语言翻译词,重要的是,该方法中的双语词典是无监督获得的。实验表明,Dict-TLM相对于传统无监督机器翻译在中英语言对上提高了3个BLEU分数。
-
关键词
无监督神经机器翻译
远距离语言对
预训练
TLM
双语词典
双语词嵌入
-
Keywords
unsupervised neural machine translation
distant language pairs
pre-training
TLM
bilingual dictionary
bilingual word embedding
-
分类号
TN99-34
[电子电信—信号与信息处理]
TP389.1
[电子电信—信息与通信工程]
-