-
题名基于VOLT的藏汉双向机器翻译
被引量:3
- 1
-
-
作者
孙义栋
拥措
杨丹
-
机构
西藏大学信息科学技术学院
西藏自治区藏文信息技术人工智能重点实验室
藏文信息技术教育部工程研究中心
-
出处
《计算机与现代化》
2022年第5期28-32,39,共6页
-
基金
国家重点研发计划项目(2017YFB1402200)
国家自然科学基金资助项目(61262086)
+1 种基金
西藏大学高水平人才培养计划项目(2019-GSP-S117)
西藏自治区教育厅“计算机及藏文信息技术国家级团队和重点实验室建设”项目(藏教财指[2018]81号)。
-
文摘
藏汉词表的生成不仅是藏汉双向机器翻译任务开始的第一步,而且影响着藏汉双向翻译效果。本文通过改进生成藏汉词表来提升下游藏汉双向翻译性能。一方面从词表拼接入手,采用高频使用正常词表,低频使用字节对编码词表的思想,通过反复训练找到最佳词频阈值;另一方面通过最优传输的词汇学习方法学习生成藏汉词表,并针对藏语本身语言特点进行改进后应用到藏汉双向翻译上。实验结果表明,本文针对藏文语言特点提出的字节对编码加最优传输的词汇学习方法效果最佳,在藏汉翻译任务上BLEU值达到37.35,汉藏翻译任务上BLEU值达到27.60。
-
关键词
藏文词表
字节对编码
藏汉双向翻译
VOLT
-
Keywords
tibetan word list
byte pair encoding
two-way tibetan-Chinese translation
VOLT
-
分类号
TP38
[自动化与计算机技术—计算机系统结构]
-