多策略切分粒度的藏汉双向神经机器翻译研究被引量：7

Multi-strategic granularity of segmentation on Tibetan-Chinese bidirectional neural machine translation

下载PDF

导出

摘要现有的机器翻译模型通常在词粒度切分的数据集上进行训练,然而不同的切分粒度蕴含着不同的语法、语义的特征和信息,仅考虑词粒度将制约神经机器翻译系统的高效训练.这对于藏语相关翻译因其语言特点而显得尤为突出.为此提出针对藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法,并基于现有的注意力机制神经机器翻译框架,在解码器中融入自注意力机制以捕获更多的目标端信息,提出了一种新的神经机器翻译模型.在CWMT2018藏汉双语数据集上的实验结果表明,多粒度训练方法的翻译效果明显优于其余切分粒度的基线系统,同时解码器中引入自注意力机制的神经机器翻译模型能够显著提升翻译效果.此外在WMT2017德英双语数据集上的实验结果进一步证明了该方法在其他语种方向上的适用性. Existing machine translation models are usually trained on word-granularity data sets.However,different segmentations contain different grammatical,semantic features.Segmenting word granularity merely will interfere efficient training of neural machine translation(NMT)models,and is particularly prominent for Tibetan-related translation due to Tibetan linguistic features.Hence,for bidirectional Tibetan-Chinese NMT,we propose a multi-granularity training method focusing on syllables,words and phonetic fusion.We also propose a novel NMT model within the attention-based NMT framework,where a self-attention mechanism is incorporated into the decoder to capture more target-side information.Experimental results on CWMT2018 Tibetan-Chinese bilingual dataset show that the translation performance of the phonetic word fusion segmentation granularity significantly outperforms other segmentation granularity,and that integrating self-attention mechanism into the decoder can improve the translation quality greatly.In this paper,we also use the additional WMT2017 German-English bilingual dataset to demonstrate the universality of the proposed method across different languages.

作者沙九冯冲张天夫郭宇航刘芳 SHA Jiu;FENG Chong;ZHANG Tianfu;GUO Yuhang;LIU Fang(Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications,School of Computer Science&Technology,Beijing Institute of Technology,Beijing 100081,China;Key Laboratory of Language Engineering and Cognitive Computing,Ministry of Industry and Information Technology,School of Foreign Languages,Beijing Institute of Technology,Beijing 100081,China)

机构地区北京理工大学计算机学院北京理工大学外国语学院

出处《厦门大学学报（自然科学版）》 CAS CSCD 北大核心 2020年第2期213-219,共7页 Journal of Xiamen University：Natural Science

基金国家重点研发计划(2016YFB0801200,2018YFC0832104) 国家自然科学基金(U1636203)。

关键词音词融合藏汉双向神经机器翻译 syllable words fusion Tibetan-Chinese bidirectional neural machine translation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：28
2拉玛扎西,才智杰,扎西吉.藏文紧缩格识别方法[J].计算机应用研究,2019,36(4):1080-1083. 被引量：6

二级参考文献27

1宋金兰.汉藏语形态变体的分化[J].民族语文,2002(1):29-33. 被引量：5
2才藏太,华关加.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究[J].中文信息学报,2005,19(6):7-12. 被引量：10
3苏俊峰.基于HMM的藏语语料库词性自动标注研究[D].西北民族大学硕士学位论文,2010. 被引量：1
4扎西次仁.一个人机互助的藏文分词和词登录系统的设计[C].中国少数民族语言文字现代化文集.北京:民族出版社,1999:322-327. 被引量：3
5龙从军.藏语形容词性语素研究[J].JournalofChineseLanguageandComputing.2006,15(4):193—201. 被引量：1
6J Lafferty, A McCallum, F Pereira. Conditional Ran- dom Fields~ Prohabilistic Models for Segmenting and Labeling Sequence Data[C~//Proceedings of ICML- 2001, 2001 :282-289. 被引量：1
7Adam L Berger, Stephen A Della Pietra, Vincent J Della Pietra. A Maximum Entropy Approach to Natu- ral Language Processing[J].Computational Linguis- tics, 1996, 1(22):39-71. 被引量：1
8康才唆.藏语分词与词性标注研究[D].上海师范大学博士学位论文,2014. 被引量：1
9才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
10才智杰,才让卓玛.班智达藏文标注词典设计[J].中文信息学报,2010,24(5):46-49. 被引量：15

共引文献30

1沙九,冯冲,周鹭琴,李洪政,张天夫,慧慧.面向司法领域的高质量开源藏汉平行语料库构建[J].中文信息学报,2021,35(11):51-59. 被引量：4
2余长春,拥措.基于HTTP协议面向藏文文本的实时监测技术研究[J].网络空间安全,2016,7(9):45-48.
3孙丽萍,戴玉刚.面向公共信息服务的藏文问题分类方法研究[J].无线互联科技,2018,15(17):105-107. 被引量：1
4桑杰端珠,才让加.神经网络藏文分词方法研究[J].青海科技,2018,25(6):15-21. 被引量：8
5拉玛扎西,才智杰,扎西吉.藏文紧缩格识别方法[J].计算机应用研究,2019,36(4):1080-1083. 被引量：6
6陆雯洁,谭儒昕,刘功申,孙环荣.基于半监督学习的小语种机器翻译算法[J].厦门大学学报（自然科学版）,2019,58(2):200-208. 被引量：8
7Lili Wang,Ziyan Chen,Hongwu Yang.TPOS Tagging Method Based on BiLSTM_CRF Model[J].国际计算机前沿大会会议论文集,2019(1):501-503.
8刘一丁,陈晓琳,尹晓阳,刘功申.资源贫乏型语言间文本相似度计算方法[J].指挥信息系统与技术,2019,10(4):27-32. 被引量：5
9才让当知,华却才让,却措卓玛,夏吾吉.基于混合模式的藏文音节切分[J].内蒙古师范大学学报（自然科学汉文版）,2019,48(5):406-412. 被引量：1
10才让卓玛,才智杰.基于词性约束的藏文分词策略与算法[J].中文信息学报,2020,34(2):33-37. 被引量：7

同被引文献44

1沙九,冯冲,周鹭琴,李洪政,张天夫,慧慧.面向司法领域的高质量开源藏汉平行语料库构建[J].中文信息学报,2021,35(11):51-59. 被引量：4
2冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020(7):1-18. 被引量：36
3曹骞,熊德意.基于数据扩充的翻译记忆库与神经机器翻译融合方法[J].中文信息学报,2020(5):36-43. 被引量：6
4才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J].中文信息学报,2011,25(6):157-161. 被引量：18
5诺明花,刘汇丹,吴健,丁治明.基于关联度的汉藏多词单元等价对抽取方法[J].中文信息学报,2012,26(3):98-103. 被引量：1
6高定国,扎西加,赵栋材.计算机识别藏语虚词的方法研究[J].中文信息学报,2014,28(1):113-117. 被引量：15
7李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：28
8李亚超,熊德意,张民,江静,马宁,殷建民.藏汉神经网络机器翻译研究[J].中文信息学报,2017,31(6):103-109. 被引量：17
9李亚超,熊德意,张民.神经机器翻译综述[J].计算机学报,2018,41(12):2734-2755. 被引量：110
10桑杰端珠,才让加.神经网络藏文分词方法研究[J].青海科技,2018,25(6):15-21. 被引量：8

引证文献7

1沙九,冯冲,周鹭琴,李洪政,张天夫,慧慧.面向司法领域的高质量开源藏汉平行语料库构建[J].中文信息学报,2021,35(11):51-59. 被引量：4
2郭小华.基于深度神经网络的机器翻译智能重排序系统设计[J].自动化与仪器仪表,2021(7):140-142. 被引量：3
3赵崇俊.基于CNN的英语机器翻译微小误差检测系统设计[J].自动化与仪器仪表,2022(4):210-213. 被引量：5
4孙义栋,拥措,杨丹.基于VOLT的藏汉双向机器翻译[J].计算机与现代化,2022(5):28-32. 被引量：3
5严松思,珠杰,汪超.MP-CMLMs模型的藏汉机器翻译研究[J].计算机与数字工程,2023,51(2):401-404. 被引量：1
6桑杰端珠,才让加.基于词典注入的藏汉机器翻译模型预训练方法[J].中文信息学报,2023,37(8):43-51. 被引量：1
7严松思,珠杰,汪超,刘亚姗,许泽洲,徐泽辉.藏文虚词知识融合的藏汉机器翻译方法研究[J].中央民族大学学报（自然科学版）,2024,33(1):20-27.

二级引证文献16

1王婷婷.基于HNC理论机器翻译系统中语义块主辅变换研究[J].吉林农业科技学院学报,2022,31(1):63-66.
2田苗.大学生英语学习中英语翻译APP优化设计[J].现代科学仪器,2022,39(4):41-45.
3宋梦媛.一种基于多任务CNN的多模态人脸识别模型[J].云南师范大学学报（自然科学版）,2022,42(5):47-52. 被引量：3
4向成洪,黄小燕.基于数据挖掘算法的英语发音机器质量自动评估系统[J].自动化与仪器仪表,2022(9):147-151. 被引量：1
5李星.基于神经网络的智能外语翻译机器人语义纠错系统[J].自动化与仪器仪表,2023(1):246-250. 被引量：3
6徐硕,张萌萌,柳力元,王聪聪,孙睿,李怡琳,徐金楠,安欣.新冠领域溯源类论文筛选及全文实体标注研究[J].农业图书情报学报,2023,35(1):87-98.
7张少宇.基于Transformer技术的机器翻译设计与开发[J].信息与电脑,2023,35(2):173-176. 被引量：1
8严松思,珠杰,汪超.MP-CMLMs模型的藏汉机器翻译研究[J].计算机与数字工程,2023,51(2):401-404. 被引量：1
9王琳,刘伍颖.基于集成机器翻译的双语平行语料无监督质量评价[J].山西大学学报（自然科学版）,2023,46(3):528-536. 被引量：1
10桑杰端珠,才让加.基于词典注入的藏汉机器翻译模型预训练方法[J].中文信息学报,2023,37(8):43-51. 被引量：1

1庄宇勤.重生长巧搭架以思维育素养[J].中学数学教学参考,2019,0(29):18-18.
2程熙华.直角三角形综合题探析[J].中学数学（初中版）,2020(4):50-51.
3徐毓,赖华,余正涛,高盛祥,文永华.基于深度可分离卷积的汉越神经机器翻译[J].厦门大学学报（自然科学版）,2020,59(2):220-224. 被引量：2

厦门大学学报（自然科学版）

2020年第2期

浏览历史

内容加载中请稍等...

多策略切分粒度的藏汉双向神经机器翻译研究被引量：7

参考文献2

二级参考文献27

共引文献30

同被引文献44

引证文献7

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

多策略切分粒度的藏汉双向神经机器翻译研究 被引量：7

参考文献2

二级参考文献27

共引文献30

同被引文献44

引证文献7

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

多策略切分粒度的藏汉双向神经机器翻译研究被引量：7