中文字粒度切分在蒙汉机器翻译的应用被引量：2

Application of Chinese Character in Mongolian-Chinese Machine Translation

下载PDF

导出

摘要在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升,字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明,字级别的蒙汉翻译模型更能捕捉单元之间的语义联系,提高蒙汉翻译性能。 Most current NMT models applies word or sub-word as the unit to learn embedded representations.To deal with the existing errors at the word level,this paper conducts sub-word segmentation for Mongolian,and sub-word and character segmentation for Chinese,respectively,on the translation models of LSTM and Transformer.Experimental results show that transformer and LSTM models with char segmentation both achieve significant improvements in terms of BLEU.

作者苏依拉高芬仁庆道尔吉 SU Yila;GAO Fen;RENQING Dao'erji(College of Information Engineering,Inner Mongolia University of Technology,Hohhot,Inner Mongolia 010080,China)

机构地区内蒙古工业大学信息工程学院

出处《中文信息学报》 CSCD 北大核心 2019年第12期54-60,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61966027,61966028) 内蒙古自治区自然科学基金(2016MS0605) 内蒙古自治区民族事务委员会基金(MW-2017-MGYWXXH-03)

关键词字粒度切分 TRANSFORMER LSTM char granular segmentation Transformer LSTM

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘洋.神经机器翻译前沿进展[J].计算机研究与发展,2017,54(6):1144-1149. 被引量：109
2任众,侯宏旭,吉亚图,武子玉,白天罡,雷颖.子字粒度切分在蒙汉神经机器翻译中的应用[J].中文信息学报,2019,33(1):85-92. 被引量：9
3韩冬,李军辉,熊德意,周国栋.基于子字单元的神经机器翻译未登录词翻译分析[J].中文信息学报,2018,32(4):74-79. 被引量：10

二级参考文献1

1赵红梅,吕雅娟,贲国生,黄云,刘群.第七届全国机器翻译研讨会机器翻译评测总结[J].中文信息学报,2012,26(1):22-30. 被引量：8

共引文献120

1赵莹莹.机器翻译与人工翻译特点对比与关系分析[J].作家天地,2020(13):30-31.
2王醒.译军突起:人工翻译能否经受住机器翻译的考验?[J].现代英语,2021(10):72-74. 被引量：1
3贾承勋,赖华,余正涛,文永华,于志强.基于短语替换的汉越伪平行句对生成[J].中文信息学报,2021,35(8):47-55. 被引量：2
4朱婕.汉韩机器翻译错误分析[J].大众标准化,2021(2):134-136.
5夏玲,李宜蔓,李弘武.人工智能背景下科技论文摘要的机器翻译与译后编辑[J].编辑学报,2022,34(4):396-401. 被引量：15
6张有礼.在西医病房会诊的体会[J].中医杂志,2000,41(4):212-213.
7王家义,李德凤,李丽青.大数据背景下的互联网翻译——开源理念与模式创新[J].中国翻译,2018,39(2):78-82. 被引量：14
8张双祥.机器翻译应用现状与问题——以特朗普就职演讲的百度译文为例[J].大学英语教学与研究,2018,57(1):35-41. 被引量：1
9范冠艳.机器翻译在档案学科的应用研究——以ITrust北美团队最新学术成果为例[J].档案学研究,2018(3):114-120. 被引量：4
10胡富茂,张克亮.面向机器翻译的双语语块对应研究[J].外语电化教学,2018(3):83-87. 被引量：3

同被引文献18

1刘忠宝.一种改进的线性判别分析算法在人脸识别中的应用[J].计算机工程与科学,2011,33(7):89-93. 被引量：6
2晋耀红.一种混合策略的专利机器翻译系统研究[J].计算机工程与应用,2012,48(4):29-32. 被引量：12
3朱筠,晋耀红.面向汉英专利机器翻译的复杂谓语形态转换研究[J].语言文字应用,2015(1):127-135. 被引量：3
4胡韧奋.面向汉英专利机器翻译的介词短语自动识别策略[J].语言文字应用,2015(1):136-144. 被引量：8
5张霄军,刘群.第十四届机器翻译峰会(MT Summit XIV)综述[J].中文信息学报,2015,29(1):203-206. 被引量：1
6李洪政,赵凯,胡韧奋,蒋宏飞,朱筠,晋耀红.面向专利领域的汉英机器翻译融合系统[J].情报工程,2017,3(3):105-115. 被引量：7
7赵子甲.基于专利视角的我国新能源产业技术发展态势研究[J].中国发明与专利,2019,16(10):36-42. 被引量：8
8李东博,黄铝文.重加权稀疏主成分分析算法及其在人脸识别中的应用[J].计算机应用,2020,40(3):717-722. 被引量：7
9方炯焜,陈平华,廖文雄.结合GloVe和GRU的文本分类模型[J].计算机工程与应用,2020,56(20):98-103. 被引量：27
10段丹丹,唐加山,温勇,袁克海.基于BERT模型的中文短文本分类算法[J].计算机工程,2021,47(1):79-86. 被引量：79

引证文献2

1游新冬,杨海翔,陈海涛,孙甜,吕学强.融合术语信息的新能源专利机器翻译研究[J].中文信息学报,2021,35(12):76-83. 被引量：1
2陈蓝,杨帆,曾桢.优化预训练模型的小语料中文文本分类方法[J].现代计算机,2022,28(16):1-8. 被引量：1

二级引证文献2

1张金鹏,段湘煜.结合向量化方法与掩码机制的术语干预翻译模型[J].计算机工程,2023,49(11):70-76.
2鲁富宇,冷泳林,崔洪霞.基于多元语义特征和图卷积神经网络的短文本分类模型[J].河南科学,2024,42(5):625-630.

1苏依拉,张振,仁庆道尔吉,牛向华,高芬,赵亚平.Transformer-CRF词切分方法在蒙汉机器翻译中的应用[J].中文信息学报,2019,33(10):38-46. 被引量：4
2刘凯洋.结合Bert字向量和卷积神经网络的新闻文本分类方法[J].电脑知识与技术,2020,16(1):187-188. 被引量：6
3慈祯嘉措,桑杰端珠,孙茂松,色差甲,周毛先.融合单语语言模型的藏汉机器翻译方法研究[J].中文信息学报,2019,33(12):61-66. 被引量：5
4张宜飞,王中卿,王红玲.基于篇章层次结构的商品评论摘要[J].计算机科学,2020,47(2):195-200.
5毕京鹏,张丽,王萍,李通,杨昊翔,毕森.基于对象及隶属规则的海岸水边线提取方法[J].海岸工程,2019,38(4):247-260.
6车万金,余正涛,郭军军,文永华,于志强.融入分类词典的汉越混合网络神经机器翻译集外词处理方法[J].中文信息学报,2019,33(12):67-75. 被引量：3

中文信息学报

2019年第12期

浏览历史

内容加载中请稍等...

中文字粒度切分在蒙汉机器翻译的应用被引量：2

参考文献3

二级参考文献1

共引文献120

同被引文献18

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文字粒度切分在蒙汉机器翻译的应用 被引量：2

参考文献3

二级参考文献1

共引文献120

同被引文献18

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文字粒度切分在蒙汉机器翻译的应用被引量：2