期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于单语语料和词向量对齐的蒙汉神经机器翻译研究 被引量:12
1
作者 曹宜超 高翊 +3 位作者 李淼 冯韬 王儒敬 付莎 《中文信息学报》 CSCD 北大核心 2020年第2期27-32,37,共7页
近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器-解码器神... 近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器-解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的词向量空间进行对齐并用它来初始化模型的词嵌入层,然后应用联合训练的方式同时训练蒙古语到汉语的翻译和汉语到蒙古语的翻译。并且在翻译的过程中,最后使用蒙古语和汉语的单语语料对模型进行去噪自编码的训练,增强编码器的编码能力和解码器的解码能力。实验结果表明该文所提出方法的效果明显高于基线模型,证明该方法可以提高蒙汉神经机器翻译的性能。 展开更多
关键词 蒙汉神经机器翻译 单语语料 词向量对齐
下载PDF
子字粒度切分在蒙汉神经机器翻译中的应用 被引量:9
2
作者 任众 侯宏旭 +3 位作者 吉亚图 武子玉 白天罡 雷颖 《中文信息学报》 CSCD 北大核心 2019年第1期85-92,共8页
在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成... 在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下,更高效地提升模型的鲁棒性。实验表明,在两种网络模型中使用子字粒度切分技术,BLEU值分别提升了4.81和2.96,且随着语料的扩大,训练周期缩短效果也更加显著,说明子字粒度切分技术有助于提高蒙汉神经机器翻译效果。 展开更多
关键词 蒙汉神经机器翻译 数据稀疏 子字粒度切分
下载PDF
基于参数共享的篇章级蒙汉神经机器翻译
3
作者 张根茂 田永红 +1 位作者 郝佳 张佳颖 《中央民族大学学报(自然科学版)》 2024年第2期48-53,共6页
针对传统蒙汉神经机器翻译缺少对篇章上下文的有效利用问题,构建了基于Transformer模型的篇章级蒙汉神经机器翻译模型,编码端使用相对注意力机制对多个句子检索全局上下文信息,解码端使用基于缓存的方法记录已翻译句子的相关信息,在预... 针对传统蒙汉神经机器翻译缺少对篇章上下文的有效利用问题,构建了基于Transformer模型的篇章级蒙汉神经机器翻译模型,编码端使用相对注意力机制对多个句子检索全局上下文信息,解码端使用基于缓存的方法记录已翻译句子的相关信息,在预测当前句子的过程中,使用缓存的句子信息作为篇章上下文信息,同时利用分组策略共享层与层之间的参数,减少模型的参数量,在有限的内存中尽可能多地提高语料的利用率。实验结果表明,融合参数共享策略的篇章级模型比句子级Transformer模型在BLEU4上高8.7,比不加入参数共享的篇章级机器翻译模型在BLEU4上高2.49。 展开更多
关键词 蒙汉神经机器翻译 参数共享 篇章上下文
下载PDF
基于多粒度的蒙汉神经机器翻译研究 被引量:3
4
作者 高芬 苏依拉 +3 位作者 牛向华 赵旭 范婷婷 仁庆道尔吉 《计算机应用与软件》 北大核心 2020年第4期145-149,170,共6页
在蒙汉神经机器翻译中,输入序列的基本粒度对翻译效果有一定的影响。为了选择合适的翻译粒度,分别对蒙古语和汉语进行词-词、词-子词、子词-词、子词-子词粒度的切分,并对比不同粒度在长短时记忆网络和Transformer翻译模型中的翻译表现... 在蒙汉神经机器翻译中,输入序列的基本粒度对翻译效果有一定的影响。为了选择合适的翻译粒度,分别对蒙古语和汉语进行词-词、词-子词、子词-词、子词-子词粒度的切分,并对比不同粒度在长短时记忆网络和Transformer翻译模型中的翻译表现。实验结果表明,在两种翻译模型中,对两种语料同时进行子词粒度切分效果最好。 展开更多
关键词 蒙汉神经机器翻译 翻译粒度 长短时记忆 Transformer 子词粒度
下载PDF
结合BERT数据增强的基于词切分的蒙汉神经机器翻译系统 被引量:2
5
作者 何乌云 秀芝 +2 位作者 包晶晶 陈美兰 王斯日古楞 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期667-674,共8页
神经机器翻译是目前机器翻译领域主流研究方法,但是蒙汉平行语料的稀缺使得蒙汉神经机器翻译性能难以提升.本文针对基于Transformer的蒙汉神经机器翻译系统,利用深度学习模型对蒙古文词切分方法进行研究,分析了蒙古文部分切分、BPE子词... 神经机器翻译是目前机器翻译领域主流研究方法,但是蒙汉平行语料的稀缺使得蒙汉神经机器翻译性能难以提升.本文针对基于Transformer的蒙汉神经机器翻译系统,利用深度学习模型对蒙古文词切分方法进行研究,分析了蒙古文部分切分、BPE子词切分和BiLSTM-CNN-CRF神经网络切分方法对于蒙汉机器翻译模型的影响,并在此基础上利用基于BERT(bidirectional encoder representations from Transformers)中文语义相似度计算的数据增强技术去扩充蒙汉机器翻译训练数据.在CCMT2019提供的数据集上进行对比实验,实验结果表明,数据增强方法的BLEU值相较于基线实验提升显著,且BLEU4值达到了75.28%. 展开更多
关键词 蒙汉神经机器翻译 Transformer神经网络 BERT 语义相似度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部