期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于多种数据筛选的维汉神经机器翻译 被引量:3
1
作者 艾山·吾买尔 +1 位作者 买合木提·买买提 吐尔根·依布拉音 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期660-666,共7页
为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强... 为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强的汉维翻译模型,在该汉维模型的基础之上通过反向翻译的方法生成质量较好的生成数据,并利用不同的数据筛选方法进一步得到高质量生成数据.之后利用现有的平行数据和生成数据训练得到一个高性能的维吾尔语-汉语神经机器翻译系统.在CCMT2021维汉评测任务中验证上述方法对于维汉翻译质量的影响,对比基线系统、反向翻译和同任务其他系统,该方法训练得到的系统有着更好的翻译结果,并在该翻译任务上获得了第一名. 展开更多
关键词 维汉翻译 自注意力机制 低资源翻译
下载PDF
利用循环翻译提高维汉机器翻译性能实践探究
2
作者 敖乃翔 郭锐 +1 位作者 艾山·吾买尔 《电脑知识与技术》 2022年第22期1-4,共4页
目前通常使用反向翻译来提升翻译模型的性能。因为通过反向翻译获得的伪造数据质量参差不齐,一般需要筛选反向翻译得到的句子,然后与真实数据混合使用。因此,该文在维汉机器翻译任务中,对利用BLEU值、MAS、BERT及多种相似度计算方法融... 目前通常使用反向翻译来提升翻译模型的性能。因为通过反向翻译获得的伪造数据质量参差不齐,一般需要筛选反向翻译得到的句子,然后与真实数据混合使用。因此,该文在维汉机器翻译任务中,对利用BLEU值、MAS、BERT及多种相似度计算方法融合等进行深入对比分析,并提供详细的统计分析。通过实验发现循环翻译在很大程度上可以隐式地区分不同领域的数据。CCMT19维汉翻译任务上,通过将不同筛选方法的融合,翻译性能有1.95个bleu的提升。 展开更多
关键词 反向翻译 循环翻译 筛选 相似度
下载PDF
基于多亚词序列融合的神经机器翻译
3
作者 刘婉月 艾山·吾买尔 +3 位作者 李哲 韩越 张大任 《中文信息学报》 CSCD 北大核心 2023年第2期87-96,106,共11页
在神经机器翻译模型中,BPE(Byte Pair Encoding)方法用于解决模型不能正确翻译罕见词和不可见词的问题。但是BPE只能将单词切分成唯一的亚词序列,面对形态丰富的语言,同一个词存在多种不同的组合,但是模型只能学习单词的一种组合方式,... 在神经机器翻译模型中,BPE(Byte Pair Encoding)方法用于解决模型不能正确翻译罕见词和不可见词的问题。但是BPE只能将单词切分成唯一的亚词序列,面对形态丰富的语言,同一个词存在多种不同的组合,但是模型只能学习单词的一种组合方式,这会阻碍模型更好地学习单词的不同组合特性。该文提出一种加标签融合多种亚词序列的方法,不同BPE融合次数切分相同的训练数据,得到不同的亚词序列,进行加标签融合,其中相同单词的不同亚词参与训练,使模型能够更好地学习词的不同的组合形式。该文中的方法在形态复杂的语言和形态简单的语言对上均有了0.5个BLEU值以上的提高。实验表明,不同的亚词序列质量越好,相似度越低,融合后训练的翻译模型质量越好。 展开更多
关键词 BPE 亚词序列 加标签融合
下载PDF
基于CNN与Transformer混合结构的多语言图像标题生成研究 被引量:2
4
作者 张大任 艾山·吾买尔 +2 位作者 刘婉月 韩越 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第2期68-75,共8页
针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题,提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入,然后解码端的输入为添... 针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题,提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入,然后解码端的输入为添加语言标签、进行分词与拉丁化处理后的6种语言,训练时将不同语言的损失和作为优化目标,最终实现不同语言间的联合训练.以Flickr8K数据集为基础,拓展了包含6种语言的多语言图像标题生成数据集,并在该数据集上进行了验证.结果表明:该模型可以同时生成多种语言的图像标题,且生成质量比相同规模的单语言模型质量高,并验证了该方法的有效性. 展开更多
关键词 多语言 深度学习 TRANSFORMER 联合训练 图像标题生成
下载PDF
集成多种策略模型的维汉神经网络机器翻译系统 被引量:3
5
作者 艾山·吾买尔 刘胜全 《现代计算机》 2021年第21期41-46,共6页
神经网络机器翻译已经成为机器翻译研发的主流技术,但是大多数低资源语言仍然没法研发可使用的机器翻译系统。研究人员为了克服数据不足问题,提出了反向翻译、知识蒸馏、模型平均等多种辅助提高翻译模型性能的方法。虽然,这些方法单独... 神经网络机器翻译已经成为机器翻译研发的主流技术,但是大多数低资源语言仍然没法研发可使用的机器翻译系统。研究人员为了克服数据不足问题,提出了反向翻译、知识蒸馏、模型平均等多种辅助提高翻译模型性能的方法。虽然,这些方法单独使用能带来一定的提升,但是集成多种策略后的效果仍不明确。本文以全国机器翻译大会的维汉机器翻译评测任务目标,对多种策略分别进行实验,然后集成多种策略所得到的翻译模型实现了性能得到显著提升的维汉翻译系统。 展开更多
关键词 反向翻译 伪造数据 知识蒸馏 模型平均
下载PDF
“故事大王”爱讲社区故事
6
作者 韦军 《中国社会工作》 2012年第20期50-50,共1页
“讲故事、听故事”,这是许多人童年的美好回忆,那些或曲折,或惊险,或感人的故事在“故事大王”的口中娓娓道来,比起电视画面来多了一份遐想,比起宣传报告会多了一份亲切。如今,在蜀山区井岗镇十里庙社区,就有一位“故事大王”... “讲故事、听故事”,这是许多人童年的美好回忆,那些或曲折,或惊险,或感人的故事在“故事大王”的口中娓娓道来,比起电视画面来多了一份遐想,比起宣传报告会多了一份亲切。如今,在蜀山区井岗镇十里庙社区,就有一位“故事大王”,他名叫王祥周,8年来,他坚持为社区居民讲述自己身边的故事,精彩的讲述,深受居民喜爱。 展开更多
关键词 社区居民 讲故事 电视画面 报告会
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部