期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于多语言联合训练的汉-英-缅神经机器翻译方法 被引量:13
1
作者 满志博 毛存礼 +3 位作者 余正涛 李训宇 高盛祥 朱俊国 《清华大学学报(自然科学版)》 CSCD 北大核心 2021年第9期927-935,共9页
多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由... 多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由差异性引起的共享词表大小受限制问题,该文提出一种基于多语言联合训练的汉英缅神经机器翻译方法。在Transformer框架下将丰富的汉英平行语料与较少的汉缅、英缅语料进行联合训练,模型训练过程中分别在编码端和解码端将汉英缅映射在同一语义空间以降低汉英缅语言结构差异性对共享词表的影响,通过共享汉英语料训练参数来弥补汉缅、英缅语料缺失的问题。实验结果表明:在一对多、多对多的翻译场景下,所提方法的BLEU值比基线模型的汉英、英缅以及汉缅翻译结果有明显提升。 展开更多
关键词 汉语-英语-缅甸语 源语言 语言神经机器翻译 联合训练 语义空间映射 共享参数
原文传递
低资源场景下印尼语-汉语机器翻译模型对比分析研究 被引量:8
2
作者 李霞 马骏腾 +1 位作者 肖莉娴 王连喜 《湖南工业大学学报》 2020年第3期10-16,共7页
低资源场景下神经机器翻译模型的翻译效果通常不如大规模训练数据下的模型翻译效果好。针对这个问题,选取RNN-based和Transformer-based两个主流神经机器翻译模型进行研究,探究在印尼语到汉语翻译在低资源场景下的机器翻译效果,并通过... 低资源场景下神经机器翻译模型的翻译效果通常不如大规模训练数据下的模型翻译效果好。针对这个问题,选取RNN-based和Transformer-based两个主流神经机器翻译模型进行研究,探究在印尼语到汉语翻译在低资源场景下的机器翻译效果,并通过实验分析和案例分析,给出两种模型在印尼语到汉语低资源场景下翻译的适应性分析。 展开更多
关键词 神经机器翻译 序列到序列翻译模型 源语言 印尼语-汉语 TRANSFORMER
下载PDF
融合多策略数据增强的低资源依存句法分析方法 被引量:6
3
作者 线岩团 高凡雅 +2 位作者 相艳 余正涛 王剑 《计算机科学》 CSCD 北大核心 2022年第1期73-79,共7页
依存句法分析旨在识别句子中词与词之间的句法依赖关系。依存句法能为信息抽取、自动问答和机器翻译等任务提供句法特征,提高模型性能。训练数据规模对依存句法分析模型的性能具有重要影响,训练数据的缺乏会带来严重的未知词问题和模型... 依存句法分析旨在识别句子中词与词之间的句法依赖关系。依存句法能为信息抽取、自动问答和机器翻译等任务提供句法特征,提高模型性能。训练数据规模对依存句法分析模型的性能具有重要影响,训练数据的缺乏会带来严重的未知词问题和模型过拟合问题。文中针对低资源依存句法分析问题,提出了多种数据增强策略。所提方法通过同义词替换有效扩充了训练数据,缓解了未知词问题。通过多种Mixup的数据增强策略,有效缓解了模型过拟合问题,提高了模型的泛化能力。在(Universal Dependencies treebanks,UD treebanks)数据集上的实验结果表明,所提方法有效提升了小规模训练语料条件下泰语、越南语和英语依存句法分析的性能。 展开更多
关键词 依存句法分析 源语言 Mixup数据增强 同义词替换 多策略
下载PDF
低资源语音识别研究进展
4
作者 余正涛 董凌 高盛祥 《昆明理工大学学报(自然科学版)》 北大核心 2024年第3期86-102,共17页
探讨低资源语音识别领域最新研究进展,旨在为未来研究和应用提供有益参考.首先,简要回顾了语音识别的发展过程,并介绍了当前主流端到端语音识别框架的基本原理.其次,针对低资源语音识别面临的问题,详细分析了在语音数据增强、自监督语... 探讨低资源语音识别领域最新研究进展,旨在为未来研究和应用提供有益参考.首先,简要回顾了语音识别的发展过程,并介绍了当前主流端到端语音识别框架的基本原理.其次,针对低资源语音识别面临的问题,详细分析了在语音数据增强、自监督语音表征学习、多语言联合学习、结合大语言模型以及语言知识增强5个方面的相关研究工作.最后,对低资源语音识别未来的研究方向进行了展望. 展开更多
关键词 语音识别 源语言 数据增强 语音表征学习 语言模型 语言知识
原文传递
面向“一带一路”的低资源语言机器翻译研究
5
作者 侯钰涛 阿布都克力木·阿布力孜 +2 位作者 史亚庆 马依拉木·木斯得克 哈里旦木·阿布都克里木 《计算机工程》 CAS CSCD 北大核心 2024年第4期332-341,共10页
随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一... 随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一种基于NLLB模型改进的低资源语言机器翻译训练方法。首先基于多语言预训练模型提出一种改进的训练策略,该策略在数据增强的前提下,对损失函数进行优化,从而在机器翻译任务中有效提高低资源语言的翻译性能;然后使用ChatGPT以及ChatGLM模型分别评估老挝语-汉语以及越南语-汉语的翻译能力,大语言模型(LLM)已具备一定的翻译低资源语言的能力,而且ChatGPT模型在越南语-汉语翻译任务上已经大幅超越传统的神经机器翻译(NMT)模型,但是在老挝语上的翻译性能还有待进一步提高。实验结果表明,在4种低资源语言到汉语的翻译任务上,相比NLLB-600M基线模型,平均提升了1.33个双语替换测评(BLEU)值以及0.82个chrF++值,从而充分证明了该方法在低资源语言机器翻译任务上的有效性。此外,该方法使用ChatGPT和ChatGLM模型分别对老挝语-汉语以及越南语-汉语进行了初步研究,在越南语-汉语翻译任务中,ChatGPT模型表现出色,远超传统的NMT模型,分别提高了9.28个BLEU值和3.12个chrF++值。 展开更多
关键词 源语言 机器翻译 数据增强 语言预训练模型 语言模型
下载PDF
面向机器阅读理解的高质量藏语数据集构建
6
作者 孙媛 刘思思 +2 位作者 陈超凡 旦正错 赵小兵 《中文信息学报》 CSCD 北大核心 2024年第3期56-64,共9页
机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但... 机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但对于低资源语言,由于缺乏相应的数据集,机器阅读理解研究尚处于起步阶段。该文以藏语为例,人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含20000个问题答案对和1513篇文章。该数据集的文章均来自云藏网,涵盖了自然、文化和教育等12个领域,问题形式多样且具有一定的难度。另外,该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面,均采用严格的流程以确保数据的质量,同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后,该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现,其结果难以媲美人类,这表明藏语机器阅读理解任务还需要更进一步的探索。 展开更多
关键词 机器阅读理解 源语言 藏语 数据集
下载PDF
ChatGPT背景下低资源语言何去何从?
7
作者 姚登峰 赵源 +2 位作者 叶毓睿 饶高琦 阿布都克力木·阿布力孜 《乐山师范学院学报》 2024年第8期36-44,共9页
随着自然语言处理技术的不断发展和普及,语言处理领域中的马太效应越来越明显。这种现象主要表现为主流语言获得更多的资源和关注,而低资源语言则面临着信息孤岛和数字鸿沟等问题。由于ChatGPT的训练数据主要来自于主流语言,导致其在低... 随着自然语言处理技术的不断发展和普及,语言处理领域中的马太效应越来越明显。这种现象主要表现为主流语言获得更多的资源和关注,而低资源语言则面临着信息孤岛和数字鸿沟等问题。由于ChatGPT的训练数据主要来自于主流语言,导致其在低资源语言中表现不佳,也使得低资源语言的语言处理能力和应用受到了限制,从而进一步加剧了马太效应。拥抱ChatGPT可以帮助低资源语言更好地融入数字时代的信息交流中,促进全球语言和文化的多样性。通过群智感知的方式共同推动低资源语言处理技术的进步,促进全球语言和文化的多样性和交流;同时ChatGPT也需要注重数据和信息的质量控制,以及在低资源语言中的适应性和可扩展性。ChatGPT可以促进低资源语言的信息化和自然语言处理能力的提升,但也需要认识到ChatGPT可能会加剧马太效应,因此需要采取措施确保这种技术的发展不会削弱低资源语言的地位,以期保护和推动语言多样性发展。 展开更多
关键词 ChatGPT 源语言 马太效应 支配性语言问题
下载PDF
基于数据增强的藏文改写检测研究 被引量:5
8
作者 赵小兵 鲍薇 +1 位作者 董建 包乌格德勒 《中文信息学报》 CSCD 北大核心 2019年第12期83-90,共8页
该文针对藏文语料稀缺的问题,在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法,在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中,该文使用数据增强方法,有效利用目前公开的藏汉平行语料... 该文针对藏文语料稀缺的问题,在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法,在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中,该文使用数据增强方法,有效利用目前公开的藏汉平行语料,扩充藏汉跨语言文本改写检测训练语料,当扩充至20万句对时,藏汉改写检测模型的皮尔森系数(pearson correlation)达到0.5476,比基线系统的皮尔森系数提升了0.3971,表明藏汉改写检测模型检测出的句对相似度值与人工标注的相似度值已达到中等程度相关。在藏文单语言任务中,该文采用训练藏文音节向量的方法,以缓解语料稀缺带来的词向量稀疏问题。实验结果表明,基于藏文音节向量的藏文改写检测模型的皮尔森系数可达到0.6780,比相应的基于藏文词向量实验的结果提升了0.1,使得藏文单语言文本改写检测模型的检测结果与人工标注的结果达到了强相关程度。 展开更多
关键词 改写检测 数据增强 孪生网络 源语言
下载PDF
融合多粒度特征的低资源语言词性标注和依存分析联合模型 被引量:1
9
作者 陆杉 毛存礼 +3 位作者 余正涛 高盛祥 黄于欣 王振晗 《中文信息学报》 CSCD 北大核心 2023年第7期13-22,共10页
研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表... 研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表示,利用不同的语言模型分别获得字符、子词以及词语层面的语义信息,将三种粒度的词嵌入进行拼接,达到丰富语义信息的目的,缓解由于标注数据稀缺导致的依存分析模型性能不佳的问题。进一步将词性标注和依存分析模型进行联合训练,使模型之间能相互共享知识,降低词性标注错误在依存分析任务上的线性传递。以泰语、越南语为研究对象,在宾州树库数据集上的试验表明,该文方法相比于基线模型的UAS、LAS、POS均有明显提升。 展开更多
关键词 源语言 词性标注 依存分析 多粒度特征 联合模型
下载PDF
我国低资源语言大规模数据建构及语言田野实践的数据转向 被引量:1
10
作者 范俊军 沐华 《云南师范大学学报(哲学社会科学版)》 北大核心 2023年第6期25-35,共11页
低资源语言是指缺乏可用于自然语言处理任务和语言学计量分析所需足够基础数据的语言。低资源语言数据稀缺,是当前语言科学和自然语言处理共同面临的问题。语言数据资源最基础的部分是单语或双语词汇、语句的语音和文本数据。我国普通... 低资源语言是指缺乏可用于自然语言处理任务和语言学计量分析所需足够基础数据的语言。低资源语言数据稀缺,是当前语言科学和自然语言处理共同面临的问题。语言数据资源最基础的部分是单语或双语词汇、语句的语音和文本数据。我国普通话、粤方言、藏语、维吾尔语、蒙古语、壮语总体属于高资源语言,其他语言都属于低资源语言,其中县乡语言和方言属零资源语言。建构我国低资源语言的大规模数据,有助于强化我们掌握自己国家语言资源的控制权,发挥我国自然语言处理领域在语言模型技术创新中的独特作用,推动语言田野工作的数据转向,创新田野语言学理论和实践,促进基于数据计量的语言学广域研究。建构我国低资源语言数据,主要有四项任务:一是建构大规模词语数据集,二是建构知识语义词网,三是建构大规模句子数据集,四是现有语言资料的数据化。 展开更多
关键词 源语言 少数民族语言 自然语言处理(NLP) 田野语言
下载PDF
语料循环推进低资源神经机器翻译 被引量:1
11
作者 刘伍颖 王琳 《中文信息学报》 CSCD 北大核心 2023年第6期89-95,共7页
双语句对资源稀缺导致一些基于深度学习的机器翻译算法无法在低资源机器翻译中取得更优的性能。因此该文针对低资源机器翻译中语言资源建设问题,提出语料循环推进思想,设计了多趟循环框架和半监督算法。这种框架是与具体机器翻译算法无... 双语句对资源稀缺导致一些基于深度学习的机器翻译算法无法在低资源机器翻译中取得更优的性能。因此该文针对低资源机器翻译中语言资源建设问题,提出语料循环推进思想,设计了多趟循环框架和半监督算法。这种框架是与具体机器翻译算法无关的元框架。而这种算法充分利用适当规模的双语种子资源和超大规模单语资源增量扩建双语句对资源,逐级训练机器翻译模型提高译文质量。多个语种的神经机器翻译实验结果证明,该文提出的语料循环推进能够利用源源不断的单语资源自我进化。其有效性不仅体现在易于实现高性能低资源机器翻译,更体现在是快速搭建精准领域机器翻译系统的实用选项。 展开更多
关键词 语料循环推进 机器翻译 源语言 半监督学习 增量学习
下载PDF
融合剪枝和多语微调的黏着语命名实体识别
12
作者 罗凯昂 哈里旦木·阿布都克里木 +2 位作者 刘畅 阿布都克力木·阿布力孜 郭文强 《计算机工程与应用》 CSCD 北大核心 2023年第24期121-130,共10页
以维吾尔语为代表的少数民族语言具有黏着性和资源匮乏等特点,为其命名实体识别任务带来了巨大挑战。与此同时,多语言模型存在参数规模和词表大、推理速度慢等问题。为此,通过对CINO进行重新剪枝,提出针对低资源黏着语命名实体识别的CIN... 以维吾尔语为代表的少数民族语言具有黏着性和资源匮乏等特点,为其命名实体识别任务带来了巨大挑战。与此同时,多语言模型存在参数规模和词表大、推理速度慢等问题。为此,通过对CINO进行重新剪枝,提出针对低资源黏着语命名实体识别的CINO新版本:CINO-Agglu。为了探讨最佳微调策略,缓解低资源问题,对维吾尔语、哈萨克语、柯尔克孜语、乌兹别克语、塔塔尔语等五种黏着语分别进行单语言和多语言微调。实验结果表明,CINO-Agglu相较于剪枝前,模型大小、参数量、词表大小、推理时间分别减少45%、44%、92%、38%,并且在五种语言上的平均F1值为85.9%,超过了所有基线模型。加入适当规模的同语族数据有利于提升微调效果。 展开更多
关键词 黏着语 源语言 命名实体识别 语言迁移 模型剪枝
下载PDF
基于词汇迁移的跨语言形态复用
13
作者 刘伍颖 王琳 《中文信息学报》 CSCD 北大核心 2023年第8期18-24,共7页
良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语... 良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语义转述应用任务中的有效性。在语言资源建设实验中,该文从马来语语料库提取印尼语多词表示,并从印尼语语料库提取马来语多词表示。在语义转述应用实验中,该文通过马来语资源增强的印尼语-汉语平行句库训练出印尼语-汉语神经机器翻译模型,并通过印尼语资源增强的马来语-汉语平行句库训练出马来语-汉语神经机器翻译模型。实验结果证明,由于同语族的形态同源性和相似性,同语族跨语言形态复用具有很强的可迁移性和可计算性。 展开更多
关键词 形态复用 形态迁移率 源语言 多词表示提取 神经机器翻译
下载PDF
印地语自然语言处理研究进展
14
作者 王连喜 林楠铠 +1 位作者 蒋盛益 邓致妍 《中文信息学报》 CSCD 北大核心 2023年第5期53-69,共17页
与西方语言相比,印地语是东南亚地区的一种低资源语言。由于缺少相应的语料、标注规范及计算模型,当前印地语自然语言处理工作并未得到重视,也不能较好地迁移通用语种研究中的前沿方法。该文在进行文献调研和计量分析的基础上,回顾了印... 与西方语言相比,印地语是东南亚地区的一种低资源语言。由于缺少相应的语料、标注规范及计算模型,当前印地语自然语言处理工作并未得到重视,也不能较好地迁移通用语种研究中的前沿方法。该文在进行文献调研和计量分析的基础上,回顾了印地语自然语言处理研究在基础资源建设、词性标注、命名实体识别、句法分析、词义消歧、信息检索、机器翻译、情感分析以及自动摘要等方面的研究进展,最后提出了该领域研究可能面临的问题及挑战,并展望未来发展趋势。 展开更多
关键词 印地语 自然语言处理 源语言
下载PDF
融合词簇约束的汉越跨语言词嵌入
15
作者 武照渊 余正涛 黄于欣 《计算机工程》 CAS CSCD 北大核心 2023年第1期82-91,共10页
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分... 针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分挖掘双语词典中的词簇对齐信息以融入到映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系,根据跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近,并利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果较差的问题,其在汉越双语词典归纳任务P@1和P@5上的对齐准确率相比最好基线模型提升了2.2个百分点。 展开更多
关键词 汉越双语 源语言 语言词嵌入 词簇对齐 多粒度约束
下载PDF
面向低资源俄汉机器翻译的领域适应方法 被引量:3
16
作者 刘欢 刘俊鹏 +1 位作者 黄锴宇 黄德根 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期654-659,共6页
基于Transformer的神经机器翻译在高资源语言对上取得了巨大的成功,但是在资源稀缺的情况下模型翻译效果较差.针对旅游口语领域的俄汉低资源机器翻译,本文通过扩充领域内数据和多种微调方法改善目标领域翻译质量.首先利用多种语料过滤... 基于Transformer的神经机器翻译在高资源语言对上取得了巨大的成功,但是在资源稀缺的情况下模型翻译效果较差.针对旅游口语领域的俄汉低资源机器翻译,本文通过扩充领域内数据和多种微调方法改善目标领域翻译质量.首先利用多种语料过滤方法得到通用领域俄汉语料,然后在不同参数配置的Transformer模型上进行预训练,探索多种领域适应性微调方法,得到最优模型,最后在译码阶段采用模型平均和后处理生成翻译结果.实验结果表明,该方法可以有效提升低资源场景下的俄汉机器翻译效果. 展开更多
关键词 神经机器翻译 源语言 领域适应 mRASP
下载PDF
基于情感语义对抗的跨语言情感分类模型
17
作者 赵亚丽 余正涛 +2 位作者 郭军军 高盛祥 相艳 《计算机工程与科学》 CSCD 北大核心 2023年第2期338-345,共8页
传统的基于机器翻译的跨语言情感分类方法,由于受机器翻译性能影响,导致越南语等低资源语言的情感分类准确率较低。针对源语言和目标语言标记资源不平衡的问题,提出一种基于情感语义对抗的跨语言情感分类模型。首先,将句子和句子中情感... 传统的基于机器翻译的跨语言情感分类方法,由于受机器翻译性能影响,导致越南语等低资源语言的情感分类准确率较低。针对源语言和目标语言标记资源不平衡的问题,提出一种基于情感语义对抗的跨语言情感分类模型。首先,将句子和句子中情感词进行拼接,用卷积神经网络对拼接后的句子分别进行特征抽取,分别获得单语语义空间下的情感语义表征;其次,通过对抗网络,在双语情感语义空间将带标签数据与无标签数据的情感语义表征进行对齐;最后,将句子与情感词最显著的表征进行拼接,得到情感分类结果。基于汉英公共数据集和自主构建的汉越数据集的实验结果表明,所提模型相比跨语言情感分类主流模型,实现了双语情感语义对齐,可以有效提升越南语情感分类的准确率,且在差异性不同的语言对上也具有明显优势。 展开更多
关键词 情感语义表征 双语词嵌入 源语言 语言情感分类
下载PDF
面向低资源神经机器翻译的回译方法 被引量:2
18
作者 张文博 张新路 +2 位作者 杨雅婷 董瑞 李晓 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第4期675-679,共5页
神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据... 神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据,并通过回译方法分段利用不同的单语数据训练翻译模型,然后借助模型平均和模型集成等方法进一步提升维汉和蒙汉翻译质量.使用第16届全国机器翻译大会(CCMT 2020)的评测数据进行实验,结果表明该方法可以有效地提升维汉和蒙汉翻译的翻译质量. 展开更多
关键词 神经机器翻译 源语言 回译 领域相似性 预训练
下载PDF
基于元度量学习的低资源语音识别 被引量:2
19
作者 侯俊龙 潘文林 《云南民族大学学报(自然科学版)》 CAS 2021年第3期272-278,共7页
随着大数据及设备超强运算能力的出现,语音识别系统的性能得到了大幅提升.但在低资源语音识别研究中,由于缺乏足够的训练数据,模型很容易出现过拟合、识别精度低等问题.为此,提出了采用元度量学习方法来解决低资源环境下的语音难识别问... 随着大数据及设备超强运算能力的出现,语音识别系统的性能得到了大幅提升.但在低资源语音识别研究中,由于缺乏足够的训练数据,模型很容易出现过拟合、识别精度低等问题.为此,提出了采用元度量学习方法来解决低资源环境下的语音难识别问题,该方法是先将大量类似且不相交的任务用于模型训练,让模型从中学会如何比较样本相似性;最后再在新任务中通过计算样本的相似度来识别未知样本.实验表明:元度量学习方法能够有效避免模型过拟合、提升模型泛化能力,实验在低资源语言(佤语和普米语)孤立词语音识别中均取得了显著的识别效果. 展开更多
关键词 源语言 元度量学习 语音识别 孤立词
下载PDF
印尼语、马来语自然语言处理研究综述 被引量:2
20
作者 蒋盛益 李珊珊 +1 位作者 符斯慧 林楠铠 《模式识别与人工智能》 EI CSCD 北大核心 2020年第6期530-541,共12页
随着印尼语、马来语互联网普及率的上升,对海量印尼语、马来语文本进行信息处理存在重大需求.虽然研究人员对印尼语、马来语展开较广泛的研究,但是作为低资源语言,受到的关注远不及通用语,未能较好利用前沿的深度学习方法.文中梳理总结... 随着印尼语、马来语互联网普及率的上升,对海量印尼语、马来语文本进行信息处理存在重大需求.虽然研究人员对印尼语、马来语展开较广泛的研究,但是作为低资源语言,受到的关注远不及通用语,未能较好利用前沿的深度学习方法.文中梳理总结包括词法分析、句法分析、机器翻译、拼写检查等印尼语、马来语相关的自然语言处理技术.对比分析相关的研究成果发现,大多数研究因语料规模及评测标准不同难以客观对比各种算法的差异.最后结合印尼语、马来语现有的各领域语言资源开放情况,指出印尼语、马来语的自然语言处理研究面临的问题,并展望未来发展趋势. 展开更多
关键词 印尼语 马来语 黏着语 源语言 自然语言处理
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部