期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
语料资源缺乏的连续语音识别方法的研究 被引量:9
1
作者 伊·达瓦 匂坂芳典 中村哲 《自动化学报》 EI CSCD 北大核心 2010年第4期550-557,共8页
由于少数民族语言有其本身的特点,不能简单地套用现有的连续语音识别的方法.本文以蒙古语为例,研讨了声学和语言模型的建立,并在日本国际电气通信基础技术研究所的连续语音识别器上实现了蒙古语的语音识别系统.本文侧重于语言模型的建立... 由于少数民族语言有其本身的特点,不能简单地套用现有的连续语音识别的方法.本文以蒙古语为例,研讨了声学和语言模型的建立,并在日本国际电气通信基础技术研究所的连续语音识别器上实现了蒙古语的语音识别系统.本文侧重于语言模型的建立,基于蒙古语黏着性语言特点,提出用相似词聚类方法建立多类N-gram模型.实验结果显示,应用我们提出的语言模型,识别精度比用传统的词的N-gram识别法提高了5.5%. 展开更多
关键词 蒙古语 黏着语言 相似词分类 连续语语音识别 多类语言模型
下载PDF
维吾尔语词尾对汉维统计机器翻译影响的研究 被引量:8
2
作者 米莉万.雪合来提 麦热哈巴.艾力 +1 位作者 吐尔根.依布拉音 姜文斌 《计算机工程》 CAS CSCD 2014年第3期224-227,共4页
维吾尔语属于阿尔泰语系,是典型的黏着语,构形词尾在维吾尔语中占很重要的地位,这与汉语差别很大。针对维吾尔语的形态特点,分析汉维统计机器翻译中维吾尔语构形词尾的作用,利用Cherio搭建一个基于层次短语的汉维统计机器翻译系统。使... 维吾尔语属于阿尔泰语系,是典型的黏着语,构形词尾在维吾尔语中占很重要的地位,这与汉语差别很大。针对维吾尔语的形态特点,分析汉维统计机器翻译中维吾尔语构形词尾的作用,利用Cherio搭建一个基于层次短语的汉维统计机器翻译系统。使用词级粒度、词干级粒度、词干词尾级粒度的汉维平行语料进行对比实验,探讨不同粒度对汉维统计机器翻译系统的影响。实验结果表明,该汉维统计机器翻译系统可以提高汉维统计翻译的质量,BLEU值达到0.1972。 展开更多
关键词 黏着语 词尾 统计机器翻译 层次短语翻译模型 语言模型
下载PDF
基于词缀库的非监督维吾尔语词切分方法 被引量:7
3
作者 薛化建 董兴华 +2 位作者 王磊 吐尔洪.吾司曼 蒋同海 《计算机工程与设计》 CSCD 北大核心 2011年第9期3191-3194,共4页
在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价... 在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。 展开更多
关键词 维吾尔语 粘着语 词切分 词缀库 最大后验概率 非监督
下载PDF
中亚语言自然语言处理综述 被引量:6
4
作者 吐尔根.依布拉音 卡哈尔江.阿比的热西提 +1 位作者 艾山.吾买尔 买合木提.买买提 《中文信息学报》 CSCD 北大核心 2018年第5期1-13,21,共14页
该文对中亚地区属于同一个语族的土耳其语、哈萨克语等诸语言的自然语言处理现状进行了综述。首先分别回顾土耳其语、哈萨克语和其他中亚语言在词法分析、句法分析、命名实体识别、机器翻译方面的研究进展,随后讨论了与具体语言无关的... 该文对中亚地区属于同一个语族的土耳其语、哈萨克语等诸语言的自然语言处理现状进行了综述。首先分别回顾土耳其语、哈萨克语和其他中亚语言在词法分析、句法分析、命名实体识别、机器翻译方面的研究进展,随后讨论了与具体语言无关的黏着语词法分析方面的研究情况,最后指出国内外中亚诸语言处理自然语言领域中所面临的问题和挑战,并对未来的研究提出了建议。 展开更多
关键词 土耳其语 哈萨克语 黏着语 形态复杂语
下载PDF
基于条件随机场的维吾尔文机构名识别 被引量:5
5
作者 买合木提.买买提 王路路 +2 位作者 吐尔根.依布拉音 艾山.吾买尔 卡哈尔江.阿比的热西提 《计算机工程与设计》 北大核心 2019年第1期273-278,共6页
为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构... 为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构名识别。实验结果表明,相比于基于规则的方法和隐马尔科夫模型(HMM),该方法不依赖于人工编写规则,识别的准确率和召回率较高。 展开更多
关键词 命名实体 机构名识别 维吾尔语 条件随机场 黏着语
下载PDF
融合剪枝和多语微调的黏着语命名实体识别
6
作者 罗凯昂 哈里旦木·阿布都克里木 +2 位作者 刘畅 阿布都克力木·阿布力孜 郭文强 《计算机工程与应用》 CSCD 北大核心 2023年第24期121-130,共10页
以维吾尔语为代表的少数民族语言具有黏着性和资源匮乏等特点,为其命名实体识别任务带来了巨大挑战。与此同时,多语言模型存在参数规模和词表大、推理速度慢等问题。为此,通过对CINO进行重新剪枝,提出针对低资源黏着语命名实体识别的CIN... 以维吾尔语为代表的少数民族语言具有黏着性和资源匮乏等特点,为其命名实体识别任务带来了巨大挑战。与此同时,多语言模型存在参数规模和词表大、推理速度慢等问题。为此,通过对CINO进行重新剪枝,提出针对低资源黏着语命名实体识别的CINO新版本:CINO-Agglu。为了探讨最佳微调策略,缓解低资源问题,对维吾尔语、哈萨克语、柯尔克孜语、乌兹别克语、塔塔尔语等五种黏着语分别进行单语言和多语言微调。实验结果表明,CINO-Agglu相较于剪枝前,模型大小、参数量、词表大小、推理时间分别减少45%、44%、92%、38%,并且在五种语言上的平均F1值为85.9%,超过了所有基线模型。加入适当规模的同语族数据有利于提升微调效果。 展开更多
关键词 黏着语 低资源语言 命名实体识别 多语言迁移 模型剪枝
下载PDF
面向音素序列的黏着语词干提取研究
7
作者 古再力努尔·依明 米吉提·阿不里米提 +1 位作者 哈妮克孜·伊拉洪 艾斯卡尔·艾木都拉 《小型微型计算机系统》 CSCD 北大核心 2023年第10期2362-2368,共7页
针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向... 针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向量为输入,使用BiLSTM模型获取正向和反向的上下文序列特征,并在此模型上加入注意力机制进行权重学习,通过提取全局特征信息来捕获词干和词缀边界;最后添加CRF使其从序列特征中学习更多信息,从而更有效地描述上下文信息.为验证上述模型的有效性,将本文模型在两种不同的数据集上进行了实验,并且将本文模型跟传统模型进行了对比.实验结果表明,本文模型对于句子级语料的效果更好,可以更有效地提取词干.此外,本文提出的模型优于其他传统模型,能全面考虑数据特征,具有一定的优越性. 展开更多
关键词 黏着语 维吾尔语 词干提取 上下文 注意力机制 BiLSTM-Attention-CRF
下载PDF
基于深度学习方法的句子及语素边界划分研究 被引量:4
8
作者 Toleu Galymzhan 邬春学 《电子科技》 2017年第9期20-23,共4页
针对哈萨克语的句子、单词及语素边界检测问题,文中提出了一种基于深度学习的边界检测方法:CNNTSS模型。通过将边界检测问题视为序列标注任务,将句子、单词及语素的边界检测合并为一种任务完成。通过对CNN-TSS模型选取最优超参数,对不... 针对哈萨克语的句子、单词及语素边界检测问题,文中提出了一种基于深度学习的边界检测方法:CNNTSS模型。通过将边界检测问题视为序列标注任务,将句子、单词及语素的边界检测合并为一种任务完成。通过对CNN-TSS模型选取最优超参数,对不同语言进行了测试。实验结果表明,该模型在不使用额外特征的情况下,在性能上超过了基于传统方法的边界检测系统。 展开更多
关键词 句子边界检测 语素边界检测 黏着语 深度学习
下载PDF
印尼语、马来语自然语言处理研究综述 被引量:2
9
作者 蒋盛益 李珊珊 +1 位作者 符斯慧 林楠铠 《模式识别与人工智能》 EI CSCD 北大核心 2020年第6期530-541,共12页
随着印尼语、马来语互联网普及率的上升,对海量印尼语、马来语文本进行信息处理存在重大需求.虽然研究人员对印尼语、马来语展开较广泛的研究,但是作为低资源语言,受到的关注远不及通用语,未能较好利用前沿的深度学习方法.文中梳理总结... 随着印尼语、马来语互联网普及率的上升,对海量印尼语、马来语文本进行信息处理存在重大需求.虽然研究人员对印尼语、马来语展开较广泛的研究,但是作为低资源语言,受到的关注远不及通用语,未能较好利用前沿的深度学习方法.文中梳理总结包括词法分析、句法分析、机器翻译、拼写检查等印尼语、马来语相关的自然语言处理技术.对比分析相关的研究成果发现,大多数研究因语料规模及评测标准不同难以客观对比各种算法的差异.最后结合印尼语、马来语现有的各领域语言资源开放情况,指出印尼语、马来语的自然语言处理研究面临的问题,并展望未来发展趋势. 展开更多
关键词 印尼语 马来语 黏着语 低资源语言 自然语言处理
下载PDF
维吾尔语和韩语形态分析之模型构建 被引量:3
10
作者 徐春 蒋同海 +1 位作者 于凯 姜文斌 《北京邮电大学学报》 EI CAS CSCD 北大核心 2018年第1期88-94,共7页
为维吾尔语和韩语形态分析建立了一种图状结构的判别式模型,该模型将语句的形态分析建模为形态成分的图状结构,通过灵活丰富的特征设计描述了词语内部形态成分之间以及分属相邻词语的形态成分之间的关联约束.相比传统的线性模型,图状模... 为维吾尔语和韩语形态分析建立了一种图状结构的判别式模型,该模型将语句的形态分析建模为形态成分的图状结构,通过灵活丰富的特征设计描述了词语内部形态成分之间以及分属相邻词语的形态成分之间的关联约束.相比传统的线性模型,图状模型更好地考虑了各形态成分之间的语言学关联,从而取得更高的整句分析性能.在维吾尔语和韩语上的实验结果表明,图状模型相比线性模型的性能有一定提升,形态分析词级准确率分别提升了4.4%和2.8%. 展开更多
关键词 形态分析 黏着语 图状模型 线性模型
原文传递
试析粘着语的独特结构 被引量:3
11
作者 夏玉玲 《江南大学学报(人文社会科学版)》 2007年第4期94-96,共3页
语言学家们把人类语言分为:孤立语,曲折语,粘着语。日语则是粘着语的代表,本文将对粘着语的特点进行阐述,并对日语的SOV语序(主语+(助词)+宾语+(助词)+谓语的结构)进行了探索。
关键词 粘着语 前置词 后置词 语序
下载PDF
日语文本语义接受度评价研究 被引量:2
12
作者 杜家利 于屏方 《计算机工程与应用》 CSCD 北大核心 2009年第23期137-139,148,共4页
基于日语料库的粘着语文本语义接受度(SAS)研究分三步展开。首先提取『ゆきぐに』为分析文本,以等距离系统随机抽样方法取得6对比组。然后在屈折语SAS研究基础上提出适用于粘着语文本的词长定义,即百词所含5音拍及以上词数为超常用词量... 基于日语料库的粘着语文本语义接受度(SAS)研究分三步展开。首先提取『ゆきぐに』为分析文本,以等距离系统随机抽样方法取得6对比组。然后在屈折语SAS研究基础上提出适用于粘着语文本的词长定义,即百词所含5音拍及以上词数为超常用词量。最后得出结论:抽取间距由大变小引发抽取率(SR)由小变大的曲线变化;依次攀升的SR与围绕均值波动的SAS组图证明两者的非关联性,以实例验证了屈折语SAS评价公式对粘着语文本研究的可适用性。 展开更多
关键词 粘着语 信息检索 语料库 语义接受度 抽取率
下载PDF
日语外来语的使用意图和效果 被引量:1
13
作者 韩冰 《日本问题研究》 CSSCI 2013年第4期92-96,共5页
日语中融入了大量以欧美语言为主的外国语词汇,丰富了原有的日语表现。经过了"日语化"的外来语,在日语的语言体系中,词形、意义、音韵都不可避免地发生了变化。作为交流的媒介,外来语导入新的概念并创造出新的语感。其使用效... 日语中融入了大量以欧美语言为主的外国语词汇,丰富了原有的日语表现。经过了"日语化"的外来语,在日语的语言体系中,词形、意义、音韵都不可避免地发生了变化。作为交流的媒介,外来语导入新的概念并创造出新的语感。其使用效果主要表现在含糊其辞、回避责任,缓和语气,减少词语重复以及提高形象等方面。 展开更多
关键词 外来语 粘着语 语感 意图和效果
下载PDF
从日语角度析维特根斯坦对“感觉私有论”的围剿
14
作者 徐英瑾 《上海师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2019年第6期5-16,共12页
后期维特根斯坦对"私人语言"观的批判,是建立在他对"感觉私有论"批判的基础上的。然而,不太为学界所重视的是,在撰写作为《哲学研究》之准备资料的《大打字稿》时,维特根斯坦曾经提出过一条非常新颖的用以批判"... 后期维特根斯坦对"私人语言"观的批判,是建立在他对"感觉私有论"批判的基础上的。然而,不太为学界所重视的是,在撰写作为《哲学研究》之准备资料的《大打字稿》时,维特根斯坦曾经提出过一条非常新颖的用以批判"感觉私有论"的思路。该思路的大旨是,德语中的主-谓结构在感觉表述领域中的运用,将非常容易引诱德语哲学家去认定,像疼痛这样的感觉,乃是疼痛主体的某种"私有物"。而在维氏看来,只要我们重新构造一种能够摆脱上述主-谓逻辑思维之桎梏的新感觉表达方式,"感觉私有论"的幻觉亦可随之消失。然而,维氏为设计这种新表达方式而引入的行为主义表达方式,依然会在日常语用环境中遇到种种难题,因此,其可操作性亦大为成疑。其实,如果维特根斯坦能够参考日语中的疼痛表达方式的话,上述难题就会得到纾解。具体而言,日语具有关于疼痛的"主观现象化"与"客观名词化"两个系列的表达方式,而即使在后一个系列中,日语言说者也没有明确诉诸行为主义对于疼痛的表述方式。因此,维特根斯坦的论证如果能够以日语为主要表述手段的话,那么其说服力就会大为增强。从这个角度看,维特根斯坦对以印欧语为基点的传统西哲思辨方式的批判,在客观上乃是为一种以非印欧语为基点的新哲学思维方式的展开初步扫清了障碍。 展开更多
关键词 私人语言 私人感觉 日语 黏着语 主-谓逻辑 行为主义 笛卡尔主义
下载PDF
菲律宾语自然语言处理研究综述
15
作者 李珊珊 蒋盛益 符斯慧 《湖南工业大学学报》 2020年第3期23-32,F0002,共11页
通过对菲律宾语的词法分析、句法分析、语义分析等基础研究和机器翻译、拼写检查、情感分析等应用技术的研究进展进行分析,得知菲律宾语仍属于语言资源较为缺乏的低资源语言,在菲律宾语自然语言处理领域,现有研究比较宽泛但不深入,与英... 通过对菲律宾语的词法分析、句法分析、语义分析等基础研究和机器翻译、拼写检查、情感分析等应用技术的研究进展进行分析,得知菲律宾语仍属于语言资源较为缺乏的低资源语言,在菲律宾语自然语言处理领域,现有研究比较宽泛但不深入,与英语、汉语等语种的自然语言处理研究相比,还存在较大差距;相较而言,英菲平行语料库构建及其机器翻译的研究取得了较大进展,而其他领域研究进展相对缓慢。总体来说,通过跨语言处理技术构建跨语言平行语料库,推动深度学习应用于菲律宾语自然语言处理的方法研究,探讨基于规则、图模型、结构等方法对菲律宾语文本自动摘要的适用性,将是未来菲律宾语自然语言处理的主要研究方向。 展开更多
关键词 菲律宾语 黏着语 低资源语言 自然语言处理 词性标注
下载PDF
重叠构词法在黏着语中的表现——以维吾尔语和阿美语为例
16
作者 倪宏鸣 《双语教育研究》 2014年第3期56-60,共5页
黏着语是一种语言类型,其突出特点是以词根为中心,依次把其余的附加成分黏合在一起完成构词、构形和表意功能。黏着语强调综合,采用语音要素的添减完成意义构建,每一个要素都可以拆分重新组合或添加其他新要素后再次成形,这使得黏着语... 黏着语是一种语言类型,其突出特点是以词根为中心,依次把其余的附加成分黏合在一起完成构词、构形和表意功能。黏着语强调综合,采用语音要素的添减完成意义构建,每一个要素都可以拆分重新组合或添加其他新要素后再次成形,这使得黏着语中重叠构词形式变化丰富、构词活跃、能力很强,在构词体系中占据重要地位。阿美语是南岛语系印度尼西亚语族语言,维吾尔语是阿尔泰语系突厥语族语言,两者之间没有亲缘关系,但是它们都是典型的黏着语,阿美语和维吾尔语均表现出很多与黏着语类型有关的特征,在使用重叠构词法方面,它们都充分发挥了重叠构词法的构词功能。 展开更多
关键词 黏着语 维吾尔语 阿美语 重叠构词法
下载PDF
面向维吾尔语电话交谈式语音识别的词典设计方法研究 被引量:1
17
作者 李鑫 侯炜 +2 位作者 计哲 潘接林 颜永红 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2013年第3期391-396,共6页
为了解决基于词语的维吾尔语语音识别系统集外词过多的问题,采用形态分析生成的语素或数据驱动切分生成的统计子词代替词语作为识别系统的词典单元。在此基础上,提出一种根据语素识别系统和统计子词识别系统在声学模型训练数据上的音素... 为了解决基于词语的维吾尔语语音识别系统集外词过多的问题,采用形态分析生成的语素或数据驱动切分生成的统计子词代替词语作为识别系统的词典单元。在此基础上,提出一种根据语素识别系统和统计子词识别系统在声学模型训练数据上的音素错误率差别选择词语最佳分解结果,从而构建语素-统计子词联合词典的方法。在维吾尔语电话交谈式语音识别任务上比较各个系统的性能。实验结果表明,语素或统计子词的运用能有效缓解词语系统集外词过多的问题。与词典大小为200K的词语系统相比,55K的语素-统计子词联合系统使测试集上的音素错误率从45.4%下降到43.8%。 展开更多
关键词 黏着语 语音识别 集外词 词语分解 分解方法联合
原文传递
从汉日语的异同谈日语自、他动词的用法
18
作者 王芳艳 《扬州教育学院学报》 2014年第1期40-42,47,共4页
日语和汉语形似而质异,实则分属不同的语系,语法和语序上完全不同。文章旨在探讨日语中动词的分类和用法,除了从语法意义上有无动作的发出者和动作的过程来区分自动词和他动词以外,还可以从构句功能上是否能够构成被动句和使役句来区分... 日语和汉语形似而质异,实则分属不同的语系,语法和语序上完全不同。文章旨在探讨日语中动词的分类和用法,除了从语法意义上有无动作的发出者和动作的过程来区分自动词和他动词以外,还可以从构句功能上是否能够构成被动句和使役句来区分自动词和他动词。 展开更多
关键词 孤立语 粘着语 自动词 他动词
下载PDF
黏着语类少数民族学生学习日语方面的优势——以维吾尔族和朝鲜族为例
19
作者 柳松林 金群植 +1 位作者 阿迪拉.阿布利米提 阿依古丽.阿不都艾尼 《学周刊(上旬)》 2016年第6期119-120,共2页
我国是一个统一的多民族国家,在我国境内存在的众多少数民族语言中,有很多属于黏着语。由于历史的原因,这些使用黏着语的民族大部分属于跨界民族,即在国外存在与其相同的民族,但在国籍上分属两国。论文从同属黏着语的维吾尔语及朝鲜语... 我国是一个统一的多民族国家,在我国境内存在的众多少数民族语言中,有很多属于黏着语。由于历史的原因,这些使用黏着语的民族大部分属于跨界民族,即在国外存在与其相同的民族,但在国籍上分属两国。论文从同属黏着语的维吾尔语及朝鲜语和日语的对比研究出发,通过查阅文献资料,以针对少数民族学生发放问卷调查的方式,为维吾尔族、朝鲜族等一些民族语言为黏着语的少数民族学生在学习外语时提供一个较为合适的选择——日语,为培养更多的少数民族多语人才提供有益的启示。 展开更多
关键词 少数民族 黏着语 多语人才 有益启示
原文传递
面向双语教学的维吾尔语发音质量自动评估
20
作者 董滨 丁铭 +1 位作者 王磊 颜永红 《中国科学:信息科学》 CSCD 北大核心 2015年第10期1328-1340,共13页
推行新疆地区的双语教学是国家推进民族交流的重要举措,对维语进行自动发音质量评估能够大大提高双语教学的效率.然而维吾尔语作为黏着语,其特殊的构词方法造成大量无法被收入词表的集外词存在,使得基于传统语音识别系统的发音评估方法... 推行新疆地区的双语教学是国家推进民族交流的重要举措,对维语进行自动发音质量评估能够大大提高双语教学的效率.然而维吾尔语作为黏着语,其特殊的构词方法造成大量无法被收入词表的集外词存在,使得基于传统语音识别系统的发音评估方法难以应用.为了实现高效的维语发音质量评估,本文在研究分析了维语的发音规则和发音习惯后,决定采用子词作为基本的识别单元;在原有发音质量自动评估系统上,改用基于双层词法分析的维语子词切分器;同时引入音素解码器计算后验概率的分母,让系统可以在子词级别直接计算置信度.经过实验数据的验证,基于子词的维语评估系统的性能要优于基于音素的系统. 展开更多
关键词 双语教学 黏着语 发音评估 子词 后验概率 置信度
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部