期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
THUYG-20:免费的维吾尔语语音数据库 被引量:13
1
作者 艾斯卡尔·肉孜 殷实 +3 位作者 张之勇 王东 艾斯卡尔·艾木都拉 郑方 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期182-187,共6页
语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完全免费的维吾尔语连续语音数据库,该数据库包括约20h的训练数... 语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完全免费的维吾尔语连续语音数据库,该数据库包括约20h的训练数据和1h的测试数据,同时介绍了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相关资源,以及用于构建基线系统的脚本。给出了该基线系统在纯净测试数据和噪声测试数据上的识别性能。该数据库为维吾尔语语音识别研究提供了可以借鉴的标准数据库。 展开更多
关键词 语音识别 维吾尔语 语料库 深度神经网络(DNN)
原文传递
维吾尔语语音语料库管理软件的研究与实现 被引量:7
2
作者 热依曼.吐尔逊 依皮提哈尔.买买提 《新疆大学学报(自然科学版)》 CAS 2011年第2期242-247,共6页
语音语料库是语音识别和语音合成技术研究的基础.由于维吾尔语文字与语音特征、维吾尔语语音语料库的建立、管理、使用之工作不仅工作量巨大,且具有一定的复杂性,这就不得不开发维吾尔语语音数据库管理软件.本文首先研究维吾尔语语音语... 语音语料库是语音识别和语音合成技术研究的基础.由于维吾尔语文字与语音特征、维吾尔语语音语料库的建立、管理、使用之工作不仅工作量巨大,且具有一定的复杂性,这就不得不开发维吾尔语语音数据库管理软件.本文首先研究维吾尔语语音语料库的设计过程,包括语音文本的设计、语音录制、语音库的标注、并在此基础上论述维吾尔语语音语料管理软件的总体功能设计以及部分关键技术的实现方法. 展开更多
关键词 维吾尔语 语音语料库 拉丁文 代码转换
下载PDF
基于词缀库的非监督维吾尔语词切分方法 被引量:7
3
作者 薛化建 董兴华 +2 位作者 王磊 吐尔洪.吾司曼 蒋同海 《计算机工程与设计》 CSCD 北大核心 2011年第9期3191-3194,共4页
在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价... 在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。 展开更多
关键词 维吾尔语 粘着语 词切分 词缀库 最大后验概率 非监督
下载PDF
面向大词汇量的维吾尔语连续语音识别研究 被引量:7
4
作者 努尔麦麦提.尤鲁瓦斯 吾守尔.斯拉木 《计算机工程与应用》 CSCD 2013年第9期115-119,共5页
近年来大词汇量连续语音识别技术得到了迅速的发展,国内外研究机构加大了对汉语和英语语音识别技术的研究,然而,维吾尔语语音识别技术的研究工作最近才起步。建立了面向大词汇量的维吾尔语语音语料库,研究了维吾尔语声学模型和语言模型... 近年来大词汇量连续语音识别技术得到了迅速的发展,国内外研究机构加大了对汉语和英语语音识别技术的研究,然而,维吾尔语语音识别技术的研究工作最近才起步。建立了面向大词汇量的维吾尔语语音语料库,研究了维吾尔语声学模型和语言模型建模技术、解码技术,进行了面向大词汇量的维吾尔语连续语音识别实验。对维吾尔语大词汇量连续语音识别技术进一步发展中存在的问题进行了讨论。 展开更多
关键词 维吾尔语 语音语料库 大词汇 识别技术
下载PDF
维吾尔语褒贬情感词典构建研究 被引量:6
5
作者 年梅 范祖奎 刘若兰 《计算机工程与应用》 CSCD 北大核心 2017年第4期152-155,162,共5页
为实现维吾尔语网络内容的倾向性分析,进行维吾尔语情感词典的构建研究。首先对现有成果中的情感基准词进行汇总分析,筛选使用频率高、情感倾向强烈的词汇作为维文情感种子词,并利用维文同义词电子词典建立种子扩展词集;其次对HowNet、N... 为实现维吾尔语网络内容的倾向性分析,进行维吾尔语情感词典的构建研究。首先对现有成果中的情感基准词进行汇总分析,筛选使用频率高、情感倾向强烈的词汇作为维文情感种子词,并利用维文同义词电子词典建立种子扩展词集;其次对HowNet、NTUSD以及大连理工大学开发的情感词典进行并运算,翻译为维吾尔语词汇构成候选词集合;最后利用语料库,计算候选词与种子词以及同义扩展词之间的点互信息值,判别候选词的极性并将其加入到相关的褒贬情感词库中。与汉语句子情感倾向评测实验结果比较,基于该词典的维吾尔语句子倾向性判断准确率和召回率基本相同。 展开更多
关键词 维吾尔语 情感极性判别 点互信息算法 语料库
下载PDF
三音素模型的维吾尔语最佳文本选取算法 被引量:5
6
作者 姑丽加玛丽.麦麦提艾力 艾斯卡尔.肉孜 艾斯卡尔.艾木都拉 《计算机工程与应用》 CSCD 北大核心 2009年第18期242-244,共3页
利用上下文关联的思想,提出了三音素模型的大型句子文本库中选取最佳句子文本的算法,充分考虑了每个句子涵盖的不同三音素模型,利用贪婪算法去除了众多句子之间的冗余度,从而达到了选择文本容量最小化的目标。通过C#语言实现了本算法,... 利用上下文关联的思想,提出了三音素模型的大型句子文本库中选取最佳句子文本的算法,充分考虑了每个句子涵盖的不同三音素模型,利用贪婪算法去除了众多句子之间的冗余度,从而达到了选择文本容量最小化的目标。通过C#语言实现了本算法,给出了算法流程和算法性能分析,结果表明此算法的有效性和实用性。 展开更多
关键词 维吾尔语 文本库 贪婪算法 三音素 语音合成
下载PDF
维吾尔语词频统计子系统的体系结构 被引量:3
7
作者 艾斯卡尔.亚克甫 肖克来提 玉素甫.艾白都拉 《新疆师范大学学报(自然科学版)》 2006年第2期16-20,共5页
维语语料库是汉维机器翻译系统的核心基础,同时也是对维语中的词语进行统计的一个完整和完善的基础模型。在此我们要介绍管道与过滤器模式在维语语料库的构造和维语词频统计系统中的应用。第一步介绍管道和过滤器概念,其次说明建立维语... 维语语料库是汉维机器翻译系统的核心基础,同时也是对维语中的词语进行统计的一个完整和完善的基础模型。在此我们要介绍管道与过滤器模式在维语语料库的构造和维语词频统计系统中的应用。第一步介绍管道和过滤器概念,其次说明建立维语语料库过程和选择语料库原则,最后陈述维语词频统计结果和进行分析。 展开更多
关键词 管道 过滤器 体系结构 语料库 维语词汇统计
下载PDF
维吾尔语语音识别语料库中的OOV研究 被引量:4
8
作者 张小燕 宿建军 +1 位作者 薛化建 王磊 《计算机工程与设计》 CSCD 北大核心 2012年第2期772-776,共5页
鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现。... 鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现。应用该算法进行电话语音库的文本转写,构建了维吾尔语的电话语音库。实验结果表明,该控制测试集OOV的方法能够有效地提高维吾尔语语音识别率。 展开更多
关键词 维吾尔语 集外词 语料库 文本挑选 语音识别
下载PDF
乌兹别克语-维吾尔语双语语料库构建平台的设计与实现 被引量:3
9
作者 阿西穆·托合提 早克热·卡德尔 +1 位作者 吐尔根·依布拉音 艾山·吾买尔 《电脑知识与技术》 2017年第3期1-2,10,共3页
在语言研究和机器翻译中,创建对齐的语料库是极其重要的基础工作之一。由于乌兹别克语和维吾尔语之间存在着一定的相似性,待翻译的乌兹别克语句子和转换得到的维吾尔语句子的语法结构和词序是相似的。该文利用两种语言之间的这种相似关... 在语言研究和机器翻译中,创建对齐的语料库是极其重要的基础工作之一。由于乌兹别克语和维吾尔语之间存在着一定的相似性,待翻译的乌兹别克语句子和转换得到的维吾尔语句子的语法结构和词序是相似的。该文利用两种语言之间的这种相似关系设计并实现了乌兹别克语-维吾尔语双语语料库构建平台,用该平台可以简单的转换字母生成译文,并对原文和译文分词,不仅实现句子级别的对齐任务,还能实现词语级别的对齐任务。用该平台已经构建了包含8124条句对的双语对齐语料库。 展开更多
关键词 乌兹别克语 维吾尔语 双语语料库 转换规则
下载PDF
维吾尔文网页正文抽取系统的研究与实现 被引量:3
10
作者 蔡李 单艳 +1 位作者 薛化建 苏国平 《计算机工程与设计》 CSCD 北大核心 2012年第2期551-555,共5页
从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过... 从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。 展开更多
关键词 维吾尔文 网页正文抽取 语料库 文本句长特征 WEB文本挖掘
下载PDF
维吾尔语电话语音语料库的研发 被引量:2
11
作者 热依曼.吐尔逊 依皮提哈尔.买买提 吾守尔.斯拉木 《新疆大学学报(自然科学版)》 CAS 2013年第2期199-203,共5页
本文根据现有的维吾尔文语音识别语音库的不足,以自然口语为对象研究维吾尔语的语音特征,提出了适合该语言的电话语音语料库设计方案,其中包括了维吾尔语电话语音库的文本设计、发音人的选择、语音录制、语音库的标注和后期处理方法等.... 本文根据现有的维吾尔文语音识别语音库的不足,以自然口语为对象研究维吾尔语的语音特征,提出了适合该语言的电话语音语料库设计方案,其中包括了维吾尔语电话语音库的文本设计、发音人的选择、语音录制、语音库的标注和后期处理方法等.本文从构建的350个说话人的维吾尔语电话语音语料库中挑选50个目标人提供给基于GMM-UBM/SVM的维吾尔语电话信道说话人识别的研究. 展开更多
关键词 维吾尔语 语料库 电话语音
下载PDF
电话信道维吾尔语口语语料库设计与研究 被引量:1
12
作者 杨雅婷 董兴华 +2 位作者 王磊 吐尔洪.吾司曼 李晓 《计算机工程与应用》 CSCD 北大核心 2011年第23期150-153,共4页
在分析一般语音语料库建设方法的基础上,结合实际语料库需求和地域语言特点,提出了适用于电话信道维吾尔语口语语料库建设的设计规范及语音采集、标注方法,建立了时长300小时的电话信道维吾尔语口语语料库,并就电话信道对线性预测倒谱系... 在分析一般语音语料库建设方法的基础上,结合实际语料库需求和地域语言特点,提出了适用于电话信道维吾尔语口语语料库建设的设计规范及语音采集、标注方法,建立了时长300小时的电话信道维吾尔语口语语料库,并就电话信道对线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)、自适应成分加权特征(ACW)倒谱等语音特征参数的影响进行分析研究。 展开更多
关键词 电话信道 维吾尔语 口语 语料库 特征参数
下载PDF
基于统计的维吾尔文信息熵的估计 被引量:2
13
作者 塞麦提·麦麦提敏 《电脑知识与技术》 2009年第2期1014-1015,1017,共3页
信息熵是信息论中用于度量随机变量的不确定性。自然语言信息熵的估计是自然语言信息处理中非常重要而且基本的问题。在试验中,使用统计的方法对250多万词的维吾尔语语料库文本进行统计,初步计算了维吾尔文的信息熵和多余度。所求得... 信息熵是信息论中用于度量随机变量的不确定性。自然语言信息熵的估计是自然语言信息处理中非常重要而且基本的问题。在试验中,使用统计的方法对250多万词的维吾尔语语料库文本进行统计,初步计算了维吾尔文的信息熵和多余度。所求得的信息熵和多余度分别为4.387比特和13%,相当接近了其它拼音文字的信息熵和多余度。 展开更多
关键词 维吾尔文 信息熵 多余度 语料库 统计
下载PDF
基于Android的维吾尔文词性标注、词干提取APP的开发与设计 被引量:2
14
作者 帕丽旦·木合塔尔 热依曼·吐尔逊 +1 位作者 买买提阿依甫 排孜拉·奴来海买提 《现代电子技术》 北大核心 2019年第18期139-142,146,共5页
在自然语言处理中词性标注和词干提取是最重要的任务.文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了... 在自然语言处理中词性标注和词干提取是最重要的任务.文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了广大学员通过一部Android系统的手机随时随地参与语料标注任务,从而完成了大规模语料的标注工作,将其应用到文本分析、机器翻译、语音合成、语音翻译等研究领域.该系统的实现为低资源少数民族智能化研究工作做出了贡献. 展开更多
关键词 安卓 词性标注 词干提取 维吾尔文 语料库 文本分析
下载PDF
建立维吾尔语中介语语料库基本设想 被引量:2
15
作者 杨文革 《新疆大学学报(哲学社会科学版)》 CSSCI 2013年第3期142-145,共4页
建立维吾尔语中介语语料库的意义在于:第一,可以对维吾尔语学习者的大量语言样本进行量化分析,为维吾尔语中介语研究、维吾尔语本体研究以及偏误分析提供真实可靠的语言数据。第二,为研究者提供比较全面的能够反映维语学习者的各种语言... 建立维吾尔语中介语语料库的意义在于:第一,可以对维吾尔语学习者的大量语言样本进行量化分析,为维吾尔语中介语研究、维吾尔语本体研究以及偏误分析提供真实可靠的语言数据。第二,为研究者提供比较全面的能够反映维语学习者的各种语言属性、个体特征等信息。第三,为确定教学难点重点和语言项目的教学次序提供参考标准。第四,为维吾尔语教材编写提供可靠的参考。运用中介语理论、语料库语言学的理论是建立维吾尔语中介语语料库的基本思路。维吾尔语中介语语料库主要由生语料库、熟语料库、统计信息库、相关信息库等构成,建库须遵循语料真实性、语料的平衡性、语料标注体现维吾尔语特点、学生背景信息完备性、便捷性等五项原则。 展开更多
关键词 维吾尔语 中介语 语料库
下载PDF
基于最小合成单元的维吾尔音库设计 被引量:1
16
作者 卡斯木江.卡迪尔 古丽娜尔.艾力 艾斯卡尔.艾木都拉 《通信技术》 2012年第4期83-85,共3页
为了实现容量小、可懂度和自然度较好的波形拼接式维吾尔语语音合成系统,结合维吾尔语的特点,完成了文本设计、录音、语音标注、以及音库建设过程。其中,把音节作为基本的合成单元建立了音节语音库;为了弥补音库中不存在音节的合成问题... 为了实现容量小、可懂度和自然度较好的波形拼接式维吾尔语语音合成系统,结合维吾尔语的特点,完成了文本设计、录音、语音标注、以及音库建设过程。其中,把音节作为基本的合成单元建立了音节语音库;为了弥补音库中不存在音节的合成问题,又建立了音素作为合成单元的音素语音库。实验结果表明,以音节和音素为最小合成单元的波形拼接式维吾尔语语音合成系统除了音库容量相对少等特点之外,还具有良好的可懂度。 展开更多
关键词 维吾尔语 语音合成 语料库 特征提取
原文传递
基于众包的维吾尔语事件标注研究 被引量:1
17
作者 陈昊 吐尔根.依布拉音 +1 位作者 卡哈尔江.阿比的热西提 艾山.吾买尔 《新疆大学学报(自然科学版)》 CAS 北大核心 2015年第2期209-214,220,共7页
大规模标注语料库在自然语言处理的语义理解和算法研究等领域有重要作用.本文针对维吾尔语事件标注语料空白以及标注仅仅涉及简单的人类智能的事实,提出了一种基于众包的维吾尔语事件标注方法.在制定了维吾尔语事件标注规范之后,建立了... 大规模标注语料库在自然语言处理的语义理解和算法研究等领域有重要作用.本文针对维吾尔语事件标注语料空白以及标注仅仅涉及简单的人类智能的事实,提出了一种基于众包的维吾尔语事件标注方法.在制定了维吾尔语事件标注规范之后,建立了三层架构的标注体系,并提出质量控制机制.维吾尔语事件标注语料库为维吾尔语事件的研究提供了重要的资源支持. 展开更多
关键词 事件 维吾尔语 语料库 众包
下载PDF
维吾尔语停用词抽取方法研究
18
作者 塞麦提·麦麦提敏 司马义·阿不都热依木 《计算机工程》 CAS CSCD 北大核心 2019年第10期288-292,300,共6页
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进... 为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进行统计,并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值,结果表明,使用该方法进行停用词过滤后,文本分类的计算复杂度降低,分类准确率达到80.8%。 展开更多
关键词 信息检索 停用词 维吾尔语 文本分类 语料统计
下载PDF
Emotion recognition of Uyghur speech using uncertain linear discriminant analysis
19
作者 Tashpolat Nizamidin Zhao Li +2 位作者 Zhang Mingyang Xu Xinzhou Askar Hamdulla 《Journal of Southeast University(English Edition)》 EI CAS 2017年第4期437-443,共7页
To achieve efficient a d compact low-dimensional features for speech emotion recognition,a novel featurereduction method using uncertain linear discriminant analysis is proposed.Using the same principles as for conven... To achieve efficient a d compact low-dimensional features for speech emotion recognition,a novel featurereduction method using uncertain linear discriminant analysis is proposed.Using the same principles as for conventional linear discriminant analysis(LDA),uncertainties of the noisy or distorted input data ae employed in order to estimate maximaiy discriminant directions.The effectiveness of the proposed uncertain LDA(ULDA)is demonstrated in the Uyghur speech emotion recognition task.The emotional features of Uyghur speech,especially,the fundamental fequency and formant,a e analyzed in the collected emotional data.Then,ULDA is employed in dimensionality reduction of emotional features and better performance is achieved compared with other dimensionality reduction techniques.The speech emotion recognition of Uyghur is implemented by feeding the low-dimensional data to support vector machine(SVM)based on the proposed ULDA.The experimental results show that when employing a appropriate uncertainty estimation algorithm,uncertain LDA outperforms the conveetional LDA counterpart on Uyghur speech emotion recognition. 展开更多
关键词 uyghur language speech emotion corpus PITCH FORMANT uncertain linear discriminant analysis (ULDA)
下载PDF
基于词缀的维吾尔谚语识别关键技术研究
20
作者 穆妮热.穆合塔尔 李晓 +2 位作者 杨雅婷 艾孜尔古丽 周喜 《智能系统学报》 CSCD 北大核心 2018年第3期452-457,共6页
在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度对维吾尔谚语的语法、语义... 在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度对维吾尔谚语的语法、语义结构进行分析,构建了一个由维吾尔谚语功能语类(词缀)组成的、专属维吾尔谚语规则的知识库,并将此知识库与自然语言处理技术相结合,实现一个既能够从文本中识别出维吾尔谚语,又能提供维汉互译等功能的信息软件系统。该系统也为开展计算机理解与处理维吾尔文字奠定了一个崭新的基础。 展开更多
关键词 维吾尔谚语 谚语词缀 谚语规则 词缀覆盖率 谚语规则库 谚语语料库 识别系统
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部