期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于循环神经网络的藏语语音识别声学模型 被引量:16
1
作者 黄晓辉 李京 《中文信息学报》 CSCD 北大核心 2018年第5期49-55,共7页
探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与... 探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能,而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下,拥有更高的训练和解码效率。 展开更多
关键词 循环神经网络 藏语语音识别 声学建模 时域卷积
下载PDF
藏语拉萨话大词表连续语音识别声学模型研究 被引量:16
2
作者 李冠宇 孟猛 《计算机工程》 CAS CSCD 2012年第5期189-191,共3页
根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语... 根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语音识别。实验结果表明,在最优情况下,该模型词错误率只有7.8%。 展开更多
关键词 藏语 拉萨话 连续语音识别 隐马尔可夫模型 HTK工具 声学模型
下载PDF
基于深层神经网络的藏语识别 被引量:14
3
作者 袁胜龙 郭武 戴礼荣 《模式识别与人工智能》 EI CSCD 北大核心 2015年第3期209-213,共5页
文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目... 文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目标模型的初始网络进行模型优化的策略.另外,由于藏语语音学的研究很不完善,人工生成决策树问题集的方式并不可行.针对该问题,文中利用数据驱动的方式自动生成决策树问题集,对三音子隐马尔可夫模型(HMM)进行状态绑定,从而减少需要估计的模型参数.在测试集上,基于混合高斯模型(GMM)声学建模的藏字识别率为30.86%.在基于DNN的声学模型建模中,采用三种大语种数据训练好的DNN网络作为初始网络,并在测试集上验证该方法的有效性,藏字识别正确率达到43.26%. 展开更多
关键词 藏语 连续语音识别 数据驱动 深层神经网络(DNN)
下载PDF
藏语孤立词语音识别系统研究 被引量:10
4
作者 姚徐 李永宏 +1 位作者 单广荣 于洪志 《西北民族大学学报(自然科学版)》 2009年第1期29-36,50,共9页
藏语语音研究相当滞后,文章结合语音识别知识和藏语特点,尝试性地研究了藏语孤立词语音识别研究.首先提取MFCC参数作为语音特征参数,形成语音模板库,采用DTW模型实现了语音识别系统,并且针对藏语孤立词多音节的特点,改进了传统的基于短... 藏语语音研究相当滞后,文章结合语音识别知识和藏语特点,尝试性地研究了藏语孤立词语音识别研究.首先提取MFCC参数作为语音特征参数,形成语音模板库,采用DTW模型实现了语音识别系统,并且针对藏语孤立词多音节的特点,改进了传统的基于短时能量和短时过零率双门限检测法,即加入了音节间静音段时长门限,提高了孤立词语音信号检测的准确性和识别率. 展开更多
关键词 藏语 孤立词 语音识别 DTW
下载PDF
基于瓶颈特征的藏语拉萨话连续语音识别研究 被引量:9
5
作者 周楠 赵悦 +3 位作者 李要嫱 徐晓娜 才旺拉姆 吴立成 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第2期249-254,共6页
基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征... 基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。 展开更多
关键词 藏语拉萨话 连续语音识别 高斯混合–隐马尔科夫模型 瓶颈特征 深度神经网络
下载PDF
基于端到端技术的藏语语音识别 被引量:8
6
作者 王庆楠 郭武 解传栋 《模式识别与人工智能》 EI CSCD 北大核心 2017年第4期359-364,共6页
现阶段基于链接时序分类技术的端到端的大规模连续语音识别成为研究热点,文中将其应用于藏语识别中,取得优于主流的双向长短时记忆网络性能.在基于端到端的语音识别中,不需要发音字典等语言学知识,识别性能无法得到保证.文中提出将已有... 现阶段基于链接时序分类技术的端到端的大规模连续语音识别成为研究热点,文中将其应用于藏语识别中,取得优于主流的双向长短时记忆网络性能.在基于端到端的语音识别中,不需要发音字典等语言学知识,识别性能无法得到保证.文中提出将已有的语言学知识结合至端到端的声学建模中,采用绑定的三音子作为建模单元,解决建模单元的稀疏性问题,大幅提高声学建模的区分度和鲁棒性.在藏语测试集上,通过实验证明文中方法提高基于链接时序分类技术的声学模型的识别率,并验证语言学知识和基于端到端声学建模技术结合的有效性. 展开更多
关键词 端到端 藏语 自动语音识别 链接时序分类
下载PDF
基于深度特征学习的藏语语音识别 被引量:8
7
作者 王辉 赵悦 +3 位作者 刘晓凤 徐晓娜 周楠 许彦敏 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2015年第4期69-73,共5页
根据听觉语音学的知识,提出使用稀疏自动编码器在MFCC特征基础上进行深度学习,提取了深度特征模仿听觉神经的稀疏触动信号,有利于HMM模型语音识别精度的提高.实验结果显示,学习到的深度特征较MFCC特征在藏语语音识别正确率方面有明显提高.
关键词 深度特征学习 稀疏自动编码器 藏语语音识别 MFCC特征
下载PDF
藏语孤立词语音识别技术研究 被引量:6
8
作者 赵尔平 王聪华 +1 位作者 党红恩 雒伟群 《西北师范大学学报(自然科学版)》 CAS 北大核心 2015年第5期50-54,共5页
针对藏语读音首先看后加字,然后根据元音的位置关系决定读音,而且元音比辅音携带更多听觉感知信息的特点,提出了一种改进的HTK系统藏语孤立词语音识别技术.在识别特征参数中,增加更能表征元音特征的共振峰参数提高语音识别的正确性,通... 针对藏语读音首先看后加字,然后根据元音的位置关系决定读音,而且元音比辅音携带更多听觉感知信息的特点,提出了一种改进的HTK系统藏语孤立词语音识别技术.在识别特征参数中,增加更能表征元音特征的共振峰参数提高语音识别的正确性,通过循环迭代方法提高语音训练速度,利用藏文字母拉丁转写方法解决藏文和语音识别系统编码不一致的问题.在二次开发的HTK平台进行实验,正确率达到92.83%,实验结果表明元音特征在藏语音识别中起到重要作用. 展开更多
关键词 藏语孤立词 共振峰 M el倒谱特征 循环迭代 隐马尔可夫模型 语音识别
下载PDF
藏语语音识别研究进展综述 被引量:3
9
作者 边巴旺堆 王希 王君堡 《高原科学研究》 CSCD 2022年第4期76-84,共9页
语音识别研究内容主要包括孤立词识别、连续语音识别、语音情感识别以及语音数据库构建等。文章首先从识别模型、识别率、评价指标等方面对藏语孤立词和连续语音识别研究进行了文献回顾与评述,并对近几年才开始开展的藏语语音情感识别... 语音识别研究内容主要包括孤立词识别、连续语音识别、语音情感识别以及语音数据库构建等。文章首先从识别模型、识别率、评价指标等方面对藏语孤立词和连续语音识别研究进行了文献回顾与评述,并对近几年才开始开展的藏语语音情感识别研究现状进行了分析;然后从研究者自用和开放使用两种情况来介绍藏语语音数据库的构建、使用情况;最后分析了目前藏语语音识别研究的主要难点,并对可能的发展方向进行了展望。 展开更多
关键词 藏语 语音数据库 语音识别 语音情感识别
下载PDF
基于深度神经网络的藏语语音关键词检索方法
10
作者 张恒 拉巴顿珠 +1 位作者 官政先 肖鑫 《西藏科技》 2024年第6期73-80,共8页
语音关键词识别作为人机语音交互的一项基础性研究课题,其目的是从连续的语音信号中提取特定的关键词,并实现对目标设备的唤醒以及其他相关功能。文章提出了一种基于DNN-HMM声学模型的藏语卫藏方言关键词检测方法。首先,通过切割、转换... 语音关键词识别作为人机语音交互的一项基础性研究课题,其目的是从连续的语音信号中提取特定的关键词,并实现对目标设备的唤醒以及其他相关功能。文章提出了一种基于DNN-HMM声学模型的藏语卫藏方言关键词检测方法。首先,通过切割、转换等方式对语音数据进行预处理;其次,使用MFCC从语音信号中提取出有效的特征作为模型的输入;再次,分别采用GMM-HMM和DNN-HMM模型对藏语声学特征进行建模。同时,为了提高模型的表现力和泛化能力,文章在模型中引入预训练和微调技术,对模型的结构进行了优化。实验结果表明,与传统基于GMM-HMM声学模型的识别结果相比,采用基于DNN-HMM声学模型的关键词检测方法能够更有效地检测出藏语语音关键词。 展开更多
关键词 声学模型 藏语 深度学习 关键词检测 语音识别
下载PDF
基于端到端深度学习的藏语语音识别研究 被引量:2
11
作者 高耀荣 边巴旺堆 《现代计算机》 2023年第17期25-30,共6页
针对如今藏语语音识别前期准备门槛高、相关研究少等问题,探究了端到端网络在藏语语音识别上的应用,提出以联合基于链接时序分类(CTC)和注意力机制(Attention)为解码器,结合了自动对齐和获取注意力权重的优点,使用Transformer作为编码器... 针对如今藏语语音识别前期准备门槛高、相关研究少等问题,探究了端到端网络在藏语语音识别上的应用,提出以联合基于链接时序分类(CTC)和注意力机制(Attention)为解码器,结合了自动对齐和获取注意力权重的优点,使用Transformer作为编码器,从而构建Transformer⁃CTC/Attention模型。模型先通过Transformer提取语音全局特征,选择藏字为建模单元,然后通过CTC/Attention对语音特征进行联合解码,并输出文本序列。在30小时的卫藏语音数据集以不同联合参数作实验,取得25.75%的词识错率,对比文献的WaveNet⁃CTC提升了14.14%。 展开更多
关键词 藏语 语音识别 端到端 CTC/Attention TRANSFORMER
下载PDF
基于HTK的藏语拉萨话大词表连续语音识别的研究与实现 被引量:3
12
作者 李冠宇 《西北民族大学学报(自然科学版)》 2011年第3期19-23,共5页
在分析藏语拉萨话特点的基础上,确定拉萨话音素集并制定了面向语音识别的拉丁转写方案.根据藏语字音转换规则,建立以单音节为单位的拉萨话发音字典,以音素为建模单元,训练得到三音子连续隐马尔可夫(HiddenMarkov Model,HMM)模型,探索藏... 在分析藏语拉萨话特点的基础上,确定拉萨话音素集并制定了面向语音识别的拉丁转写方案.根据藏语字音转换规则,建立以单音节为单位的拉萨话发音字典,以音素为建模单元,训练得到三音子连续隐马尔可夫(HiddenMarkov Model,HMM)模型,探索藏语拉萨话语音识别的方法和总体框架,实现了基于HTK的藏语拉萨话特定人大词表连续语音识别. 展开更多
关键词 HTK 藏语 拉萨话 连续语音识别 隐马尔可夫模型
下载PDF
一种藏语语音识别中数字文本规范方法 被引量:1
13
作者 贡保加 才智杰 +1 位作者 才让卓玛 彭毛扎西 《高原科学研究》 CSCD 2022年第3期117-124,共8页
语料库是语音识别技术的基础资源,藏语语料中数字的规范对藏语语音识别准确率有极大的影响。文章通过分析藏语语料库中的数字文本,提出了一种藏语语音识别中数字文本的规范方法,能有效规范藏语语料中数字文本,为后续藏语语音库构建及语... 语料库是语音识别技术的基础资源,藏语语料中数字的规范对藏语语音识别准确率有极大的影响。文章通过分析藏语语料库中的数字文本,提出了一种藏语语音识别中数字文本的规范方法,能有效规范藏语语料中数字文本,为后续藏语语音库构建及语音识别工作奠定基础。该方法根据藏文数字文本的特征符号和上下文文本对藏文数字文本进行了分类,并对不同藏文数字文本类型设计了规范化规则及算法,经实验验证,对藏文数字文本规范的准确率达到了99.28%。 展开更多
关键词 藏语语音识别 语料库 数字文本 规范
下载PDF
DHMM在家用安全门藏文语音识别中的应用
14
作者 裴春宝 《重庆理工大学学报(自然科学)》 CAS 2016年第11期150-154,184,共6页
对于家用安全门的防护措施,除了传统的安全锁,目前也使用一些指纹识别技术。给出了一种安全性更高的基于DHMM的家用安全门藏文语音识别系统。通过语音的监控方式,引入矢量量化(VQ)算法,同时建立安全门语音的离散隐马尔科夫模型(DHMM)。... 对于家用安全门的防护措施,除了传统的安全锁,目前也使用一些指纹识别技术。给出了一种安全性更高的基于DHMM的家用安全门藏文语音识别系统。通过语音的监控方式,引入矢量量化(VQ)算法,同时建立安全门语音的离散隐马尔科夫模型(DHMM)。通过MFCC的特征参数抽取,将LBG算法应用在藏文码书设计中,导出多观察序列的参数重估形式。在实验中选择30个人的语音信号作为实现对象,结果表明,识别准确率达到99%以上,验证了此方法的可适用性。 展开更多
关键词 隐马尔科夫模型 藏文语音识别 矢量量化
下载PDF
临近最优主动学习的藏语语音识别方法研究 被引量:3
15
作者 赵悦 李要嫱 +1 位作者 徐晓娜 吴立成 《计算机工程与应用》 CSCD 北大核心 2018年第22期156-159,215,共5页
语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样... 语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与大数据量训练方式一样精准的识别模型。研究了基于主动学习的藏语拉萨话语音语料选择方法,提出了一种临近最优的批量样本选择目标函数,并验证了其具有submodular函数性质。通过实验验证,该方法能够使用较少的训练数据保证语音识别模型的精度,从而减少了人工标注语料的工作量。 展开更多
关键词 临近最优批量主动学习 submodular函数 语音语料选择 藏语拉萨话语音识别
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部