期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于层次稀疏DBN的瓶颈特征提取方法 被引量:10
1
作者 王一 杨俊安 +1 位作者 刘辉 柳林 《模式识别与人工智能》 EI CSCD 北大核心 2015年第2期173-180,共8页
针对现有语音特征无法有效利用长时段语音和监督性类别信息,及现有瓶颈特征提取方法耗时过长等缺陷,提出基于层次结构稀疏深度可信神经网络的瓶颈特征提取方法.该方法将重叠组套索作为深度可信神经网络目标函数的稀疏正则项使用,从而构... 针对现有语音特征无法有效利用长时段语音和监督性类别信息,及现有瓶颈特征提取方法耗时过长等缺陷,提出基于层次结构稀疏深度可信神经网络的瓶颈特征提取方法.该方法将重叠组套索作为深度可信神经网络目标函数的稀疏正则项使用,从而构建训练速度更快的稀疏深度可信神经网络.然后利用层次结构的网络架构方式,将两个稀疏深度可信神经网络串联后使用,进一步增强瓶颈特征的判决能力.文中将此瓶颈特征应用于音素识别中,实验表明该特征的有效性. 展开更多
关键词 音素识别 深度可信神经网络(DBN) 重叠组套索 层次结构
下载PDF
低信噪比下基于融合网络的音素识别方法
2
作者 黄辉波 邵玉斌 +1 位作者 龙华 杜庆治 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第4期786-796,共11页
针对低信噪比下音素识别准确率低的问题,提出一种新的识别方法。提取语音的Fbank特征,输入到由多头注意力机制、ResNet、BLSTM、CTC构建的A-R-B-CTC模型中进行音素识别,利用Wave-U-Net对语音特征Fbank、MFCC、GFCC、对数频谱进行图像去... 针对低信噪比下音素识别准确率低的问题,提出一种新的识别方法。提取语音的Fbank特征,输入到由多头注意力机制、ResNet、BLSTM、CTC构建的A-R-B-CTC模型中进行音素识别,利用Wave-U-Net对语音特征Fbank、MFCC、GFCC、对数频谱进行图像去噪,发现Fbank特征去噪后,可以取得更低的音素错误率。在0 dB白噪声环境下采用THCHS30数据集进行实验验证。结果表明,Fbank去噪前,所提A-R-B-CTC模型相比于BLSTM-CTC、ResNet-BLSTM-CTC、Transformer模型,平均音素错误率分别降低了4.38%、2.5%、1.96%;Fbank去噪后,4种模型的音素错误率明显下降,其中所提A-R-B-CTC模型相比于其他3种模型性能依旧出色。此外,在其他信噪比下也达到了不错的效果。 展开更多
关键词 音素识别 Wave-U-Net 端到端 多头自注意力机制 Transformer模型
下载PDF
基于LSTM的关键词识别系统设计 被引量:3
3
作者 何蕊伽 夏秀渝 《计算机与网络》 2022年第2期64-69,共6页
为快速、准确地判断语音流中是否含有关键词,提出一种基于LSTM两步检索的关键词识别系统。将连续语音流分割成独立音节,然后采用过零率直方图进行初步检索,基于过零率直方图的相似度比较的计算量小,可快速排除非关键词。对初检时判断为... 为快速、准确地判断语音流中是否含有关键词,提出一种基于LSTM两步检索的关键词识别系统。将连续语音流分割成独立音节,然后采用过零率直方图进行初步检索,基于过零率直方图的相似度比较的计算量小,可快速排除非关键词。对初检时判断为关键词的音频片段进行精检,使用基于LSTM的分级系统进行音素识别,通过贪心搜索算法解码以确认是否为目标关键词。仿真结果表明,基于LSTM的网络能更有效提取音素特征,基于两步检索LSTM的关键词识别系统计算量小、速度快、识别率较高,且易于动态扩展目标关键词,具有较好的实时性。 展开更多
关键词 关键词识别 语音分割 音素识别 循环神经网络 过零率直方图
下载PDF
基于多GPU的深层神经网络快速训练方法 被引量:4
4
作者 薛少飞 宋彦 戴礼荣 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第6期745-748,共4页
近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基... 近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基于多图形处理器(graph-ic processing unit,GPU)的DNN快速训练算法。在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法在4个GPU下训练速度相比单GPU有约3.3倍的提升。实验结果表明该快速训练方法可以显著提升DNN模型的训练速度。 展开更多
关键词 深层神经网络(DNN) 图形处理器(GPU) 音素识别
原文传递
声学发音模型辅助建模的发音错误检测与诊断
5
作者 柳宗铭 王丽 +1 位作者 李军锋 张鹏远 《声学学报》 EI CAS CSCD 北大核心 2023年第1期264-273,共10页
发音错误检测与诊断(MDD)任务的专家标注数据稀缺。从添加发音模型更高效地利用有限数据建模发音规律,辅助基于音素识别的MDD的思路出发,提出一种同时融合声学和文本信息,在理论上更完备地建模发音错误产生过程的声学发音模型。基于发... 发音错误检测与诊断(MDD)任务的专家标注数据稀缺。从添加发音模型更高效地利用有限数据建模发音规律,辅助基于音素识别的MDD的思路出发,提出一种同时融合声学和文本信息,在理论上更完备地建模发音错误产生过程的声学发音模型。基于发音错误产生过程不同部分的声学关联性,该模型通过与音素识别模型共享声学编码器网络参数,以多任务学习方式联合优化,实现辅助建模。并且,提出声学置信度掩蔽-预测训练方式进一步强化两个任务的联系,提高辅助建模效率。实验表明,声学发音模型能够有效建模发音错误规律;利用其辅助音素识别模型建模后,MDD系统在发音错误检测、诊断和音素识别上分别有4.9%,9.5%和14.0%的提升;声学置信度掩蔽-预测训练方法提高了辅助建模效率,掩蔽参数或联合优化参数选择也会影响辅助建模效果。 展开更多
关键词 辅助建模 多任务学习 数据建模 联合优化 文本信息 发音错误 模型共享 音素识别
下载PDF
音素识别中时延神经网络的一种快速学习算法 被引量:2
6
作者 江铭虎 林碧琴 袁保宗 《信号处理》 CSCD 1998年第4期331-336,共6页
本文对音素识别中时延神经网络提出若干改进训练方法并与原方法进行实验对比研究,发现通过采取如下措施可有效地增加时延神经网络的收敛速率:(1)误差反传法初训权值。(2)从单极性输出改为双极性输出。(3)改变能量函数使权值修... 本文对音素识别中时延神经网络提出若干改进训练方法并与原方法进行实验对比研究,发现通过采取如下措施可有效地增加时延神经网络的收敛速率:(1)误差反传法初训权值。(2)从单极性输出改为双极性输出。(3)改变能量函数使权值修正根据输出误差的大小而改变。(4)将反传误差修正权值从按时延帧取平均改为按层进行。这些措施使收敛时间从原来的23小时另25分减少到45分钟,收敛速率提高数十倍之多,而网络复杂度增加很少。 展开更多
关键词 音素识别 时延神经网络 语音识别 学习算法
下载PDF
一种基于RBM的深层神经网络音素识别方法 被引量:3
7
作者 陈琦 张文林 +1 位作者 牛铜 李弼程 《信息工程大学学报》 2013年第5期569-574,共6页
为提高连续语音识别中的音素识别准确率,采用深可信网络提取语音音素后验概率进行音素识别。首先利用受限玻尔兹曼机的学习原理,对深可信网络进行逐层的预训练;然后通过增加一个"软最大化(softmax)"输出层,得到用于音素状态... 为提高连续语音识别中的音素识别准确率,采用深可信网络提取语音音素后验概率进行音素识别。首先利用受限玻尔兹曼机的学习原理,对深可信网络进行逐层的预训练;然后通过增加一个"软最大化(softmax)"输出层,得到用于音素状态后验概率检测的深层神经网络,并采用后向传播算法进行网络权值的精细调整;最后以后验概率为HMM发射概率,使用Viterbi解码器进行音素识别。针对TIMIT语料库的实验结果表明,该系统的音素识别率优于GMM/HMM,MLP/HMM和TANDEM系统性能。 展开更多
关键词 受限玻尔兹曼机 深可信网络 神经网络 音素识别
下载PDF
汉语语音的聚类分段研究
8
作者 宋原章 王仁华 《自动化学报》 EI CSCD 北大核心 1989年第5期463-466,共4页
本文提出了一种新的聚类分段算法,这个算法以段内平均离散度最小、段间平均离散度最大为准则,采用聚类的方法逐次迭代选择最佳分段断点和分段段数,能正确地对汉语语音进行音素分段,它和以往分段方法相比在性能上有很大提高.文中还给出... 本文提出了一种新的聚类分段算法,这个算法以段内平均离散度最小、段间平均离散度最大为准则,采用聚类的方法逐次迭代选择最佳分段断点和分段段数,能正确地对汉语语音进行音素分段,它和以往分段方法相比在性能上有很大提高.文中还给出了应用该算法对汉语单音所作的部分实验统计结果,可供进一步开展基于音素或音位的汉语语音识别研究参考. 展开更多
关键词 音素识别 聚类分段 语音识别 汉语
下载PDF
基于Multilingual的音素识别及其在语种识别中的应用 被引量:2
9
作者 王士进 孟猛 +1 位作者 梁家恩 徐波 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第S1期678-682,共5页
国际上对自动语种识别进行了广泛的研究,提出了各种各样的方法,美国国家标准技术研究所(NIST)多年的评测表明,基于并行音素识别(parallel phoneme recognition language modeling,PPRLM)的方法取得了很好的性能。该文提出了一种基于多... 国际上对自动语种识别进行了广泛的研究,提出了各种各样的方法,美国国家标准技术研究所(NIST)多年的评测表明,基于并行音素识别(parallel phoneme recognition language modeling,PPRLM)的方法取得了很好的性能。该文提出了一种基于多种语言的音素识别方法的自动语种识别系统,系统中Multilingual音素集是使用基于数据驱动聚类获得。通过真实环境电话语音测试表明,该方法在只使用了很少的识别时间的情况下,获得了跟传统的PPRLM系统可比的识别正确率。同时经过与PPRLM系统融合后,获得了更好的性能,跟其他主流的几种语种识别方法也有可比的性能。 展开更多
关键词 信息处理 多语种 音素识别 语种识别
原文传递
一种基于改进CP网络与HMM相结合的混合音素识别方法 被引量:1
10
作者 邓伟 赵荣椿 《数据采集与处理》 CSCD 2000年第1期6-11,共6页
提出了一种基于改进对偶传播 (CP)神经网络与隐马尔可夫模型 (HMM)相结合的混合音素识别方法。这一方法的特点是用一个具有有指导学习矢量量化 (L VQ)和动态节点分配等特性的改进的 CP网络生成离散 HMM音素识别系统中的码书。因此 ,用... 提出了一种基于改进对偶传播 (CP)神经网络与隐马尔可夫模型 (HMM)相结合的混合音素识别方法。这一方法的特点是用一个具有有指导学习矢量量化 (L VQ)和动态节点分配等特性的改进的 CP网络生成离散 HMM音素识别系统中的码书。因此 ,用这一方法构造的混合音素识别系统中的码书实际上是一个由有指导 L VQ算法训练的具有很强分类能力的高性能分类器 ,这就意味着在用 HMM对语音信号进行建模之前 ,由码书产生的观测序列中已经包含了很强的分类信息 ,这将极大地改进 HMM系统在音素层上的识别性能。另一方面 ,由于这一训练是对一个具有诸多改进的 CP网络进行的 ,这就使得训练过程中的 LVQ学习能够自动地在有指导的方式下进行 ,而且加快了学习过程、改进了收敛性能、提高了分类精度 ,同时有效地减小了码书的大小 ,使得HMM的参数估计更为容易。最后 ,通过两个特定说话人的音素识别实验 ,将混合方法与使用 K -means聚类算法生成码书的 VQ- HMM传统音素识别方法进行了比较 ,实验结果表明混合系统的识别率能够达到 98%~ 99% ,误识率要比使用同样大小码书的 VQ- HMM识别系统的误识率低 4~ 6倍。 展开更多
关键词 隐马尔可夫模型 音素识别 CP网络 语音识别
下载PDF
一种基于层次结构深度信念网络的音素识别方法 被引量:2
11
作者 王一 杨俊安 +2 位作者 刘辉 柳林 卢高 《应用科学学报》 CAS CSCD 北大核心 2014年第5期515-522,共8页
针对现有音素识别系统识别准确率不高、建模方法表征能力不强且易陷入局部最优解等问题,提出了一种基于层次结构深度信念网络(deep belief network,DBN)的音素识别新方法.该方法由基于层次结构DBN的瓶颈特征以及基于DBN的音素分类器两... 针对现有音素识别系统识别准确率不高、建模方法表征能力不强且易陷入局部最优解等问题,提出了一种基于层次结构深度信念网络(deep belief network,DBN)的音素识别新方法.该方法由基于层次结构DBN的瓶颈特征以及基于DBN的音素分类器两部分组成:其中的瓶颈特征能够充分利用DBN能够处理长时段语音、监督性的提取方法等特性;而基于DBN的音素分类器则具有更强的建模和表征能力.因此,将两者结合在一起能够在提取低维、监督性特征的同时,利用DBN更加有效地对音素后验概率进行识别.在TIMIT数据库上进行的实验结果表明,所提出的音素识别方法在识别正确率上相对于以往音素识别系统有较大提高. 展开更多
关键词 音素识别 层次结构 深度信念网络 瓶颈特征
下载PDF
基于BLSTM-CTC的语音特征的音素识别研究 被引量:1
12
作者 吴丹丹 夏秀渝 《现代计算机》 2022年第10期32-38,共7页
音音素是自然语言中的最小建模单元,音素识别模型的优劣直接影响关键词检索、连续语音识别的性能。本文首先针对幅度特征MSRCC和相位特征PSRCC进行了一系列对比实验研究,发现融合幅度特征和相位特征可以取得更好的识别效果;接着比较分... 音音素是自然语言中的最小建模单元,音素识别模型的优劣直接影响关键词检索、连续语音识别的性能。本文首先针对幅度特征MSRCC和相位特征PSRCC进行了一系列对比实验研究,发现融合幅度特征和相位特征可以取得更好的识别效果;接着比较分析了几种深度神经网络的优缺点,并将它们用于音素识别,仿真实验表明基于BLSTM-CTC的声学模型相比于其他模型具有更好的识别性能。 展开更多
关键词 音素识别 深度神经网络 语音特征
下载PDF
K子空间和时延自相关器的英汉音素识别
13
作者 罗万伯 罗霄岚 +2 位作者 陈炜 彭舰 吴端培 《电子科技大学学报》 EI CAS CSCD 北大核心 2006年第1期66-69,共4页
提出了用于音素识别的K子空间和时延自相关器神经网络结构,用将时延设计加入线性自相关器,以扩展音素滤波神经网络的方法,产生p维子空间,并采用迭代过程修改划分,以便捕获语音信号中的时间序列信息。这种带不分类训练过程的体系结构提... 提出了用于音素识别的K子空间和时延自相关器神经网络结构,用将时延设计加入线性自相关器,以扩展音素滤波神经网络的方法,产生p维子空间,并采用迭代过程修改划分,以便捕获语音信号中的时间序列信息。这种带不分类训练过程的体系结构提供了一种高识别性能的方法,没有大多数常规语音识别神经网络所常有的网络输出值不表示候选者似然性的缺陷。通过英语音素和汉语音素的初步试验,识别正确率为84.38%,比音素滤波神经网络方法好。 展开更多
关键词 语音识别 音素识别 神经网络 汉语音素 时延自相关
下载PDF
基于区分性特征的音素识别
14
作者 李立永 张连海 《信息工程大学学报》 2013年第6期692-699,共8页
针对当前主流的基于统计模型的语音识别系统没有使用语音产生知识的问题,通过模拟人类的语音感知理解过程提出了一种"自下而上"的基于区分性特征的音素识别方法。该方法首先根据不同音素的发音特点检测得到音素的边界信息;然... 针对当前主流的基于统计模型的语音识别系统没有使用语音产生知识的问题,通过模拟人类的语音感知理解过程提出了一种"自下而上"的基于区分性特征的音素识别方法。该方法首先根据不同音素的发音特点检测得到音素的边界信息;然后利用分类器完成语音的区分性特征检测,并根据区分性特征与音素的对应关系建立映射表;最后利用音素的边界信息得到语音段的特征序列,通过对语音段的特征序列模糊搜索匹配实现音素识别。实验结果表明,相比于传统的基于隐马尔科夫模型的音素识别方法,该方法在识别速度、鲁棒性及可扩展性等方面具有明显优势。 展开更多
关键词 语音产生知识 音素边界检测 区分性特征 音素识别 模糊匹配
下载PDF
连续音素的改进深信度网络的识别算法 被引量:1
15
作者 阴法明 赵焱 赵力 《应用声学》 CSCD 北大核心 2019年第1期39-44,共6页
为提高连续语音识别中的音素识别率,提出一种基于改进并行回火训练的受限波尔兹曼机的音素识别算法。首先,利用经过等能量划分后的改进并行回火算法来训练受限玻尔兹曼机,接着将受限玻尔兹曼机堆叠组成一个深信度网络,从而作为深度神经... 为提高连续语音识别中的音素识别率,提出一种基于改进并行回火训练的受限波尔兹曼机的音素识别算法。首先,利用经过等能量划分后的改进并行回火算法来训练受限玻尔兹曼机,接着将受限玻尔兹曼机堆叠组成一个深信度网络,从而作为深度神经网络预训练的基础模型,然后通过softmax层输出,得到用于音素状态后验概率检测的深度神经网络。接着,利用少量的标签数据,根据反向传播算法对网络权重进行微调。最后,将所得后验概率作为隐马尔科夫的发射概率,然后利用Viterbi解码器实现音素识别。在TIMIT语料库上的实验表明,识别率相比于传统的对比散度类算法提高了约4.5%,在不增加计算量的情况下比原始并行回火算法提高约1%。 展开更多
关键词 并行回火 受限玻尔兹曼机 深信度网络 音素识别
下载PDF
基于CNN-BGRU的音素识别研究 被引量:1
16
作者 和丽华 江涛 +1 位作者 潘文林 杨皓然 《云南民族大学学报(自然科学版)》 CAS 2020年第5期493-500,共8页
音素是一个语言体系中最小的语音单位,音素识别在大词汇语音识别任务中不受词汇和语句的限制.因此,选择音素作为识别单元,建立基于CNN-BGRU的神经网络模型,实现音素语谱图的分类.首先,使用短时傅里叶变换生成音素语谱图作为模型的输入;... 音素是一个语言体系中最小的语音单位,音素识别在大词汇语音识别任务中不受词汇和语句的限制.因此,选择音素作为识别单元,建立基于CNN-BGRU的神经网络模型,实现音素语谱图的分类.首先,使用短时傅里叶变换生成音素语谱图作为模型的输入;其次建立CNN-BGRU模型,利用改进的VGGNet模型提取音素语谱图的特征,再使用双向门控循环单元(BGRU)实现音素语谱图的序列信息表示;最后,通过Softmax分类器实现音素语谱图的分类.实验使用TIMIT英语语音数据集进行音素语谱图识别,准确率达到98.6%,优于CNN(VGG16)、CNN-RNN、CNN-BRNN、CNN-BLSTM这4个模型. 展开更多
关键词 音素识别 卷积神经网络 双向门循环机制
下载PDF
基于SGMM和DNN结合提高音素识别率的研究 被引量:1
17
作者 贾兵兵 曹辉 秦驰杰 《计算机工程与应用》 CSCD 北大核心 2019年第24期117-121,127,共6页
为降低声学特征在语音识别系统中的音素识别错误率,提高系统性能,提出一种子空间高斯混合模型和深度神经网络结合提取特征的方法,分析了子空间高斯混合模型的参数规模并在减少计算复杂度后将其与深度神经网络串联进一步提高音素识别率... 为降低声学特征在语音识别系统中的音素识别错误率,提高系统性能,提出一种子空间高斯混合模型和深度神经网络结合提取特征的方法,分析了子空间高斯混合模型的参数规模并在减少计算复杂度后将其与深度神经网络串联进一步提高音素识别率。把经过非线性特征变换的语音数据输入模型,找到深度神经网络结构的最佳配置,建立学习与训练更可靠的网络模型进行特征提取,通过比较音素识别错误率来判断系统性能。实验仿真结果证明,基于该系统提取的特征明显优于传统声学模型。 展开更多
关键词 声学特征 音素识别 子空间高斯混合模型 深度神经网络
下载PDF
一种新型极低比特率声码器在音素HMM语音识别中的应用
18
作者 李颖 张有为 《五邑大学学报(自然科学版)》 CAS 1999年第4期37-41,共5页
音素HMM语音识别是当前语音识别领域的一个热点。本文在简单介绍音素识别的相关理论后,着重讨论了一种新的极低速率语音编解码器的原理、方法和其在音素识别上的应用。最后给出相关的实验结果。
关键词 HMM 语音识别 音素识别 声码器 语音参数提取
下载PDF
Japanese Phoneme Recognition Based on Recurrent Neural Network Integrating Dynamic Parameters
19
作者 Mohammed Rokibu Alam Kotwal +2 位作者 Konica Bhowmik Md.Merajul Islam Mohammad Nurul Huda 《通讯和计算机(中英文版)》 2012年第3期317-322,共6页
关键词 神经网络集成 递归神经网络 音素识别 动态参数 日本 Schmidt正交化 隐马尔可夫模型 多层神经网络
下载PDF
基于长时性特征的音位属性检测方法
20
作者 许友亮 张连海 +1 位作者 屈丹 牛铜 《计算机工程》 CAS CSCD 2012年第11期160-162,166,共4页
提出一种基于长时性信息的音位属性检测方法,该方法通过高、低两层时间延迟神经网络(TDNN)进行实现,低层TDNN在短时特征上进行音位属性的检测,高层TDNN在低层检测结果的基础上,对更长时段上的信息进行融合。实验结果表明,引入长时性特... 提出一种基于长时性信息的音位属性检测方法,该方法通过高、低两层时间延迟神经网络(TDNN)进行实现,低层TDNN在短时特征上进行音位属性的检测,高层TDNN在低层检测结果的基础上,对更长时段上的信息进行融合。实验结果表明,引入长时性特征使得音位属性检测率提升约3%,将音位属性后验概率作为音素识别系统的观测特征,使用长时性特征的识别结果提升约1.7%。 展开更多
关键词 音位属性 长时特征 层级结构 人工神经网络 隐马尔可夫模型 音素识别
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部