期刊文献+
共找到113篇文章
< 1 2 6 >
每页显示 20 50 100
基于卷积神经网络的连续语音识别 被引量:70
1
作者 张晴晴 刘勇 +1 位作者 潘接林 颜永红 《工程科学学报》 EI CAS CSCD 北大核心 2015年第9期1212-1217,共6页
在语音识别中,卷积神经网络(convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络(deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸.本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别... 在语音识别中,卷积神经网络(convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络(deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸.本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比.在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强. 展开更多
关键词 卷积神经网络 连续语音识别 权值共享 聚合 泛化性
原文传递
基于隐马尔可夫模型的维吾尔语连续语音识别系统 被引量:17
2
作者 那斯尔江.吐尔逊 吾守尔.斯拉木 《计算机应用》 CSCD 北大核心 2009年第7期2009-2011,2025,共4页
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolK it)工具实现了基于隐马尔可夫模型(HMM)的维... 维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolK it)工具实现了基于隐马尔可夫模型(HMM)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了维吾尔语连续语音识别实验。 展开更多
关键词 维吾尔语 连续语音 语音识别 HMM的工具包
下载PDF
藏语拉萨话大词表连续语音识别声学模型研究 被引量:16
3
作者 李冠宇 孟猛 《计算机工程》 CAS CSCD 2012年第5期189-191,共3页
根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语... 根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语音识别。实验结果表明,在最优情况下,该模型词错误率只有7.8%。 展开更多
关键词 藏语 拉萨话 连续语音识别 隐马尔可夫模型 HTK工具 声学模型
下载PDF
一种基于高维空间覆盖动态搜索方法的非特定人连续数字语音识别的研究 被引量:7
4
作者 王守觉 潘晓霞 +3 位作者 徐春燕 陈旭 安冬 曹文明 《电子学报》 EI CAS CSCD 北大核心 2005年第10期1790-1793,共4页
本文使用高维空间点分布分析原理,在仿生模式识别高维空间点覆盖原理的基础上,提出了一种基于高维空间点覆盖动态搜索理论的非特定人连续数字语音识别的新算法,这种算法可以不经过端点检测和分割,通过对被识别连续数字语音直接进行动态... 本文使用高维空间点分布分析原理,在仿生模式识别高维空间点覆盖原理的基础上,提出了一种基于高维空间点覆盖动态搜索理论的非特定人连续数字语音识别的新算法,这种算法可以不经过端点检测和分割,通过对被识别连续数字语音直接进行动态搜索,得到被识别语音到各类高维空间覆盖范围的距离随时间变化曲线,通过距离曲线上的极小值点进行识别. 展开更多
关键词 连续语音识别 高维空间点覆盖 非特定人语音识别
下载PDF
卷积神经网络在语音识别中的应用 被引量:15
5
作者 张晴晴 刘勇 +2 位作者 王智超 潘接林 颜永红 《网络新媒体技术》 2014年第6期39-42,共4页
研究了使用卷积神经网络构造模式分类器,并用于连续语音识别的研究。CNNs相比于广泛使用于语音识别中的深层神经网络(Deep Neural Network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。在标准语音识别库TIMIT上的实验结果证明,相比传... 研究了使用卷积神经网络构造模式分类器,并用于连续语音识别的研究。CNNs相比于广泛使用于语音识别中的深层神经网络(Deep Neural Network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。在标准语音识别库TIMIT上的实验结果证明,相比传统DNN模型,CNN模型的识别性能更好,同时其模型规模和计算量都有明显降低。 展开更多
关键词 卷积神经网络 连续语音识别 权值共享
下载PDF
基于深层神经网络的藏语识别 被引量:14
6
作者 袁胜龙 郭武 戴礼荣 《模式识别与人工智能》 EI CSCD 北大核心 2015年第3期209-213,共5页
文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目... 文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目标模型的初始网络进行模型优化的策略.另外,由于藏语语音学的研究很不完善,人工生成决策树问题集的方式并不可行.针对该问题,文中利用数据驱动的方式自动生成决策树问题集,对三音子隐马尔可夫模型(HMM)进行状态绑定,从而减少需要估计的模型参数.在测试集上,基于混合高斯模型(GMM)声学建模的藏字识别率为30.86%.在基于DNN的声学模型建模中,采用三种大语种数据训练好的DNN网络作为初始网络,并在测试集上验证该方法的有效性,藏字识别正确率达到43.26%. 展开更多
关键词 藏语 连续语音识别 数据驱动 深层神经网络(DNN)
下载PDF
用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数 被引量:14
7
作者 蔡尚 金鑫 +2 位作者 高圣翔 潘接林 颜永红 《声学学报》 EI CSCD 北大核心 2012年第6期667-672,共6页
为了提高感知线性预测系数(PLP)在噪声环境下的识别性能,使用子带能量偏差减的方法,提出了一种基于子带能量规整的感知线性预测系数(SPNPLP)。PLP有效地集中了语音中的有用信息,在安静环境下自动语音识别系统使用PLP可以取得良好的识别... 为了提高感知线性预测系数(PLP)在噪声环境下的识别性能,使用子带能量偏差减的方法,提出了一种基于子带能量规整的感知线性预测系数(SPNPLP)。PLP有效地集中了语音中的有用信息,在安静环境下自动语音识别系统使用PLP可以取得良好的识别率;但是在噪声环境中其识别性能急剧下降。通过使用能量偏差减的方法对PLP的子带能量进行规整,抑制背景噪声激励,提出了SPNPLP,增强自动语音识别系统在噪声环境下的鲁棒性。在一个语法大小为501的孤立词识别任务和一个大词表连续语音识别任务上做了测试,SPNPLP在这两个任务上,与PLP相比,汉字识别精度分别绝对提升了11.26%和9.2%。实验结果表明SPNPLP比PLP具有更好的噪声鲁棒性。 展开更多
关键词 语音识别系统 线性预测系数 噪声鲁棒性 子带能量 感知 量规 噪声环境 连续语音识别
下载PDF
基于连续HMM的孤立语音鲁棒性识别方法 被引量:5
8
作者 徐文盛 戴蓓倩 +1 位作者 方绍武 李辉 《电路与系统学报》 CSCD 1999年第4期19-23,共5页
对于基于连续隐马尔可夫模型(CHMM)的语音识别系统,为了提高系统在环境噪声下的鲁棒性,本文提出了一种能有效抑制加性平稳噪声和通道卷积噪声的相对自相关序列的Mel倒谱参数(RAS_MFCC+△RAS_NFCC),进行特征参数级的去噪,明显... 对于基于连续隐马尔可夫模型(CHMM)的语音识别系统,为了提高系统在环境噪声下的鲁棒性,本文提出了一种能有效抑制加性平稳噪声和通道卷积噪声的相对自相关序列的Mel倒谱参数(RAS_MFCC+△RAS_NFCC),进行特征参数级的去噪,明显地改善了系统的噪声鲁棒性。为了进一步提高系统在低信噪比语音时的识别性能,我们采用了CHMM的混合语青训练法,获得了对各种信噪比语音都具有很强适应性的CHMM参数。实验证明。 展开更多
关键词 马尔可夫模型 鲁棒性 语音识别 CHMM
下载PDF
基于隐马尔可夫模型的连续语音同步识别系统 被引量:11
9
作者 李玉华 《现代电子技术》 北大核心 2019年第11期64-67,71,共5页
语音同步识别系统的发展方向是连续性的人机交互,采用传统系统易受到突发性噪声影响,致使识别效果较差,提出基于隐马尔可夫模型的连续语音同步识别系统。结合语音识别原理,设计系统硬件总体结构。利用JFET输入高保真运放的OPA604低通滤... 语音同步识别系统的发展方向是连续性的人机交互,采用传统系统易受到突发性噪声影响,致使识别效果较差,提出基于隐马尔可夫模型的连续语音同步识别系统。结合语音识别原理,设计系统硬件总体结构。利用JFET输入高保真运放的OPA604低通滤波器,保证信号处理结果的有效性。通过OMAP5912ZZG型号芯片对处理后的信号进行存储,使用矢量图缓冲音频,经由以太网接口移植相关语音识别序列,由此实现连续语音同步识别。由实验对比结果可知,该系统比传统系统识别效果最高值高出48%,推进了语音识别技术研究的快速发展。 展开更多
关键词 隐马尔可夫模型 连续语音识别 同步识别 信号处理 人机交互 系统结构设计
下载PDF
汉语连续语音识别中上下文相关的识别单元(三音子)的研究 被引量:4
10
作者 赵庆卫 王作英 陆大 《电子学报》 EI CAS CSCD 北大核心 1999年第6期79-82,117,共5页
本文详细研究了汉语语音识别中如何有效地建立上下文相关的识别单元,以解决连续语音之间的协同发音问题.本文首先利用信息论原理,研究了传统的聚类算法的距离测度,分别是模型分布的散度和模型合并或分裂前后熵的变化值.然后本文提... 本文详细研究了汉语语音识别中如何有效地建立上下文相关的识别单元,以解决连续语音之间的协同发音问题.本文首先利用信息论原理,研究了传统的聚类算法的距离测度,分别是模型分布的散度和模型合并或分裂前后熵的变化值.然后本文提出了基于决策树的聚类方法,它的主要优点是充分利用了语音学知识,聚类后得到的模型可推广性好,尤其适用于集外语料中出现大量的未在训练语料中出现的三音子单元的情况.接着介绍了模型聚类和训练的实验步骤最后,非特定人大词汇量连续语音识别的实验表明,基于决策树的聚类方法所得到的识别单元,当识别集外语料时使系统的误识率降低了7.95%,而基于合并的聚类方法所得到的识别单元只降低了2.63%. 展开更多
关键词 连续语音识别 上下文相关 决策树 聚类算法
下载PDF
LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法 被引量:9
11
作者 陈雷 杨俊安 +1 位作者 王一 王龙 《信号处理》 CSCD 北大核心 2015年第3期290-298,共9页
大词汇量连续语音识别系统中,为了进一步增强网络的鲁棒性、提升瓶颈深度置信网络的识别准确率,本文提出一种基于区分性和自适应瓶颈深度置信网络的特征提取方法。该方法首先使用鲁棒性较强的瓶颈深度置信网络进行初步特征提取,进而进... 大词汇量连续语音识别系统中,为了进一步增强网络的鲁棒性、提升瓶颈深度置信网络的识别准确率,本文提出一种基于区分性和自适应瓶颈深度置信网络的特征提取方法。该方法首先使用鲁棒性较强的瓶颈深度置信网络进行初步特征提取,进而进行区分性训练,使网络的区分性更强、识别准确率更高,在此基础上引入说话人自适应技术对网络进行调整,提高系统的鲁棒性。本文利用提出的声学特征在多个噪声较强、主题风格较为随意的多个公共连续语音数据库上进行了测试,识别准确率取得了6.9!的提升。实验结果表明所提出的特征提取方法相对于传统方法的优越性。 展开更多
关键词 连续语音识别 瓶颈深度置信网络 区分性训练 说话人自适应
下载PDF
一种抗噪孤立字语音识别模型 被引量:2
12
作者 徐文盛 戴蓓倩 +1 位作者 方绍武 李辉 《中国科学技术大学学报》 CAS CSCD 北大核心 2000年第6期659-665,共7页
论文提出了一种连续隐Markov模型和BP神经网络相结合的、具有两次辨识过程的抗噪孤立字识别模型 .首先以连续隐Markov模型完成语音信号的时序建模并提供一次识别信息 ;以BP神经网络进行后处理 ,提取二次识别信息 ,识别结果由两次识别信... 论文提出了一种连续隐Markov模型和BP神经网络相结合的、具有两次辨识过程的抗噪孤立字识别模型 .首先以连续隐Markov模型完成语音信号的时序建模并提供一次识别信息 ;以BP神经网络进行后处理 ,提取二次识别信息 ,识别结果由两次识别信息共同决定 .实验证明 ,由于有效地利用了隐Markov模型的强时序信号处理能力和BP神经网络的强模式分类和泛化性能 ,这种识别模型明显地改善了孤立字识别系统的抗噪性能 . 展开更多
关键词 连续隐MArkov模型 人工神经网络 噪声鲁棒性 语音识别 抗噪性能
下载PDF
基于瓶颈特征的藏语拉萨话连续语音识别研究 被引量:9
13
作者 周楠 赵悦 +3 位作者 李要嫱 徐晓娜 才旺拉姆 吴立成 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第2期249-254,共6页
基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征... 基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。 展开更多
关键词 藏语拉萨话 连续语音识别 高斯混合–隐马尔科夫模型 瓶颈特征 深度神经网络
下载PDF
语料资源缺乏的连续语音识别方法的研究 被引量:9
14
作者 伊·达瓦 匂坂芳典 中村哲 《自动化学报》 EI CSCD 北大核心 2010年第4期550-557,共8页
由于少数民族语言有其本身的特点,不能简单地套用现有的连续语音识别的方法.本文以蒙古语为例,研讨了声学和语言模型的建立,并在日本国际电气通信基础技术研究所的连续语音识别器上实现了蒙古语的语音识别系统.本文侧重于语言模型的建立... 由于少数民族语言有其本身的特点,不能简单地套用现有的连续语音识别的方法.本文以蒙古语为例,研讨了声学和语言模型的建立,并在日本国际电气通信基础技术研究所的连续语音识别器上实现了蒙古语的语音识别系统.本文侧重于语言模型的建立,基于蒙古语黏着性语言特点,提出用相似词聚类方法建立多类N-gram模型.实验结果显示,应用我们提出的语言模型,识别精度比用传统的词的N-gram识别法提高了5.5%. 展开更多
关键词 蒙古语 黏着语言 相似词分类 连续语语音识别 多类语言模型
下载PDF
利用背景知识提高web语音浏览中的识别精度的方法 被引量:8
15
作者 李红莲 袁保宗 王春花 《电子学报》 EI CAS CSCD 北大核心 2002年第12期1836-1839,共4页
语音识别的精度不够高一直是阻碍语音技术得以广泛应用的瓶颈,在具体的应用中充分利用背景知识是解决此问题的一种有效方法.在web语音浏览中,用户的语音输入为某个有限集的元素之一,本文利用这个特点,首先定义了一种文本字符串之间的相... 语音识别的精度不够高一直是阻碍语音技术得以广泛应用的瓶颈,在具体的应用中充分利用背景知识是解决此问题的一种有效方法.在web语音浏览中,用户的语音输入为某个有限集的元素之一,本文利用这个特点,首先定义了一种文本字符串之间的相似度,利用相似度对识别引擎的识别结果进行后处理,进而给出更准确的识别结果.实验结果表明,采用这种方法,语音识别的正确率能够达到95%以上,为真正实现语音上网提供了有力支持. 展开更多
关键词 背景知识 web语音浏览 识别精度 相似度 语音识别 语音理解
下载PDF
正反向隐马尔可夫模型及其在连续语音识别中的应用 被引量:3
16
作者 王仁华 江辉 《电子学报》 EI CAS CSCD 北大核心 1996年第10期63-68,共6页
本文针对语音信号中客观存在的正、反向依赖特性,明确提出了用条件概率的概念来定量表述语音信号的这种正、反向的马尔可大依赖关系,提出了描述语音信号这种正反向依赖关系的正反向隐马尔可夫模型(HMM),并用实验证明了仅仅利用... 本文针对语音信号中客观存在的正、反向依赖特性,明确提出了用条件概率的概念来定量表述语音信号的这种正、反向的马尔可大依赖关系,提出了描述语音信号这种正反向依赖关系的正反向隐马尔可夫模型(HMM),并用实验证明了仅仅利用语音反向依赖关系语音识别同样也能获得相当可观的识别性能。接着,本文针对孤立字和连续语音两种不同的识别任务,研究了在语音识别中同时利用这两种依赖信息的方法,并提出了一种连续语音识别中的新的搜索算法──正反向分半混合搜索。这种方法利用基于正向HMM的正向Viterbi搜索和基于反向HMM的反向Viterbi搜索的中间结果来有效地结合正反向依赖信息,实验证明正反向分半混合搜索方法确实一致地优于单用任何一种依赖信息的单向搜索识别方法。 展开更多
关键词 语音识别 连续语音识别 HMM模型
下载PDF
基于元音检测的汉语连续语音声韵母分割 被引量:7
17
作者 王艳 冯宏伟 +1 位作者 张利平 忽满利 《计算机工程与应用》 CSCD 北大核心 2011年第14期134-136,共3页
在基于声韵母的汉语连续语音识别中,声韵母基元的准确分割是非常重要的一步。当前的声韵母分割方法在非连续语音中分割准确度较高,但在连续语音中准确度大幅度降低。利用熵与汉语元音的共振峰能量设计了一种新的分割方法,并引入重叠分... 在基于声韵母的汉语连续语音识别中,声韵母基元的准确分割是非常重要的一步。当前的声韵母分割方法在非连续语音中分割准确度较高,但在连续语音中准确度大幅度降低。利用熵与汉语元音的共振峰能量设计了一种新的分割方法,并引入重叠分割策略,完整地分割出汉语连续语音中的声韵母基元。实验结果表明,这种分割方法在低信噪比下也有很高的分割正确率。 展开更多
关键词 连续语音识别 共振峰
下载PDF
基于HMM/VQ的认人的中等词表连续语音识别 被引量:4
18
作者 林道发 罗万伯 杨家沅 《电子学报》 EI CAS CSCD 北大核心 1992年第7期59-65,共7页
本文讨论基于隐马尔可夫模型(HMM)和矢量量化(VQ)的连续语音识别方法。用这种方法,对每个单词作成一个HMM,对多个模型组合成的状态转移网络搜索其状态转移的最佳路径,从而实现不预先进行单词切分的连续语音的识别,使用有限态文法约束及... 本文讨论基于隐马尔可夫模型(HMM)和矢量量化(VQ)的连续语音识别方法。用这种方法,对每个单词作成一个HMM,对多个模型组合成的状态转移网络搜索其状态转移的最佳路径,从而实现不预先进行单词切分的连续语音的识别,使用有限态文法约束及其它一些改善识别性能的措施,演示系统能识别特定人的18种英语句式,150个单词,用312个话句(共有2710个单词)进行测试,识别延迟时间为发音时长的62%,发音速度平均为每秒2.32个单词,单词识准率为97.3%。 展开更多
关键词 连续语音 识别 文法分析 HMM
下载PDF
连续语音识别中的说话人快速自适应技术 被引量:4
19
作者 吕萍 吴及 +1 位作者 王作英 陆大 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第7期977-980,共4页
语音识别技术中说话人快速自适应技术受到普遍关注。该文综述了说话人快速自适应技术在国际上的研究现状 ,并且介绍了本研究组提出的快速自适应方法 ,即最大似然模型插值快速自适应框架及插值算法。与现有的相关自适应方法相比 ,该算法... 语音识别技术中说话人快速自适应技术受到普遍关注。该文综述了说话人快速自适应技术在国际上的研究现状 ,并且介绍了本研究组提出的快速自适应方法 ,即最大似然模型插值快速自适应框架及插值算法。与现有的相关自适应方法相比 ,该算法在更复杂的识别系统上同时实现了均值和协方差的自适应 ,并取得较好的自适应效果。当仅有一句自适应数据时 ,识别系统的误识率从 2 8.75 %下降到2 4 .93%。 展开更多
关键词 连续语音识别 均值矢量 说话人快速自适应 最大似然模型插值 协方差矩阵 声学模型
原文传递
带拼音纠错的汉语音字转换技术 被引量:4
20
作者 张瑞强 王作英 张建平 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 1997年第10期9-11,共3页
提出了一种基于统计和规则的混合方法来实现汉语音字转换。利用汉语的语法规则,在统计语言模型中采用了两种基于词和词性的混合语言模型。在实验中,将这两种混合语言模型与基于词的语言模型进行了比较。实验证明,在语言模型中引入词... 提出了一种基于统计和规则的混合方法来实现汉语音字转换。利用汉语的语法规则,在统计语言模型中采用了两种基于词和词性的混合语言模型。在实验中,将这两种混合语言模型与基于词的语言模型进行了比较。实验证明,在语言模型中引入词性后,提高了音字转换正确率。考虑了出现拼音错误时的音字转换问题,提出了一种拼音纠错方法来纠正错误。实验证明,当拼音正确率高于85%时,这种带纠错的音字转换方法可以提高音字转换正确率。 展开更多
关键词 语音识别 统计语言模型 拼音纠错 音字转换 汉语
原文传递
上一页 1 2 6 下一页 到第
使用帮助 返回顶部