期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于交叉熵顺序统计滤波的语音端点检测算法 被引量:7
1
作者 刘加 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第10期1660-1663,共4页
为提高语音端点检测在强噪声环境下的准确率,提出了一种基于交叉熵顺序统计滤波(OSF)的语音端点检测算法。该算法以子带交叉熵为语音/非语音的区分特征,首先将每帧语音的频谱划分成若干个子带,估计出每个子带能量与背景噪声之间的交叉熵... 为提高语音端点检测在强噪声环境下的准确率,提出了一种基于交叉熵顺序统计滤波(OSF)的语音端点检测算法。该算法以子带交叉熵为语音/非语音的区分特征,首先将每帧语音的频谱划分成若干个子带,估计出每个子带能量与背景噪声之间的交叉熵,然后把相继若干帧的子带能量交叉熵经过一组顺序统计滤波器,最后根据各帧交叉熵的值对输入的语音进行分类。实验结果表明:该算法能够有效地区分语音和非语音。特别是在强噪声环境下依然能够保持很高的检测率,具有鲁棒性。通过实验结果比较,该算法在性能上优于最近提出的基于能量顺序统计滤波和单纯交叉熵判别的两种方法。 展开更多
关键词 语音信号处理 端点检测 子带交叉熵 顺序统计滤波(0SF)
原文传递
低数据资源条件下基于优化的数据选择策略的无监督语音识别声学建模 被引量:2
2
作者 刘加 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第7期1001-1004,1010,共5页
为了克服低数据资源条件下的资源匮乏问题,该文利用无监督的声学模型训练方法来增加训练数据,改善系统性能。在标准的无监督训练框架下,在传统词图后验概率的词置信度基础上,提出了基于句子后验概率的置信度数据筛选准则,所选数据在保... 为了克服低数据资源条件下的资源匮乏问题,该文利用无监督的声学模型训练方法来增加训练数据,改善系统性能。在标准的无监督训练框架下,在传统词图后验概率的词置信度基础上,提出了基于句子后验概率的置信度数据筛选准则,所选数据在保证整句话可靠性的同时很好保留了上下文信息,有利于跨词的三音子声学模型建模;还提出了基于音素覆盖率准则的数据筛选方法,在考虑假设标注句子置信可靠度的同时,尽可能选取训练样本中最为稀疏的音素单元,从源头再次克服低数据资源的困难,数据选择效率更高,性能进一步提升。实验表明:基于本文改进的无监督训练方法的词错误率比基线有监督训练方法的降低约相对8%,比传统无监督方法的也有绝对2%的减少,极大程度改善了低数据资源条件下的系统性能。 展开更多
关键词 语音识别 低数据资源 无监督训练 数据选择
原文传递
基于优化检测网络和MLP特征改进发音错误检测的方法 被引量:2
3
作者 袁桦 +1 位作者 赵军红 刘加 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第4期557-560,570,共5页
该文基于优化的检测网络和多层感知(multi-layerperception,MLP)特征,提出一种可以更加准确地检测出错误发音类型的方法。首先,从第二语言学习的语音库中提取出基本的发音规则以及组合的发音规则,并相应地计算它们发生的先验概率,再将... 该文基于优化的检测网络和多层感知(multi-layerperception,MLP)特征,提出一种可以更加准确地检测出错误发音类型的方法。首先,从第二语言学习的语音库中提取出基本的发音规则以及组合的发音规则,并相应地计算它们发生的先验概率,再将这些具有先验概率的规则用于构建基于多发音的扩展检测网络。然后在检测过程中,引入基于发音特征的MLP特征来描述发音概率,替代了传统的语音声学特征。最后使用基于MLP特征的GMM-HMM框架从检测网络中识别出最可能的发音音素串。实验表明:该方法将音素识别正确率提高了3.11%,错误类型准确率提高了7.42%。 展开更多
关键词 发音错误检测 发音规则 多层感知(MLP) 发音特征
原文传递
English Speech Recognition System on Chip
4
作者 刘鸿 刘加 《Tsinghua Science and Technology》 SCIE EI CAS 2011年第1期95-99,共5页
An English speech recognition system was implemented on a chip, called speech system-on-chip (SoC). The SoC included an application specific integrated circuit with a vector accelerator to improve performance. The s... An English speech recognition system was implemented on a chip, called speech system-on-chip (SoC). The SoC included an application specific integrated circuit with a vector accelerator to improve performance. The sub-word model based on a continuous density hidden Markov model recognition algorithm ran on a very cheap speech chip. The algorithm was a two-stage fixed-width beam-search baseline system with a variable beam-width pruning strategy and a frame-synchronous word-level pruning strategy to significantly reduce the recognition time. Tests show that this method reduces the recognition time nearly 6 fold and the memory size nearly 2 fold compared to the original system, with less than 1% accuracy degradation for a 600 word recognition task and recognition accuracy rate of about 98%. 展开更多
关键词 non-specific human voice-consciousness SYSTEM-ON-CHIP mel-frequency cepstral coefficients (MFCC)
原文传递
标签同步解码算法及其在语音识别中的应用 被引量:9
5
作者 陈哲怀 郑文露 +2 位作者 游永彬 俞凯 《计算机学报》 EI CSCD 北大核心 2019年第7期1511-1523,共13页
自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模.用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型(Hidden Markov Model, HMM)和连接时序模型(Connectionist... 自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模.用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型(Hidden Markov Model, HMM)和连接时序模型(Connectionist Temporal Classification,CTC).针对这些模型,当前主流的推理方法是帧层面的维特比束搜索算法,该算法复杂度很高,限制了语音识别的广泛应用.深度学习的发展使得更强的上下文和历史建模成为可能.通过引入blank单元,端到端建模系统能够直接预测标签在给定特征下的后验概率.该文系统地提出了一系列方法,通过使用高效的blank结构和后处理方法,使得搜索解码过程从逐帧同步变为标签同步.该系列通用方法在隐马尔可夫模型和连接时序模型上均得到了验证.结果表明,在Switchboard数据集上,不损失性能的前提下,实验取得了2~4倍的加速.该文同时研究了搜索空间、候选序列剪枝、转移模型、降帧率等对加速比的影响,并在所有情况下取得一致性加速。 展开更多
关键词 自动语音识别 隐马尔可夫模型 连接时序模型 逐帧同步解码 标签同步解码 可变帧率 剪枝
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部