期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
一种用于方言口音语音识别的字典自适应技术 被引量:5
1
作者 潘复平 赵庆卫 颜永红 《计算机工程与应用》 CSCD 北大核心 2005年第23期4-6,9,共4页
基于标准普通话的语音识别系统在识别带有方言口音的普通话时,识别率会下降很多。针对这一问题,论文介绍了一种“字典自适应技术”。文中首先提出了一种自动标注算法,然后以此为基础,通过分析语音数据,统计出带有方言口音普通话的发音规... 基于标准普通话的语音识别系统在识别带有方言口音的普通话时,识别率会下降很多。针对这一问题,论文介绍了一种“字典自适应技术”。文中首先提出了一种自动标注算法,然后以此为基础,通过分析语音数据,统计出带有方言口音普通话的发音规律,然后把这个规律编码到标准普通话字典里,构造出体现这种方言发音特征的新字典,最后把新字典整合于搜索框架,用于识别带有该方言口音的普通话,使识别率得到显著提高。 展开更多
关键词 字典自适应 方言识别 自动标注 音节 搜索路径
下载PDF
基于Java Speech API规范的语音识别引擎的实现 被引量:2
2
作者 倪素萍 董滨 +1 位作者 赵庆卫 颜永红 《微计算机应用》 2005年第2期168-172,共5页
本文介绍了Java Speech API(JSAPI)规范的语音识别引擎的系统框架,描述了采用已有的C/C++识别引擎实现JSAPI语音识别引擎的思路和实现策略,提出并分析了以事件处理和状态处理为核心来实现JSAPI规范的具体方法,完成了基于JSAPI规范的语... 本文介绍了Java Speech API(JSAPI)规范的语音识别引擎的系统框架,描述了采用已有的C/C++识别引擎实现JSAPI语音识别引擎的思路和实现策略,提出并分析了以事件处理和状态处理为核心来实现JSAPI规范的具体方法,完成了基于JSAPI规范的语音识别软件系统的实现。 展开更多
关键词 语音识别引擎 事件处理 JAVA SPEECH API规范
下载PDF
基于共振峰模式的汉语普通话中韵母发音水平客观测试方法的研究 被引量:16
3
作者 董滨 赵庆卫 颜永红 《声学学报》 EI CSCD 北大核心 2007年第2期122-128,共7页
提出了一种以元音的共振峰模式为特征基于支持向量机算法的分类评估方法,用以对汉语普通话中的韵母发音水平进行客观测试。此算法为每个韵母分别训练全分类模型、子分类模型和评估模型,在两级分类的基础上对发音水平进行测试打分。实验... 提出了一种以元音的共振峰模式为特征基于支持向量机算法的分类评估方法,用以对汉语普通话中的韵母发音水平进行客观测试。此算法为每个韵母分别训练全分类模型、子分类模型和评估模型,在两级分类的基础上对发音水平进行测试打分。实验结果表明,全分类模型可以达到90%以上的分类正确率,客观测试与专家主观评估的相似度达到82%,在性能上超过了传统的以倒谱系数为特征的隐含马尔科夫模型方法。 展开更多
关键词 客观测试方法 汉语普通话 共振峰 发音 韵母 支持向量机算法 分类模型
下载PDF
窄带的自同步音频水印算法 被引量:11
4
作者 雷赟 刘建 +1 位作者 严波 颜永红 《计算机学报》 EI CSCD 北大核心 2008年第7期1283-1290,共8页
提出了一种适应于短波窄带信道的自同步音频水印算法.该算法具有如下优点:(1)在隐藏水印信息的同时,嵌入同步信号,使得水印具有时钟自同步和数据自同步的能力.(2)水印信号基于窄带信道的传输,适用于短波广播.(3)水印信号能够抗拒短波传... 提出了一种适应于短波窄带信道的自同步音频水印算法.该算法具有如下优点:(1)在隐藏水印信息的同时,嵌入同步信号,使得水印具有时钟自同步和数据自同步的能力.(2)水印信号基于窄带信道的传输,适用于短波广播.(3)水印信号能够抗拒短波传输中的各种干扰.实验表明:该算法能够实际地应用于短波节目的水印嵌入,对于短波传输中的各种干扰都有较好的鲁棒性. 展开更多
关键词 数字水印 音频水印 自同步 短波 窄带
下载PDF
基于发音特征的汉语普通话语音声学建模 被引量:14
5
作者 张晴晴 潘接林 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期254-260,共7页
将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概... 将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。 展开更多
关键词 汉语普通话 语音识别 输入特征 声学建模 发音 声学模型 频谱特征 后验概率
下载PDF
汉语发音质量评估的实验研究 被引量:12
6
作者 葛凤培 潘复平 +1 位作者 董滨 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期261-266,共6页
研究了发音评估系统中通用的置信度测度——后验概率算法,针对它存在的不足,提出了两种改进方案。首先,为了降低计算复杂度,传统算法采用了求最大值算法代替求和算法,在被测发音偏离目标音素集的情况下,这会严重降低后验概率的计算精度... 研究了发音评估系统中通用的置信度测度——后验概率算法,针对它存在的不足,提出了两种改进方案。首先,为了降低计算复杂度,传统算法采用了求最大值算法代替求和算法,在被测发音偏离目标音素集的情况下,这会严重降低后验概率的计算精度,本文提出基于扩展的音素混淆网络的后验概率算法。其次,为使置信度能评估不同语音段长的发音质量优劣,传统算法采用了后验概率的段长规整策略,研究分析发现声学似然值与时间的关系更为紧密,所以本文提出了基于声学似然值的时间规整方案。试验结果表明:与传统算法相比,采用改进的置信度算法能使平均打分错误率相对降低35%左右,有效地改善了计算机辅助语言学习系统的性能。 展开更多
关键词 质量评估 发音 概率算法 实验 汉语 传统算法 语言学习系统 后验概率
下载PDF
一种基于滑动窗口的语音端点检测算法 被引量:4
7
作者 余洪涌 赵庆卫 颜永红 《微计算机应用》 2006年第6期641-645,共5页
提出了一种基于滑动窗口的综合语音端点检测方法。从提高系统鲁棒性角度出发,利用各种综合的算法思想方法提高端点检测的准确性,鲁棒性和提高语音识别系统的总体识别率。利用频域能量、回声消除、DTMF滤除、利用信噪比确定多种阈值用于... 提出了一种基于滑动窗口的综合语音端点检测方法。从提高系统鲁棒性角度出发,利用各种综合的算法思想方法提高端点检测的准确性,鲁棒性和提高语音识别系统的总体识别率。利用频域能量、回声消除、DTMF滤除、利用信噪比确定多种阈值用于判定、利用语音波形特点进行粗调和精调等。试验表明该方法在语音端点检测的错误率和端点误差方面都显著减少了,系统鲁棒性得到明显提高。 展开更多
关键词 语音识别 语音端点检测 滑动窗口 回声消除
下载PDF
基于频率调制信息的人工耳蜗语音处理算法研究 被引量:4
8
作者 杨琳 张建平 +1 位作者 王迪 颜永红 《声学学报》 EI CSCD 北大核心 2009年第2期151-157,共7页
在传统人工耳蜗连续交叠采样(Continuous Interleaved Sampler,CIS)算法的基础上,提出一种基于精细结构(频率调制信息)的人工耳蜗语音处理算法,在不引入过高频率成分、保证工艺可实现性的前提下,使语音识别率大幅提高。听觉仿真实验的... 在传统人工耳蜗连续交叠采样(Continuous Interleaved Sampler,CIS)算法的基础上,提出一种基于精细结构(频率调制信息)的人工耳蜗语音处理算法,在不引入过高频率成分、保证工艺可实现性的前提下,使语音识别率大幅提高。听觉仿真实验的结果表明,与传统的基于时域包络的CIS算法相比,基于精细结构的CIS算法对于元音可懂度的改进可以达到28%;声调的识别率在各种噪声条件下提高20%以上;在一般噪声环境下,辅音和句子的可懂度也分别获得了22.9%和28.3%的改进。 展开更多
关键词 人工耳蜗 频率成分 语音处理 调制信息 算法 语音识别率 精细结构 噪声环境
下载PDF
汉语普通话易混淆音素的识别 被引量:4
9
作者 李晨冲 董滨 +2 位作者 潘复平 曾兴雯 颜永红 《计算机工程》 CAS CSCD 北大核心 2009年第23期201-203,共3页
针对汉语普通话语音识别中易混淆音素的声学特征,把小波包分解理论应用在感觉加权线性预测(PLP)特征中,提出一种新的特征参数提取算法,可以更精确地描述易混淆音素的频谱特征。使用高斯混合模型对新的声学特征进行分类,从而达到区分的... 针对汉语普通话语音识别中易混淆音素的声学特征,把小波包分解理论应用在感觉加权线性预测(PLP)特征中,提出一种新的特征参数提取算法,可以更精确地描述易混淆音素的频谱特征。使用高斯混合模型对新的声学特征进行分类,从而达到区分的目的。实验结果证明,新的特征参数识别结果优于使用传统PLP特征参数的识别结果,识别错误率下降30%以上。 展开更多
关键词 小波包分解 感觉加权线性预测 语音识别
下载PDF
一种任务域无关的语音关键词检测系统 被引量:2
10
作者 韩疆 刘晓星 +1 位作者 颜永红 张鹏远 《通信学报》 EI CSCD 北大核心 2006年第2期137-141,共5页
提出了面向语音关键词检测的多尺度声学模型建模框架,基于判决树的自动音素聚类生成了大尺度音素集,利用HMM声学模型训练技术生成了大尺度音素声学上下文相关的背景模型,提高了废料语音的建模精度,还给出了此框架下共享HMM状态的高效搜... 提出了面向语音关键词检测的多尺度声学模型建模框架,基于判决树的自动音素聚类生成了大尺度音素集,利用HMM声学模型训练技术生成了大尺度音素声学上下文相关的背景模型,提高了废料语音的建模精度,还给出了此框架下共享HMM状态的高效搜索空间构造方法,关键词识别准确率平均提高了绝对6.9%;提出了近邻声学上下文准则以及候选关键词在多尺度声学模型上的似然比计算方法并采用FLDA融合,显著提高了声学置信度计算的有效性,系统等错率绝对下降了3.0%。 展开更多
关键词 声学置信度 多尺度声学建模 搜索空间
下载PDF
关键词检测系统中基于音素网格的置信度计算 被引量:3
11
作者 张鹏远 韩疆 颜永红 《电子与信息学报》 EI CSCD 北大核心 2007年第9期2063-2066,共4页
该文提出了一种基于音素网格的置信度计算方法。与传统的基于整个声学模型的置信度不同的是,这种方法在解码器生成的音素网格上计算关键词的置信度,从而具有更好的拒识能力。另外,针对两种置信度取值范围的不同,该文采用权重因子的方法... 该文提出了一种基于音素网格的置信度计算方法。与传统的基于整个声学模型的置信度不同的是,这种方法在解码器生成的音素网格上计算关键词的置信度,从而具有更好的拒识能力。另外,针对两种置信度取值范围的不同,该文采用权重因子的方法综合利用两种置信度,取得了较好的效果。在自然对话的电话数据测试中,与传统的置信度计算方式相比,混和置信度的FOM(Figure Of Merit)值相对提高了17.0%。 展开更多
关键词 语音识别 关键词检测 置信度 后验概率 网格
下载PDF
基于音色单元分布的音乐结构分析 被引量:3
12
作者 李相莲 李明 +1 位作者 刘若伦 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期276-281,共6页
音乐的结构是音乐作品表达作者思想的一种重要形式,也是听众理解音乐作品内涵的有效途径。本文研究了基于音乐特征的音色单元建模方法,研究了在Fisher准则下,根据局部范围音色单元的分布,采用非监督聚类方法分析音乐的结构。实验结果证... 音乐的结构是音乐作品表达作者思想的一种重要形式,也是听众理解音乐作品内涵的有效途径。本文研究了基于音乐特征的音色单元建模方法,研究了在Fisher准则下,根据局部范围音色单元的分布,采用非监督聚类方法分析音乐的结构。实验结果证明了基于离散余弦变换的音色特征,用音色单元分布聚类算法进行音乐结构分析的有效性。 展开更多
关键词 音乐作品 结构分析 音色 单元 FISHER准则 离散余弦变换 建模方法 聚类方法
下载PDF
基于人耳听觉模型的自动嗓音评估方法 被引量:2
13
作者 王迪 付强 +3 位作者 杨琳 于萍 颜永红 冯稷 《物理学报》 SCIE EI CAS CSCD 北大核心 2008年第7期4244-4250,共7页
在嗓音评估系统的长元音谐噪比分析中,针对传统方法在普通傅里叶变换域上进行谐波成分计算并且需要对样本进行人工选择切分的情况,提出了一种新谐噪比计算方法,能够自动切分出长元音中稳定部分,并采用了更贴近人耳听觉模型的时频分析办... 在嗓音评估系统的长元音谐噪比分析中,针对传统方法在普通傅里叶变换域上进行谐波成分计算并且需要对样本进行人工选择切分的情况,提出了一种新谐噪比计算方法,能够自动切分出长元音中稳定部分,并采用了更贴近人耳听觉模型的时频分析办法,使对长元音的分析能够更稳定更贴近人耳主观听觉.同时由于没有人工干预,使得评估标准更加统一,结果更加客观. 展开更多
关键词 嗓音评估 听觉模型 长元音分析 谐噪比计算
原文传递
用于语音识别置信度的发音特征各维度分析和子集优化 被引量:2
14
作者 孙艳庆 张晴晴 +2 位作者 周瑜 赵庆卫 颜永红 《声学学报》 EI CSCD 北大核心 2011年第3期339-348,共10页
提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析。分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余。为了去除冗余,提出了用子集选择的方法进行优化。... 提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析。分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余。为了去除冗余,提出了用子集选择的方法进行优化。对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降。把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善。 展开更多
关键词 置信度估计 语音识别 特征 发音 维度 优化 子集 隐马尔可夫模型
下载PDF
语言声学进展及其应用
15
作者 颜永红 《应用声学》 CSCD 北大核心 2009年第2期81-89,共9页
本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关... 本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关应用。最后是总结与展望。 展开更多
关键词 语言声学 言语产生 言语感知 语音识别 语音合成 发音评估 演唱评价
下载PDF
语音导航系统中的一种模糊检索算法 被引量:1
16
作者 孙艳庆 赵庆卫 颜永红 《微计算机应用》 2009年第12期38-45,共8页
基于车载的语音导航系统,尤其是针对大地名库中地名识别的任务需求。用LVCSR取代了较流行的基于语法的语音识别系统,以增强系统灵活性和处理能力。用一套模糊检索算法作为系统的后处理,提高地名识别的整句正确率。在普通的数万量级的地... 基于车载的语音导航系统,尤其是针对大地名库中地名识别的任务需求。用LVCSR取代了较流行的基于语法的语音识别系统,以增强系统灵活性和处理能力。用一套模糊检索算法作为系统的后处理,提高地名识别的整句正确率。在普通的数万量级的地名数据库中可以达到90%的地名识别正确率;即使增加到百万数量级,识别率也能保持在70%以上。目前支持中英文系统。 展开更多
关键词 语音地名导航 LVCSR 模糊检索
下载PDF
用于电话语音识别系统的置信度估计方法的研究
17
作者 董滨 赵庆卫 颜永红 《声学技术》 CSCD 北大核心 2006年第5期473-477,共5页
提出了一种用于电话语音识别系统的置信度快速估计算法,此算法是在语音识别器帧同步束搜索的过程中基于状态图的同步估计算法,使用同识别器解码相同的声学模型进行置信度估计,此算法取得了比传统的两遍解码估计置信度算法更好的性能,而... 提出了一种用于电话语音识别系统的置信度快速估计算法,此算法是在语音识别器帧同步束搜索的过程中基于状态图的同步估计算法,使用同识别器解码相同的声学模型进行置信度估计,此算法取得了比传统的两遍解码估计置信度算法更好的性能,而且计算复杂度较低,运行速度快,解决了计算置信度时使用模型的区分度与计算速度之间的矛盾。 展开更多
关键词 置信度 电话语音识别 状态图
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部