基于最大似然多项式回归的鲁棒语音识别被引量：3

Maximum likelihood polynomial regression for robust speech recognition

下载PDF

导出

摘要本文针对最大似然线性回归算法线性假设的缺点,将多项式回归方法用于模型自适应,构建了基于最大似然多项式回归的非线性模型自适应算法。该算法在对数谱域用多项式回归方法,逼近每个Mel子带上识别环境模型均值与训练环境模型均值之间的非线性关系。多项式系数通过EM算法和最大似然准则从识别环境下的少量自适应数据中估计。实验结果表明,二阶多项式就可以较好地逼近模型均值的非线性环境变换关系。在噪声补偿和说话人自适应实验中,最大似然多项式回归算法的误识率都明显低于最大似然线性回归算法。本文算法较好地克服了线性模型自适应算法线性假设的缺陷,可同时减小噪声,和说话人的改变或其它因素对语音识别系统的影响,尤其适合说话人和噪声的联合自适应。 The linear hypothesis is the main disadvantage of maximum likelihood linear regression （MLLR）. This paper applies the polynomial regression method to model adaptation and establishes a nonlinear adaptation algorithm using maximum likelihood polynomial regression （MLPR） for robust speech recognition. In this algorithm, the nonlinear relationship between training and testing mean vectors in every Mel-band is approximated by a set of polynomials. The polynomial coefficients are estimated from small adaptation data in test environment by the expectation-maximization （EM） algorithm and maximum likelihood （ML） criterion. The experimental results show that the second-order polynomial can approximate the nonlinear function of training and testing mean vectors perfectly. In noise compensation and speaker adaptation, the word error rates of MLPR are significantly lower than those of MLLR. The proposed algorithm overcomes the limitation of linear hypothesis well and can decrease the impact of noise, speaker and other factors simultaneously. It is especially suitable for joint adaptation of speaker and noise.

作者吕勇吴镇扬

机构地区东南大学信息科学与工程学院

出处《声学学报》 EI CSCD 北大核心 2010年第1期88-96,共9页 Acta Acustica

基金国家973计划(2002CB312102) 国家自然科学基金(60672094)资助项目

关键词最大似然准则语音识别系统多项式回归线性回归算法说话人自适应模型自适应非线性模型自适应算法 Blind source separation Error compensation Polynomials Regression analysis Speech recognition Statistical tests

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献21

1刘海滨,吴镇扬,赵力,曾毓敏.基于动态单边自相关序列和频率规整线性预测的抗噪声语音识别[J].声学学报,2004,29(2):182-186. 被引量：5
2王欢良,钱瑶,F.K.Soong,韩纪庆.基于声调建模的带噪汉语数字串语音识别[J].声学学报,2007,32(5):454-460. 被引量：2
3Kim W, Hansen J H L. Feature compensation in the cepstral domain employing model combination. Speech Com- munication, 2009; 51(2): 83-96. 被引量：1
4Cui X, Alwan A. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR. IEEE Trans. on Speech and Audio Processing, 2005; 13(6): 1161-1172. 被引量：1
5赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11
6Gauvain J L, Lee C H. Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains. IEEE Trans. on Speech and Audio Processing, 1994; 2(2): 291-298. 被引量：1
7Leggetter C J, Woodland P C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language, 1995; 9(2): 171-185. 被引量：1
8Gales M J F, Woodland P C. Mean and variance adaptation within the MLLR framework. Computer Speech and Language, 1996; 10(4): 249-264. 被引量：1
9Doh S J. Enhancements to transformation-based speaker adaptation: principal component and inter-class maximum likelihood linear regression. Carnegie Mellon University, 2000. 被引量：1
10Chesta C, Siohan O, Lee C H. Maximum a posteriori linear regression for hidden Markov model adaptation. In: Proc. Eurospeech, 1999:211-214. 被引量：1

二级参考文献67

1刘海滨,吴镇扬,赵力,曾毓敏.噪声环境下基于最大后验非线性变换的隐马尔可夫模型自适应算法[J].声学学报,2004,29(5):467-471. 被引量：4
2吕成国,韩纪庆,王承发.动态时间规正与差别子空间相结合的变异语音识别方法[J].声学学报,2005,30(3):229-234. 被引量：2
3陶智,赵鹤鸣,龚呈卉.基于听觉掩蔽效应和Bark子波变换的语音增强[J].声学学报,2005,30(4):367-372. 被引量：39
4国立新,莫福源,李昌立.基于连续高斯混合密度HMM的汉语全音节语音识别研究[J].声学学报,1995,20(5):321-329. 被引量：11
5孙暐,吴镇扬,刘海滨,周琳.并行子带HMM最大后验概率自适应非线性类估计算法[J].电路与系统学报,2005,10(6):20-24. 被引量：1
6赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11
7张家禄齐士钤宋美珍等.汉语声调在言语可懂度中的重要作用.声学学报,1981,7:237-237. 被引量：10
8Y.Gong. Speech recognition in noisy environments: A survery. Speech Commun., 1995; 16(3): 261- 291. 被引量：1
9Chia-Ping Chen, Jeff Bilmes, and Katrin Kirchhoff. Low- resource noise-robust feature post processing on aurora 2.0. In: Proceedings of International Conference on Spoken Language Processing (ICSLP), 2002:2445 -2448. 被引量：1
10Lim J S, Oppenheim A V. Enhancement and bandwidth compression of noisy speech. Proceedings IEEE, 1979; 67: 1586-1604. 被引量：1

共引文献18

1彭圆,王晟,王科俊,李雪耀,林良骥,林正青,王建文.感知线性预测在水下目标分类中的应用研究[J].声学学报,2006,31(2):146-150. 被引量：16
2王欢良,钱瑶,F.K.Soong,韩纪庆.基于声调建模的带噪汉语数字串语音识别[J].声学学报,2007,32(5):454-460. 被引量：2
3马会丽,唐红,赵国锋.电话外呼系统的研究与实现[J].计算机应用,2007,27(9):2343-2345. 被引量：5
4黄浩,朱杰.汉语语音识别中基于区分性权重训练的声调集成方法[J].声学学报,2008,33(1):1-8. 被引量：2
5张军,韦岗,余华.基于特征分量输出概率加权的多数据流鲁棒语音识别方法[J].声学学报,2008,33(2):102-108. 被引量：2
6宁更新,韦岗.一种用于抗噪语音识别的动态参数补偿新方法[J].电路与系统学报,2008,13(2):14-19.
7王智国,吴及,戴礼荣,王仁华.一种对加性噪声和信道函数联合补偿的模型估计方法[J].声学学报,2008,33(3):238-243. 被引量：5
8赵忠彪,李文鑫,高荣.基于神经网络的矢量量化算法在语音辨识系统中的应用研究[J].河南科学,2008,26(7):839-841. 被引量：1
9曾毓敏,吴镇扬.基于浊音语音谐波谱子带加权重建的抗噪声说话人识别[J].东南大学学报（自然科学版）,2008,38(6):935-941. 被引量：5
10张岩,李风华,李整林,张仁和.爆炸信号中气泡脉动去除方法及其应用[J].声学学报,2009,34(2):124-130. 被引量：5

同被引文献36

1刘海滨,吴镇扬,赵力,曾毓敏.噪声环境下基于最大后验非线性变换的隐马尔可夫模型自适应算法[J].声学学报,2004,29(5):467-471. 被引量：4
2赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11
3Garreton C, Yoma N B. Telephone channel compensation in speaker verification using a polynomial approximation in the log-filter-bank energy domain. IEEE Trans. on Audio, Speech, and Language Processing, 2012; 20(1): 336-341. 被引量：1
4郭武.复杂信道下的说话人识别.博士学位论文,中国科学技术大学,2008. 被引量：1
5Lu Yong, Wu Haiyang, Wu Zhenyang. Robust speech recognition using improved vector Taylor series algorithm for embedded systems. IEEE Transactions on Consumer Electronics, 2010; 56(2): 764-769. 被引量：1
6Burger L, Matejka P, Schwarz Pet al. Analysis of feature extraction and channel compensation in a GMM speaker recognition system. IEEE Transactions on Audio, Speech, and Language Processing, 2007; 15(7): 1979-1986. 被引量：1
7Reynolds D A. Channel robust speaker verification via fea- ture mapping. In: Proc. ICASSP, 2003; 2:53-56. 被引量：1
8Teunen R, Shahshahani B, Heck L. A model-based trans- formational approach to robust speaker recognition. In: Proc. ICSLP, 2000; 2:495 498. 被引量：1
9Yin ShouChun, Rose R, Kenny P. A joint factor anal- ysis approach to progressive model adaptation in text- independent speaker verification. IEEE Transactions on Audio, Speech, and Language Processing, 2007; 15(7): 1999 2010. 被引量：1
10Campbell W M, Sturim D E, Reynolds D A et al. SVMbased speaker verification using a GMM supervector ker- nel and NAP variability compensation. In: Proc. ICASSP, 2006; 1:97-100. 被引量：1

引证文献3

1黄永明,章国宝,李雄,达飞鹏.全局特征及弱尺度融合策略的小样本语音情感识别[J].声学学报,2012,37(3):330-338. 被引量：9
2吴海洋,杨飞然,周琳,吴镇扬.矢量泰勒级数特征补偿的说话人识别[J].声学学报,2013,38(1):105-112. 被引量：6
3杨勇,李劲松,孙明伟.基于REMOS的远距离语音识别模型补偿方法[J].重庆邮电大学学报（自然科学版）,2014,26(1):117-123. 被引量：3

二级引证文献18

1李悦,黄永明,章国宝,刘海彬.基于角度差和散度均值特征的人脸表情识别[J].中南大学学报（自然科学版）,2013,44(S2):250-253. 被引量：2
2周红标.融合语音和脉搏的多模态情感识别研究[J].微电子学与计算机,2015,32(6):5-9. 被引量：4
3周夕良.语音情感识别的发展与展望[J].信息技术,2013,37(11):19-22. 被引量：1
4金赟,宋鹏,郑文明,赵力.半监督判别分析的跨库语音情感识别[J].声学学报,2015,40(1):20-27. 被引量：6
5冉国敬,夏秀渝,张凤仪.信道失配环境下鲁棒说话人识别[J].计算机系统应用,2015,24(3):235-240. 被引量：2
6沈燕,肖仲喆,李冰洁,周孝进,周强,陶智.采用GW-MFCC模型空间参数的语音情感识别[J].计算机工程与应用,2015,51(10):219-222. 被引量：1
7王现彬,杨洁,贾英茜,饶立婵.基于MATLAB的说话人识别系统设计与实现[J].石家庄学院学报,2016,18(3):5-8.
8梁瑞宇,赵力,陶华伟,王青云,邹采荣.仿选择性注意机制的语音情感识别算法[J].声学学报,2016,41(4):537-544. 被引量：7
9刘媛.音乐库中检索特征音调歌曲智能识别仿真[J].计算机仿真,2017,34(8):356-359. 被引量：7
10焦敬品,吕洪涛,孟祥吉,吴斌,何存富.超声非线性效应表征的动态小波指纹分析方法[J].声学学报,2017,42(5):560-570. 被引量：4

1吕勇,吴镇扬.基于最大似然子带线性回归的鲁棒语音识别[J].信号处理,2010,26(1):74-79.
2刘锦萍,郁金祥.基于粒子群算法的Logistic回归模型参数估计[J].计算机工程与应用,2009,45(33):42-44. 被引量：4
3轩黎明,杨大成.基于导频信道进行传播模型校正的方法[J].无线电工程,2004,34(5):13-14. 被引量：2
4吕勇.语音截止频率在语音识别中的应用[J].科技创新与应用,2013,3(36):300-300.
5符敏,程德福.支持向量回归在声音转换中的应用[J].电声技术,2006,30(3):45-48. 被引量：1
6霍星,解凯.基于多项式回归模型的液晶显示器特性化[J].北京印刷学院学报,2014,22(6):25-28. 被引量：3
7孙暐,吴镇扬.多带同步模型用于噪声环境下语音识别[J].中国工程科学,2006,8(3):31-34.
8李春洁,王锐,李美珊,韦韫韬,闫莉蔷.基于多项式回归的预取技术的研究[J].现代电子技术,2012,35(22):84-86. 被引量：1
9吴广富,陈贤亮,代丹丹.多项式回归在TD-SCDMA接收系统中的应用[J].重庆邮电大学学报（自然科学版）,2006,18(z1):20-24.
10吴敏健,徐佩霞.基于遗传算法的跳频信号盲估计[J].无线电工程,2005,35(10):3-5. 被引量：2

声学学报

2010年第1期

浏览历史

内容加载中请稍等...

基于最大似然多项式回归的鲁棒语音识别被引量：3

参考文献21

二级参考文献67

共引文献18

同被引文献36

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于最大似然多项式回归的鲁棒语音识别 被引量：3

参考文献21

二级参考文献67

共引文献18

同被引文献36

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于最大似然多项式回归的鲁棒语音识别被引量：3