深层神经网络语音识别自适应方法研究被引量：15

Adaptation method for deep neural network-based speech recognition

下载PDF

导出

摘要为了解决语音识别中深层神经网络的说话人与环境自适应问题,从语音信号中的说话人与环境因素的固有特点出发,提出了使用长时特征的自适应方案。基于高斯混合模型建立说话人—环境联合补偿模型,对说话人与环境参数进行估计,将此参数作为长时特征,将估计出来的长时特征与短时特征一起送入深层神经网络进行训练。Aurora4实验表明,该方案可以有效地对说话人与环境因素进行分解,并提升自适应效果。 To handle the speaker and noise adaptation problem in deep neural network-based speech recognition system, this paper studied the inherent characters of speaker and noise random factors and proposed a new adaptation method using long term features. Firstly, it built a joint adaptation model based on Gaussian mixture models and estimated and used the parame- ters of speaker and noise factors as long term features. Then, it used these long term features in deep neural network together with traditional short term features. Experiment results on Aurora4 database show that this method can effectively factorize speaker and noise factors, and improve adaptation performance.

作者邓侃欧智坚

机构地区清华大学电子工程系

出处《计算机应用研究》 CSCD 北大核心 2016年第7期1966-1970,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61075020 61473168)

关键词语音识别声学模型自适应深层神经网络 speech recognition acoustic model adaptation deep neural networks

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献24

1Lee L,Rose R C,Richard C.Speaker normalization using efficient frequency warping procedures[C] //Proc of IEEE International Conference on Acoustics,Speech,and Signal.[S.l.]:IEEE Press,1996:353-356. 被引量：1
2Liu Fuhua,Stern R M,Huang Xuedong,et al.Efficient cepstral normalization for robust speech recognition[C] //Proc of Association for Computational Linguistics Workshop on Human Language Technology.1993:69-74. 被引量：1
3Gales M J F.Maximum likelihood linear transformations for HMM-based speech recognition[J].Computer Speech & Language,1998,12(2):75-98. 被引量：1
4Duin R P W,Loog M.Linear dimensionality reduction via a hete-roscedastic extension of LDA:the Chernoff criterion[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2004,26(6):732-739. 被引量：1
5Gong Yifan.Speech recognition in noisy environments:a survey[J].Speech Communication,1995,16(3):261-291. 被引量：1
6Seide F,Li Gang,Chen Xie,et al.Feature engineering in context-dependent deep neural networks for conversational speech transcription[C] //Proc of IEEE Workshop on Automatic Speech Recognition and Understanding.[S.l.]:IEEE Press,2011:24-29. 被引量：1
7Li Jinyu,Deng Li,Gong Yifan,et al.An overview of noise-robust automatic speech recognition[J].IEEE Trans on Audio,Speech and Language Processing,2014,22(4):745-777. 被引量：1
8Siniscalchi S M,Yu Dong,Deng Li,et al.Speech recognition using long-span temporal patterns in a deep network model[J].Signal Processing Letters,2013,20(3):201-204. 被引量：1
9Baccouche M,Besset B,Collen P,et al.Deep learning of split temporal context for automatic speech recognition[C] //Proc of IEEE International Conference on Acoustics,Speech,and Signal.[S.l.]:IEEE Press,2014:5422-5426. 被引量：1
10Seltzer M L,Yu Dong,Wang Yongqiang.An investigation of deep neural networks for noise robust speech recognition[C] //Proc of IEEE International Conference on Acoustics,Speech,and Signal.[S.l.]:IEEE Press,2013:7398-7402. 被引量：1

同被引文献76

1张汝波,刘冠群,吴俊伟,吕西宝.移动机器人语音控制技术研究与实现[J].华中科技大学学报（自然科学版）,2013,41(S1):348-351. 被引量：8
2汪灵枝,周优军.一种有效的全局优化算法——模拟退火算法[J].柳州师专学报,2005,20(2):120-123. 被引量：9
3林宝成,黄志同.用于语音识别中的SOFM矢量量化方法[J].南京理工大学学报,1996,20(1):59-62. 被引量：1
4孙伟.县级电力调度命令票自动化生成系统研究[J].微计算机信息,2006,22(06X):172-174. 被引量：1
5杨俊杰,崔效义,李敬阳,王莉,冯祖祎,李晓勇.常用语音特性在鉴别双胞胎语音中的区别力研究[J].中国人民公安大学学报（自然科学版）,2006,12(3):21-24. 被引量：9
6刘潭秋,谢赤.基于GARCH模型与ANN技术组合的汇率预测[J].科学技术与工程,2006,6(23):4690-4694. 被引量：5
7吴岷,张晓莉,杨光正.基于句法模式识别的电网调度命令专家系统[J].电力系统自动化,1998,22(4):36-39. 被引量：13
8王岐学,钱盛友,赵新民.基于差分特征和高斯混合模型的湖南方言识别[J].计算机工程与应用,2009,45(35):129-131. 被引量：4
9张旭,亓学广,李世光,芮昱,邱彪.基于STM32电力数据采集系统的设计[J].电子测量技术,2010,33(11):90-93. 被引量：164
10吴郢,阎平凡.结构自适应自组织神经网络的研究[J].电子学报,1999,27(7):55-58. 被引量：14

引证文献15

1王春荣,黄凌山,熊昌炯,夏尔冬,郑飞杰.基于STM32的智能答疑机器人设计[J].三明学院学报,2016,33(4):67-71. 被引量：3
2冯杭,王胜兵.有限混合泊松分布参数优化的改进EM算法[J].兵工自动化,2017,36(1):80-82. 被引量：5
3寇茜茜,何希平.基于栈式自编码器模型的汇率时间序列预测[J].计算机应用与软件,2017,34(3):218-221. 被引量：10
4李山.智能家具语音识别精准度优化仿真[J].计算机仿真,2018,35(11):281-284. 被引量：5
5王雨辰,胡华.基于神经形态电路的音频场景特征提取及识别技术[J].计算机应用研究,2018,35(12):3673-3677. 被引量：4
6李云红,王成,王延年.基于混合DBNN-BLSTM模型的大词汇量连续语音识别[J].纺织高校基础科学学报,2018,31(1):103-107. 被引量：9
7刘彪,房锐林,邓美娟,赵文文.基于SOFMNN模型的新疆方言语音识别研究[J].计算机与数字工程,2018,46(7):1405-1409. 被引量：2
8张琳,刘姗姗,黄绍宇,张晓红,崔子祥.基于人工智能方法的航天产品总检模式研究与应用[J].制造业自动化,2019,41(1):24-28. 被引量：1
9李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱.一种改进的DNN-HMM的语音识别方法[J].应用声学,2019,38(3):371-377. 被引量：17
10房爱东,张志伟,崔琳,谢士春.基于人工智能的语音识别系统及应用研究[J].宿州学院学报,2019,34(8):62-65. 被引量：14

二级引证文献90

1袁浩,王发珍.人工智能在衡器自动化中应用现状与趋势分析[J].衡器,2021,50(10):4-8.
2黄岩.语音识别技术在医院信息系统中的应用[J].新一代信息技术,2022,5(4):84-86. 被引量：1
3赫捷,张汝刚,汪良骏,张德超,熊美华,唐槐静.肺腺鳞癌54例外科疗效分析[J].癌症,2000,19(5):458-459. 被引量：11
4王耀升,张英敏,王畅.一种基于力学模型的电力通信网脆弱性评估方法[J].电信科学,2019,35(1):54-61. 被引量：11
5李源清,郑飞杰,林智洪.基于STM32的技术挑战赛机器人的设计[J].萍乡学院学报,2016,33(6):54-57. 被引量：2
6陈奕延,李晔,张淑芬.平衡态分子动力学 Green-Kubo 方法计算氮化硼单层结构热导率的模型尺寸效应研究[J].集成技术,2018,7(2):1-11. 被引量：2
7吴润泽,包正睿,宋雪莹,邓伟.基于深度学习的电网短期负荷预测方法研究[J].现代电力,2018,35(2):43-48. 被引量：44
8贾文娟,张煜东.自编码器理论与方法综述[J].计算机系统应用,2018,27(5):1-9. 被引量：23
9李四海,余晓晖.基于栈式自编码器的FTIR光谱识别[J].计算机应用与软件,2018,35(6):254-258. 被引量：1
10李洁,林永峰.基于多时间尺度RNN的时序数据预测[J].计算机应用与软件,2018,35(7):33-37. 被引量：50

1晁浩,宋成,薛霄,刘志中.基于模型自适应的声效鲁棒性语音识别算法[J].计算机工程与应用,2016,52(2):156-160. 被引量：1
2张宋传,陈瑞典.面向数据模型优化的系统自适应方案[J].福州大学学报（自然科学版）,2004,32(z1):80-82. 被引量：1
3陈宗基.离散时域模型参考自适应方案对建模误差的鲁棒性分析[J].自动化学报,1990,16(2):97-105. 被引量：3
4李荣凯,白智全.基于节点选择和功率分配算法的自适应调制协作通信系统[J].山东大学学报（工学版）,2011,41(1):7-11. 被引量：3
5任雪蕾,杨树林.移动数字出版中的自适应技术研究[J].北京印刷学院学报,2016,24(2):58-61.
6吴渝,刘伯红,李刚,王国胤.基于提升方案的自适应小波变换[J].计算机应用研究,2002,19(6):18-20. 被引量：7
7杨亚平,谭瑛,曾建潮.二次微粒群算法及其参数自适应策略[J].计算机工程与应用,2006,42(31):64-67. 被引量：3
8李言俊,江勇,朱志刚.两种基于Narendra方案的混合自适应修正方案[J].控制理论与应用,1993,10(5):543-548. 被引量：2
9李家荣.新型速度自适应磁链观测器在矢量控制中的应用[J].防爆电机,2005,40(6):32-36. 被引量：1
10李林静,刘永善.基于自适应控制理论的自动驾驶仪设计[J].战术导弹控制技术,2004(3):13-16. 被引量：5

计算机应用研究

2016年第7期

浏览历史

内容加载中请稍等...

深层神经网络语音识别自适应方法研究被引量：15

参考文献24

同被引文献76

引证文献15

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

深层神经网络语音识别自适应方法研究 被引量：15

参考文献24

同被引文献76

引证文献15

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

深层神经网络语音识别自适应方法研究被引量：15