汉语语音声学特征复合的研究被引量：3

Combining acoustic features for mandarin speech

导出

摘要抽取短时声学特征参数如MFCC、PLP,使用高斯混合模型(GMM)估计特征参数对应音素的概率分布的隐马尔可夫模型(HMM)在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果.但短时特征却不能有效反应连续帧之间的相关特性,因此运用神经网络多层感知器(MLP)产生两类差异特征用于描述该帧的音素后验概率,并将其与传统特征复合为新的特征参数流,利用新特征流对GMHMM模型进行重构.对比实验结果表明,采用该混合声学特征的LVCSR系统其错字率(CER)有了3%～7%的改善. Typically Hidden Markov Model(HMM) in large vocabulary continuous speech recognition system(LVCSR),extracting short-term acoustic features vectors such as MFCC,PLP,estimating the distributions of the decelerated acoustic features that correspond to phoneme units by Gaussian mixture model(GMM),has achieved good recognition results.However,these short-time features are not explicitly optimized for phone discrimination.In this paper,two kind of multi-layer perceptrons(MLPs) are used to estimate posterior phone probabilities at the frame level.By combining the two neural-net discriminative features and regular features as base features processing with GMM,a large improvement is achieved.Experiments show the improved acoustic features leads to an absolute reduction of the character error rate(CER) of about 3% —7% .

作者吕丹桔 B.Hoffmeister

机构地区西南林业大学计算机与信息科学系亚琛工业大学计算机第六研究所

出处《云南大学学报（自然科学版）》 CAS CSCD 北大核心 2010年第S1期368-371,共4页 Journal of Yunnan University(Natural Sciences Edition)

关键词声学特征差异特征神经网络多层感知器 acoustic features discriminative features Artificial Neural Networks (ANN) multi-layer perceptron (MLP)

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献10

1吕丹桔,Mei-Yuh Huang,B Hoffmeister.汉语连续语音识别之音素声学模型的改进[J].计算机仿真,2010,27(5):355-358. 被引量：7
2吕丹桔,Ch. Plahl,B.Hoffmeister.大词汇连续汉语语音的MLP声学特征的研究[J].电脑知识与技术,2010,6(5):3470-3471. 被引量：1
3HERMANSKY H,,ELLIS D P W,SHARMA S.Tandem connectionist feature stream extraction for conventional hmm systems. Proc IEEE Int Conf on Acoustics,Speech,and Signal Processing . 2000 被引量：1
4ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRI’s conversational speech recognition system. Proc.DARPA RTWorkshop . 2004 被引量：1
5Jing Zheng.Combining Discriminative Feature,Transform,and Model Training for Large Vocabulary Speech Recognition. Proc.IEEE Int.Conf.on Acoustics,Speech,and Signal Processing . 2007 被引量：1
6M Y Hwang,et al.Building a highly accurate mandarin speechrecognizer. Proc.IEEE Automatic Speech Recognition andUnderstanding Workshop . 2007 被引量：1
7Chen B.Learning long-term temporal features in LVCSR using neural networks. Proc.Int.Conf.on Spoken Language Processing . 2004 被引量：1
8Valente F,Hermansky H.Combination of acoustic classifiers based on dempster-shafer theory of evidence. Proc.IEEE Int.Conf.on Acoustics,Speech,and Signal Processing . 2007 被引量：1
9Morgan N,Chen B Y,Zhu Q,et al.Trapping Conversational Speech:Extending TRAP/Tandem approaches to conversational telephonespeech recognition. Proceedings of IEEE ICASSP . 2004 被引量：1
10Plahl C,Hoffmeister B,Hwang M,et al.Recent Improvements of the RWTH GALE Mandarin LVCSR System. Interspeech . 2008 被引量：1

二级参考文献17

1李净,徐明星.汉语连续语音识别中声学模型基元比较:音节、音素、声韵母[C].第六届全国人机语音通信会议,20014:267-280. 被引量：4
2MA Bin and HUO Qiang. Benchmark results of triphone - based acoustic modeling on HKU96 and HKU99 putonghua corpora [ J ]. International Symposium on Chinese Spoken Language Processing ( ISCSLP' 00), Oct. 13 - 15 2000. 359 - 362. 被引量：1
3M Y Hwang, et. al. Building a highly accurate mandarin speech recognizer[ C ]. in Proc. IEEE Automatic Speech Recognition and Understanding Workshop, Kyoto, Japan, Dec. 2007. 490 - 495. 被引量：1
4M Y Hwang, X D Huang and F Alleva. Predicting unseen triphones with senones[C], in Proc. ICASSP, 1993.311 -314. 被引量：1
5C J Chen, et. al. Recognize tone languages using pitch information on the main vowel of each syllable[C], in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Salt LakeCity, USA, May 2001,1:61 -64. 被引量：1
6P F WONG and M H SIU. Decision tree based tone modeling for Chinese speech recognition[ C ]. in Prec. ICASSP, 2004,1. 905 -908. 被引量：1
7B Hoffmeister et. al. Development of the 2007 RWTH mandarin LVCSR system[ C]. in Proc. IEEE Automatic Speech Recognition and Understanding Workshop, Kyoto, Japan, Dec. 2007. 455 - 460. 被引量：1
8C Plaid, B Hoffmeister, M Hwang, D Lu, G I-leigold, J L?? f, R Schluter and H Ney. Recent Improvements of the RWTH GALE Mandarin LVCSR System[J]. In Interspeech, Brisbane, Australia, September 2008. 2426 -2429. 被引量：1
9ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRI's conversational speech recognition system[J].in Proc.DARPA RT Workshop 2004. 被引量：1
10Jing Zheng.Combining Discriminative Feature,Transform,and Model Training for Large Vocabulary Speech Recognition[C].in Proc.IEEE Int.Conf.on Acoustics,Speech,and Signal Processing,Honolulu,Hawaii,2007(4):633-636. 被引量：1

共引文献6

1吕丹桔,Ch. Plahl,B.Hoffmeister.大词汇连续汉语语音的MLP声学特征的研究[J].电脑知识与技术,2010,6(5):3470-3471. 被引量：1
2王晓涓,赵春.最大熵方法在英语名词短语识别中的应用研究[J].计算机仿真,2011,28(3):414-417. 被引量：2
3李梓钰,林子明,程晓东,杨洁.基于中英文数字语音登陆系统的仿真研究[J].电子产品世界,2012,19(6):53-55.
4孙爱中,刘冰,张琬珍,栾前进.基于DSP的语音识别系统研究与实现[J].现代电子技术,2013,36(9):76-78. 被引量：4
5邓子龄.基于粗糙集的翻译方法的改进仿真研究[J].科技通报,2013,29(10):26-29. 被引量：4
6官却多杰,关白.计算机识别藏文音节构件的方法研究[J].现代电子技术,2017,40(10):24-27.

同被引文献20

1李冠宇,孟猛.藏语拉萨话大词表连续语音识别声学模型研究[J].计算机工程,2012,38(5):189-191. 被引量：16
2李晋徽,杨俊安,王一.一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J].计算机科学,2014,41(3):263-266. 被引量：10
3史媛媛,刘加,刘润生.一种改进的线性区分分析方法及其在汉语数码语音识别上的应用[J].电子学报,2002,30(7):959-963. 被引量：2
4王一,杨俊安,刘辉,柳林.基于层次稀疏DBN的瓶颈特征提取方法[J].模式识别与人工智能,2015,28(2):173-180. 被引量：10
5袁胜龙,郭武,戴礼荣.基于深层神经网络的藏语识别[J].模式识别与人工智能,2015,28(3):209-213. 被引量：14
6麦麦提艾力.吐尔逊,戴礼荣.深度神经网络在维吾尔语大词汇量连续语音识别中的应用[J].数据采集与处理,2015,30(2):365-371. 被引量：12
7陈雷,杨俊安,王一,王龙.LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J].信号处理,2015,31(3):290-298. 被引量：9
8刘学,王年松,郭武.采用深层神经网络中间层特征的关键词识别[J].小型微型计算机系统,2015,36(7):1540-1544. 被引量：2
9王辉,赵悦,刘晓凤,徐晓娜,周楠,许彦敏.基于深度特征学习的藏语语音识别[J].东北师大学报（自然科学版）,2015,47(4):69-73. 被引量：8
10王兆凯,李亚星,冯旭鹏,刘利军,黄青松,刘晓梅.基于深度信念网络的个性化信息推荐[J].计算机工程,2016,42(10):201-206. 被引量：5

引证文献3

1周楠,赵悦,李要嫱,徐晓娜,才旺拉姆,吴立成.基于瓶颈特征的藏语拉萨话连续语音识别研究[J].北京大学学报（自然科学版）,2018,54(2):249-254. 被引量：9
2郑文秀,赵峻毅,文心怡,姚引娣.基于瓶颈复合特征的声学模型建立方法[J].计算机工程,2020,46(11):301-305. 被引量：3
3郑文秀,连晓飞,张旭东,黄琼丹.基于稀疏DNN的声学复合特征构造方法[J].传感器与微系统,2021,40(12):69-72. 被引量：1

二级引证文献13

1卓嘎,边巴旺堆.一种藏语连续语音声学特征参数提取算法研究[J].通信技术,2019,52(8):1865-1870. 被引量：3
2卓嘎.基于Praat的藏语连续语音参数提取仿真和分析[J].电子技术与软件工程,2019,0(20):53-56. 被引量：1
3于重重,陈运兵,孙沁瑶,刘畅,徐世璇,尹蔚彬.基于动态BLSTM和CTC的濒危语言语音识别研究[J].计算机应用研究,2019,36(11):3334-3337. 被引量：8
4黄成龙.2018年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2019,40(4):61-69. 被引量：1
5王福钊,周雁.藏语语音识别研究进展和展望[J].计算机系统应用,2020,29(3):29-38. 被引量：2
6郑文秀,赵峻毅,文心怡,姚引娣.基于瓶颈复合特征的声学模型建立方法[J].计算机工程,2020,46(11):301-305. 被引量：3
7张经,杨健,苏鹏.语音识别中单音节识别研究综述[J].计算机科学,2020,47(S02):172-174. 被引量：1
8郑文秀,连晓飞,张旭东,黄琼丹.基于稀疏DNN的声学复合特征构造方法[J].传感器与微系统,2021,40(12):69-72. 被引量：1
9雷杰,赵宏亮,艾宁智,邹万冰,詹毅.基于BN-SGMM-HMM模型的低资源语音识别系统[J].合肥工业大学学报（自然科学版）,2021,44(12):1627-1632. 被引量：7
10苗瑞霞,张雪兰,谭星浩,方华启.基于RISC-V的神经网络卷积算法的研究与优化[J].计算机工程与设计,2022,43(3):668-676.

1吕丹桔,Ch. Plahl,B.Hoffmeister.大词汇连续汉语语音的MLP声学特征的研究[J].电脑知识与技术,2010,6(5):3470-3471. 被引量：1
2张红娟.说话人识别技术谁执牛耳[J].微电脑世界,2001(12):17-18.
3赵承军,陆一飞.二端口网络测试参数的计算[J].江苏现代计量,2012,0(3):26-28.
4牛涛,杨风暴,王肖霞,安富,李大威.差异特征与融合算法的集值映射关系的建立[J].红外与激光工程,2015,44(3):1073-1079. 被引量：11
5牛涛,杨风暴,卫红,张雷,吉琳娜,王肖霞,原惠峰.红外偏振和光强图像差异特征分类树的构建[J].红外技术,2015,37(6):457-461. 被引量：2
6毛颖.纠错可以错纠不行[J].东北之窗,2011(12):99-99.
7李建民,赵彤青,郑方,方棣棠,吴文虎.基于汉语语音特点的大词表语音识别系统的研究[J].计算机学报,1992,15(5):364-370. 被引量：2
8周锋飞,陈卫东,李良福.一种基于区域生长的红外与可见光的图像融合方法[J].应用光学,2007,28(6):737-741. 被引量：16
9幕后英雄 MCP LIVE Professional制作团队[J].微型计算机,2009,29(22):163-163.
10莫平华,张越,文晓,刘政.基于重构抵消的非对称PCMA信号分离技术研究[J].电信技术研究,2014(2):21-27. 被引量：1

云南大学学报（自然科学版）

2010年第S1期

浏览历史

内容加载中请稍等...

汉语语音声学特征复合的研究被引量：3

参考文献10

二级参考文献17

共引文献6

同被引文献20

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

汉语语音声学特征复合的研究 被引量：3

参考文献10

二级参考文献17

共引文献6

同被引文献20

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

汉语语音声学特征复合的研究被引量：3