基于MFCC的语音情感识别被引量：23

Speech emotion recognition based on MFCC

下载PDF

导出

摘要情感语音中携带着丰富的信息,在人机交互领域有着广阔的应用。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。针对该问题进行了研究,修正了Hz-Mel非线性对应关系,提升了中高频系数的计算精度,并将其作为低频MFCC的补充,应用到语音情感识别中。实验证明,改进之后的算法与经典算法比较,在不同的特征组合上识别率都有不同程度的提高,从而证明了Mid MFCC特征计算方法的有效性。 Emotion speech carries rich information, which is widely used in the human-computer interaction （HCI）. Melfrequency is proposed based on the human auditory characteristics, and it is nonlinearly corresponded with Hz-frequency. Mel-frequency cepstral coefficients （MFCC） is one kind of Hz spectral characteristics; MFCC is calculated based on the nonlinear relationship between Mel-frequency and Hz-frequency and has a wide application in the speech recognition area. But because of such nonlinear relationship, the accuracy of MFCC reduces as the frequency increases. Hence, low MFCCs are usually used and high MFCCs are discarded in applications. This paper analyses this problem and proposes an improved algorithm by amending the nonlinear relationship to improve the accuracy of high MFCCs which are the complementary features to low MFCCs for emotion speech recognition. The experiment result proves that the recognition rate of improved algorithm increases compared to the classical algorithm, and the proposed Mid MFCC is effective.

作者韩一王国胤杨勇

机构地区重庆邮电大学计算机学院西南交通大学计算机学院

出处《重庆邮电大学学报（自然科学版）》 2008年第5期597-602,共6页 Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition)

基金新世纪优秀人才支持计划重庆市自然科学基金(CSTC2007BB2445) 重庆市计算机网络与通信技术重点实验室开放课题基金“情感识别的关键技术研究”

关键词 MFCC 语音情感识别情感计算 Mel-frequency cepstral coefficients （MFCC） emotion speech recognition affective computation

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1[1]DAVIS S B,MERMELSTEIN P.Comparison of parametric representations of monosyllabic word recognition in continuously spoken sentences[J].IEEE Transactions on Speech Acoustic Processing,1980,28:357-366. 被引量：1
2蒋丹宁,蔡莲红.基于语音声学特征的情感信息识别[J].清华大学学报（自然科学版）,2006,46(1):86-89. 被引量：38
3[3]PAOT L,CHEN Y T,YEH J H,et al.Emotion Recognition and Evaluation of Mandarin Speech Using Weighted D-KNN Classification[EB/OL].(2005-03-10)[2008-02-10] http://www.actapress.com/Paperlnfo.aspx? PaperID=27854reasor=500. 被引量：1
4[4]YEN T N,BASS I,Li M K,et al.Investigation of Combining SVM and Decision Tree for Emotion Classification.[EB/OL].(2005-10-20)[2008-02-10] http://pertal.acm.org/citation.cfm? id=1106780.1107199cou=dl=ACM. 被引量：1
5[5]CHAKROBORTY S,ROY A,MAJUMDAR S,et al.Capturing Complementary Information via Reversed Filter Bank and Parallel Implementation with MFCC for Improved Text-Independent Speaker Identification[EB/OL].(2007-04-12)[2008-02-10]http://portal.acm.org/citation.cfm? id=1260199.1260281. 被引量：1

二级参考文献8

1Cowie R,Cowie E D,Tsapatsoulis N,et al.Emotion recognition in human-computer interaction[J].IEEE Signal Processing Magazine,2001,18(1):32-80. 被引量：1
2Paeschke A,Sendlmeier W F.Prosodic characteristics of emotional speech:measurements of fundamental frequency movements[A].Proc of ISCA Workshop on Speech and Emotion[C].Northern Ireland:Textflow,2000.75-80. 被引量：1
3Schuller B,Rigoll G,Lang M.Hidden markov model-based speech emotion recognition[A].Proc of ICASSP'03[C].New York:IEEE Press,2003.II,1-4. 被引量：1
4Cheveign A D,Kawahara H.YIN:A fundamental frequency estimator for speech and music[J].J Acoust Soc Am,2002,111(4):1917-1930. 被引量：1
5Tzanetakis G,Cook P.Musical genre classification of audio signals[J].IEEE Transactions on Speech and Audio Processing,2002,10(5):293-302. 被引量：1
6Lu L,Zhang H J,Jiang H.Content analysis of audio classification and segmentation[J].IEEE Transactions on Speech and Audio Processing,2002,10(7):504-516. 被引量：1
7Kittler J,Hatef M,Duin R P,et al.On combining classifiers[J].IEEE Transactions on Pattern Analysis and Machine Learning,1998,20(3):226-239. 被引量：1
8赵力,将春辉,邹采荣,吴镇扬.语音信号中的情感特征分析和识别的研究[J].电子学报,2004,32(4):606-609. 被引量：49

共引文献37

1韩文静,李海峰,韩纪庆.基于长短时特征融合的语音情感识别方法[J].清华大学学报（自然科学版）,2008,48(S1):708-714. 被引量：20
2张立华,杨莹春.情感语音变化规律的特征分析[J].清华大学学报（自然科学版）,2008,48(S1):652-657. 被引量：14
3付丽琴,毛峡,陈立江.基于改进的排序式选举算法的语音情感融合识别[J].计算机应用,2009,29(2):381-385. 被引量：1
4赵腊生,张强,魏小鹏.语音情感识别研究进展[J].计算机应用研究,2009,26(2):428-432. 被引量：21
5徐露,徐明星,杨大利.面向情感变化检测的汉语情感语音数据库[J].清华大学学报（自然科学版）,2009(S1):1413-1418. 被引量：6
6张少龙,吴佳鑫.语音信息的内容分析技术研究综述[J].现代图书情报技术,2007(4):28-31. 被引量：2
7余伶俐,蔡自兴,陈明义.语音信号的情感特征分析与识别研究综述[J].电路与系统学报,2007,12(4):76-84. 被引量：27
8邵艳秋,穗志方,韩纪庆,王志伟.小规模情感数据和大规模中性数据相结合的情感韵律建模研究[J].计算机研究与发展,2007,44(9):1624-1631.
9刘箴,潘志庚.虚拟人动机驱动的自主情绪模型研究[J].中国图象图形学报,2009,14(5):773-781. 被引量：17
10张永皋,马青玉,孙青.基于MFCC和CHMM技术的语音情感分析及其在教育中的应用研究[J].南京师范大学学报（工程技术版）,2009,9(2):89-92. 被引量：9

同被引文献131

1韩文静,李海峰,韩纪庆.基于长短时特征融合的语音情感识别方法[J].清华大学学报（自然科学版）,2008,48(S1):708-714. 被引量：20
2马义德,袁敏,齐春亮,刘悦,刘映杰.基于PCNN的语谱图特征提取在说话人识别中的应用[J].计算机工程与应用,2005,41(20):81-84. 被引量：23
3丁长青,李峰.朱鹮的保护与研究[J].动物学杂志,2005,40(6):54-62. 被引量：38
4蒋丹宁,蔡莲红.基于语音声学特征的情感信息识别[J].清华大学学报（自然科学版）,2006,46(1):86-89. 被引量：38
5林奕琳,韦岗.基于短时和长时特征的语音情感识别研究[J].科学技术与工程,2006,6(4):450-454. 被引量：3
6韩纪庆,邵艳秋.基于语音信号的情感处理研究进展[J].电声技术,2006,30(5):58-62. 被引量：11
7黄利文,梁飞豹.改进的Fisher判别方法[J].福州大学学报（自然科学版）,2006,34(4):473-477. 被引量：12
8邵慧,王冠,刘若伦.乐音信号起始时间检测之谱能流法的评价与改进[J].长春工业大学学报,2006,27(3):226-229. 被引量：1
9陈明义,余伶俐,朱晗,周昆湘.基于特征参数融合的语音情感识别方法[J].微电子学与计算机,2006,23(12):168-171. 被引量：10
10林奕琳,韦岗,杨康才.语音情感识别的研究进展[J].电路与系统学报,2007,12(1):90-98. 被引量：33

引证文献23

1袁正午,肖旺辉.改进的混合MFCC语音识别算法研究[J].计算机工程与应用,2009,45(33):108-110. 被引量：18
2袁正午,肖旺辉.基于频率段的语音识别算法设计与实现[J].计算机工程与设计,2011,32(2):659-662. 被引量：1
3龙正吉,刘光远.用小波变换提取心电信号的情感特征[J].西南大学学报（自然科学版）,2011,33(3):109-113. 被引量：4
4李一芳.基于Mel频率倒谱系数的光缆声音信号特征提取方法研究[J].计量技术,2013(7):3-5.
5周萍,李晓盼,李杰,景新幸.混合MFCC特征参数应用于语音情感识别[J].计算机测量与控制,2013,21(7):1966-1968. 被引量：19
6鲜晓东,樊宇星.基于Fisher比的梅尔倒谱系数混合特征提取方法[J].计算机应用,2014,34(2):558-561. 被引量：16
7李强,彭益武.基于FPGA的GMM说话人辨认系统[J].广东交通职业技术学院学报,2014,13(2):42-46.
8谷志伟,李汉峰.基于改进的DTW算法的变电站巡检机器人语音识别的实现[J].机电信息,2014(6):139-141. 被引量：3
9王民,王佳丽,张炜炜,王稚慧,毛力.改进MFCC算法在朱鹮鸣声特征提取的应用[J].信息技术,2015,39(5):20-22.
10王民,王佳丽,张炜炜,王稚慧,毛力.基于小波神经网络的朱鹮个体识别系统[J].信息通信,2015,28(5):25-26.

二级引证文献85

1周红标.融合语音和脉搏的多模态情感识别研究[J].微电子学与计算机,2015,32(6):5-9. 被引量：4
2王红丽,崔荣一.基于SVM的说话声实时检测[J].延边大学学报（自然科学版）,2010,36(3):257-262.
3阙大顺,赵永安,文先林,李蓓.基于DHMM和VQ的关键词识别系统研究[J].武汉理工大学学报,2011,33(2):140-143. 被引量：3
4王钟斐,王彪.基于MATLAB的皮肤听声器系统的研究[J].电子设计工程,2011,19(8):38-40.
5王钟斐,王彪.基于小波包的皮肤听声器语音特征提取研究[J].电子设计工程,2011,19(9):71-75.
6孙颖,张雪英.情感语音特征对语料库依赖性的统计分析[J].噪声与振动控制,2011,31(4):132-136. 被引量：3
7王彪.一种改进的语音信号特征参数提取算法研究[J].电子设计工程,2011,19(21):59-61. 被引量：1
8王彪.基于EMD法的语音信号特征提取方法研究[J].科学技术与工程,2012,20(10):2462-2464. 被引量：1
9王彪.一种改进的MFCC参数提取方法[J].计算机与数字工程,2012,40(4):19-21. 被引量：5
10彭厚德.基于小波变换的虚拟式声级计的设计及实现[J].西南师范大学学报（自然科学版）,2012,37(7):61-64. 被引量：2

1陈勇,屈志毅,刘莹,酒康,郭爱平,杨志国.语音特征参数MFCC的提取及其应用[J].湖南农业大学学报（自然科学版）,2009,35(10X):106-107. 被引量：11
2孙燕,姜占才,潘春花.语音自组织特征映射神经网络矢量量化算法[J].计算机技术与发展,2016,26(9):175-177. 被引量：1
3周文军,徐彭,韩亮亮,曹淑斌,苗春静.基于ICA的多人脚步声信号分离和识别[J].中国科技博览,2012(33):403-403.
4王辉,赵悦,刘晓凤,徐晓娜,周楠,许彦敏.基于深度特征学习的藏语语音识别[J].东北师大学报（自然科学版）,2015,47(4):69-73. 被引量：8
5马宁,于洪志,武光利,何向真.基于SVM的藏语说话人性别识别[J].西北民族大学学报（自然科学版）,2011,32(4):35-39. 被引量：2
6乔杰,赵力,邹采荣.利用人耳听觉特性的子带双声道回波抵消[J].应用科学学报,2007,25(4):331-336. 被引量：6
7侯雪梅,田磊.基于Mel倒谱特征和RBF网络的孤立词语音识别方法[J].西安邮电学院学报,2008,13(3):114-117. 被引量：2
8罗元,吴承军,张毅,黎小松,席兵.Mel频率下基于LPC的语音信号深度特征提取算法[J].重庆邮电大学学报（自然科学版）,2016,28(2):174-179. 被引量：12
9唐鑫,马兆丰,钮心忻,杨义先.基于变分贝叶斯学习的音频水印盲检测方法[J].通信学报,2015,36(1):121-128. 被引量：7
10朱立忠,冯敏,华宇宁.基于LabVIEW平台的数字音频水印系统[J].电子技术应用,2009,35(3):70-72. 被引量：2

重庆邮电大学学报（自然科学版）

2008年第5期

浏览历史

内容加载中请稍等...

基于MFCC的语音情感识别被引量：23

参考文献5

二级参考文献8

共引文献37

同被引文献131

引证文献23

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于MFCC的语音情感识别 被引量：23

参考文献5

二级参考文献8

共引文献37

同被引文献131

引证文献23

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于MFCC的语音情感识别被引量：23