采用多任务学习和循环神经网络的语音情感识别算法被引量：18

Speech Emotion Recognition Algorithm Based on Multi Task Learning and Recurrent Neural Network

下载PDF

导出

摘要随着机器学习的快速发展,许多研究者使用神经网络来解决语音识别领域中的各类问题。然而由于训练数据有限等原因,常规的神经网络分类器普遍存在泛化误差等问题。为了解决此问题,迁移学习中的多任务学习被引入到研究中。本文提出了一种采用多任务学习和循环神经网络的语音情感识别算法(MTL-RNN),将说话人情感识别作为主任务,性别识别和身份识别作为辅助任务,三个任务在神经网络中并行训练。算法模型通过RNN共享层共享网络参数、学习共享特征,通过属性依赖层学习独有特征,以提升模型的分类性能。实验结果表明,本文所提出的MTL-RNN算法在汉语和阿拉伯语、较少说话人和较多说话人的场景下均有较好的识别性能。 With the rapid development of machine learning,more and more researchers utilize neural networks to tackle multifarious issues existing in the domain of speech recognition.However,in virtue of various reasons like the restricted training data,most of conventional neural network classifiers are with the flaws such as generalization error and so on.In order to solve this problem,multi-task learning belonging to transfer learning has been studied actively nowadays.Based upon multi-task learning and cyclic neural network,this paper proposes a speech emotion recognition algorithm(MTL-RNN)which takes emotion recognition as the main task,gender and identity recognition as auxiliary tasks.On this basis,the three tasks are trained simultaneously in the neural network.Aiming at learning the sharing features and improving the classification performance of the model,the algorithm model shares network parameters through RNN sharing layers and studies unique features through the attribute-dependent layers.Experiments show that the MTL-RNN algorithm proposed in this paper has good recognition performance in the language environment of both Chinese and Arabic.Furthermore,it also works well not only in the experiment containing a few speakers but also in the other one with relatively more speakers.

作者冯天艺杨震 Feng Tianyi;Yang Zhen(Key Lab of Broadband Wireless Communication and Sensor Network Technology,Ministry of Education,Nanjing University of Posts and Telecommunications,Nanjing,Jiangsu 210003,China;National Local Joint Engineering Research Center for Communications and Network Technology,Nanjing University of Posts and Telecommunications,Nanjing,Jiangsu 210003,China)

机构地区南京邮电大学宽带无线通信与传感网技术教育部重点实验室南京邮电大学通信与网络技术国家地方联合工程研究中心

出处《信号处理》 CSCD 北大核心 2019年第7期1133-1140,共8页 Journal of Signal Processing

基金国家“863”高技术研究发展计划项目(2006AA010102)

关键词语音情感识别多任务学习循环神经网络 speech emotion recognition multi-task learning recurrent neural network

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献4

1韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：167
2路婷婷..基于语音和人脸表情的多模态情感识别算法研究[D].西北大学,2018:
3郑丽..语音情感识别及其在服务机器人中的应用研究[D].东北师范大学,2018:
4赵力,黄程韦.实用语音情感识别中的若干关键技术[J].数据采集与处理,2014,29(2):157-170. 被引量：35

二级参考文献130

1赵力,王治平,卢韦,邹采荣,吴镇扬.全局和时序结构特征并用的语音信号情感特征识别方法[J].自动化学报,2004,30(3):423-429. 被引量：15
2王治平,赵力,邹采荣.基于基音参数规整及统计分布模型距离的语音情感识别[J].声学学报,2006,31(1):28-34. 被引量：26
3Picard R W. Affective computing[M]. Cambridge: MIT Press, 1997. 被引量：1
4Picard R W. Toward computers that recognize and respond to user emotion[J]. IBM Technical Journal, 2000, 38(2): 705-719. 被引量：1
5Scherer K R, Banziger T. Emotional expression in prosody: A review and an agenda for future research [C]//SP2004(Speech Prosody 2004). Nara, Japan: International Speech Communication Association, 2004:355-369. 被引量：1
6Arnold M. Emotion and personality[J]. Psychologi- cal Aspects, 1960,1 : 11-116. 被引量：1
7Tomkins A S S. The negative affects[J]. Affect, Imagery, Consciousness, 1962,2 : 111-116. 被引量：1
8vMurray I, Amott J L. Towards the simulation of e motion in synthetic speech: A review of the literature on human vocal emotion[J]. Journal of the Acoustic Society of America, 1993,93(2) : 1097-1108. 被引量：1
9Ortony A, Turner T J. Whatrs basic about basic e- motions[J]. Psychological Review, 1990, 97 (3): 315-331. 被引量：1
10Stibbard R M. Vocal expression of emotions in mon laboratory speech: An investigation of the reading/ leeds emotion in speech porject annotation data[D]. UK: University of Reading,2001. 被引量：1

共引文献184

1郑成杰,郑之.基于最大分类器差异域适应方法的3维点云分类[J].信息与控制,2023,52(5):588-597.
2张会云.语音情感识别研究综述[J].信息通信,2019,0(11):58-60. 被引量：2
3张霞,杨勇,赵力.基于复数帧段特征的语音情感识别方法[J].电子器件,2022,45(2):479-482.
4李霞,卢官明,闫静杰,张正言.多模态维度情感预测综述[J].自动化学报,2018,44(12):2142-2159. 被引量：25
5李高玲,帖云,齐林.基于随机森林分类优化的多特征语音情感识别[J].微电子学与计算机,2019,36(1):70-73. 被引量：12
6张明阳,查诚,塔什甫拉提.尼扎木丁,徐新洲,赵力.结合数据场情感空间和混合蛙跳算法的连续语音情感变化趋势检测[J].声学学报,2019,44(1):12-19. 被引量：5
7奚吉,赵力,左加阔.基于改进多核学习的语音情感识别算法[J].数据采集与处理,2014,29(5):730-734. 被引量：7
8张福泉.情感建模及情感识别技术研究[J].廊坊师范学院学报（自然科学版）,2014,14(5):23-26. 被引量：4
9赵力,张昕然,梁瑞宇,王青云.数字助听器若干关键算法研究现状综述[J].数据采集与处理,2015,30(2):252-265. 被引量：9
10孙凌云,何博伟,刘征,杨智渊.基于语义细胞的语音情感识别[J].浙江大学学报（工学版）,2015,49(6):1001-1008. 被引量：2

同被引文献116

1万磊,佟鑫,盛明伟,秦洪德,唐松奇.Softmax分类器深度学习图像分类方法应用综述[J].导航与控制,2019,0(6):1-9. 被引量：60
2朱蕴丽,苗元江.公共卫生事件的心理应激与干预策略[J].南昌大学学报（人文社会科学版）,2005,36(3):49-52. 被引量：56
3苏莉,韦波.突发公共卫生事件下的群体心理反应与干预[J].中国行为医学科学,2005,14(12):1139-1141. 被引量：58
4王上飞,薛佳,王煦法.基于人脑情感注意回路的表情识别[J].模式识别与人工智能,2008,21(5):598-602. 被引量：3
5刘继同.中国重大灾害事故、突发事件医疗救援体系与精神卫生社会工作[J].社会科学研究,2009(1):96-102. 被引量：17
6解仑,王志良,余军.人工心理情感模型的个人机器人[J].智能系统学报,2009,4(1):59-66. 被引量：3
7许雪琼,余小清,李昌莲,万旺根.改进波形相似叠加算法的音频时长调整[J].应用科学学报,2009,27(5):514-519. 被引量：2
8潘懋元.什么是应用型本科?[J].高教探索,2010(1):10-11. 被引量：442
9王胜.基于隐马尔可夫模型的语音情感识别[J].黑龙江科技信息,2010(28):2-2. 被引量：2
10阴山燕,康瑛,张丽萍.我国灾难心理卫生服务体系的构建初探[J].现代预防医学,2011,38(1):109-110. 被引量：7

引证文献18

1李海峰,孙聪珊,马琳,薄洪健,徐忠亮.基于TVF-EMD的乐器音质特征分析方法及其应用[J].信号处理,2020,36(6):932-941. 被引量：2
2鞠春雷,聂方超,刘文岗,郭金山,张江石.基于长短期记忆网络的矿工不安全行为研究[J].煤矿安全,2020,51(9):260-264. 被引量：4
3王军,鹿姝,李云伟.融合注意力机制和连接时序分类的多模态手语识别[J].信号处理,2020,36(9):1429-1439. 被引量：4
4许爱华,杜洋,段玉波,许瀚锋.基于C-GRU的电机轴承故障诊断[J].组合机床与自动化加工技术,2021(2):47-51. 被引量：3
5胡鸿,金玉鑫,段慧云,周洲锋.基于用户旅程的情感计算心理救援机器人设计[J].设计,2021,34(19):150-153. 被引量：1
6戴妍妍,金赟,马勇,杨子秀,俞佳佳.基于高效通道注意力机制的语音情感识别方法[J].信号处理,2021,37(10):1835-1842. 被引量：6
7俞佳佳,金赟,马勇,姜芳艽,戴妍妍.基于Sinc-Transformer模型的原始语音情感识别[J].信号处理,2021,37(10):1880-1888. 被引量：8
8杨立东,胡江涛.多优化机制下深度神经网络的音频场景识别[J].信号处理,2021,37(10):1969-1976. 被引量：2
9乔栋,陈章进,邓良,屠程力.基于改进语音处理的卷积神经网络中文语音情感识别方法[J].计算机工程,2022,48(2):281-290. 被引量：14
10张志超,李晓燕.基于VGGish网络的音频信息情感智能识别算法[J].电子设计工程,2022,30(4):26-30. 被引量：2

二级引证文献46

1孙俊东,刘喜,佘长超,刘思哲,王兆飞,于洋.基于IFA-CNN的新能源矿卡锂离子电池健康状态估算[J].煤炭工程,2023,55(S01):162-168.
2魏健,赵红涛,加鹤萍.基于改进LSTM模型的短期车流量预测[J].科技创新与应用,2021,11(12):25-27. 被引量：6
3许丞.基于卷积神经网络的钢琴音频信号识别算法[J].自动化与仪器仪表,2021(12):12-15. 被引量：2
4余阿东.基于深度字典学习的滚动轴承故障识别[J].机电工程,2022,39(2):231-237. 被引量：7
5胡瑛,罗银,张瀚文,杨萌浩.基于注意力机制的3D卷积神经网络孤立词手语识别[J].湖南工程学院学报（自然科学版）,2022,32(1):55-60. 被引量：4
6张会云,黄鹤鸣.基于异构并行神经网络的语音情感识别[J].计算机工程,2022,48(4):113-118. 被引量：9
7陶建华,巫英才,喻纯,翁冬冬,李冠君,韩腾,王运涛,刘斌.多模态人机交互综述[J].中国图象图形学报,2022,27(6):1956-1987. 被引量：35
8赵小明,杨轶娇,张石清.面向深度学习的多模态情感识别研究进展[J].计算机科学与探索,2022,16(7):1479-1503. 被引量：13
9刘浩,陈从颜.一种无接触式压缩机运行故障检测技术研究[J].工业控制计算机,2022,35(8):5-6.
10陈琳.面向语音特征提取的英语机器人识别方法构建[J].自动化与仪器仪表,2022(8):234-239.

1张伟华.信息化背景下高职院校图书馆的空间再造[J].兰台内外,2019,0(20):36-37. 被引量：1
2叶正茂,罗丽娟,姜荣荣.机器人辅助任务导向训练对偏瘫上肢功能的影响[J].中国继续医学教育,2019,11(20):164-167. 被引量：2
3崔军舰.采空区水害勘察与防治技术研究及应用[J].西部探矿工程,2019,31(9):183-186. 被引量：5
4马生朝.浅谈如何提高小学语文课堂教学效率[J].好家长,2019,0(30):177-177.
5胡婷婷,冯亚琴,沈凌洁,王蔚.基于注意力机制的LSTM语音情感主要特征选择[J].声学技术,2019,38(4):414-421. 被引量：9
6白燕羽.学习共享空间与图书馆学习支持[J].中文科技期刊数据库（全文版）图书情报,2019(4):26-27.
7姚俊良,乐小虬.科技查新查新点语义匹配方法研究[J].数据分析与知识发现,2019,3(6):50-56. 被引量：5
8李松江,王会会,杨华民,王鹏.基于DBN的多任务高速公路通行费预测模型[J].计算机工程与设计,2019,40(9):2584-2588.
9赵汉理,刘俊如,姜磊,沈建冰,胡明晓.基于卷积神经网络的双行车牌分割算法[J].计算机辅助设计与图形学学报,2019,31(8):1320-1329. 被引量：13
10张小燕.迈阿密大学图书馆学习共享空间建设研究及启示[J].河南图书馆学刊,2019,39(7):36-38.

信号处理

2019年第7期

浏览历史

内容加载中请稍等...

采用多任务学习和循环神经网络的语音情感识别算法被引量：18

参考文献4

二级参考文献130

共引文献184

同被引文献116

引证文献18

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

采用多任务学习和循环神经网络的语音情感识别算法 被引量：18

参考文献4

二级参考文献130

共引文献184

同被引文献116

引证文献18

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

采用多任务学习和循环神经网络的语音情感识别算法被引量：18