基于Sinc-Transformer模型的原始语音情感识别被引量：8

Emotion Recognition from Raw Speech Based on Sinc-Transformer Model

下载PDF

导出

摘要考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。 Considering the complexity of manual extraction of acoustic features in traditional speech emotion recognition tasks,this paper proposed the Sinc-Transformer(SincNet Transformer)model for speech emotion recognition using raw speech.This model combined the advantages of SincNet and Transformer model encoder,and used SincNet filter to capture important narrow-band emotional features from the raw speech waveform,so that the whole network structure could be instructive in the process of feature extraction,so as to completed the shallow feature extraction work of raw speech signals;and used two layers of Transformer model encoders for secondary processing to extract deeper feature vectors that contain global context information.Among the four categories of speech emotion recognition in IEMOCAP database,experimental results show that the accuracy and unweighted average recall of Sinc-Transformer model proposed in this paper are 64.14%and 65.28%respectively.Meanwhile,compared with the baseline model,the proposed model can effectively improve speech emotion recognition performance.

作者俞佳佳金赟马勇姜芳艽戴妍妍 YU Jiajia;JIN Yun;MA Yong;JIANG Fangjiao;DAI Yanyan(School of Physics and Electronic Engineering,Jiangsu Normal University,Xuzhou,Jiangsu 221116,China;Kewen College,Jiangsu Normal University,Xuzhou,Jiangsu 221116,China;School of Linguistic Sciences and Arts,Jiangsu Normal University,Xuzhou,Jiangsu 221116,China)

机构地区江苏师范大学物理与电子工程学院江苏师范大学科文学院江苏师范大学语言科学与艺术学院

出处《信号处理》 CSCD 北大核心 2021年第10期1880-1888,共9页 Journal of Signal Processing

基金国家自然科学基金青年项目(52005267) 江苏省高校自然科学基金(18KJB510013,17KJB510018)。

关键词语音情感 Transformer模型编码器 SincNet滤波器原始语音 speech emotion Transformer model encoder SincNet filter raw speech

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献4

1韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：167
2吕惠炼,胡维平.基于端到端深度神经网络的语音情感识别研究[J].广西师范大学学报（自然科学版）,2021,39(3):20-26. 被引量：11
3徐华南,周晓彦,姜万,李大鹏.基于3D和1D多特征融合的语音情感识别算法[J].声学技术,2021,40(4):496-502. 被引量：8
4冯天艺,杨震.采用多任务学习和循环神经网络的语音情感识别算法[J].信号处理,2019,35(7):1133-1140. 被引量：18

二级参考文献88

1van Bezooijen R,Otto SA,Heenan TA. Recognition of vocal expressions of emotion:A three-nation study to identify universal characteristics[J].{H}JOURNAL OF CROSS-CULTURAL PSYCHOLOGY,1983,(04):387-406. 被引量：1
2Tolkmitt FJ,Scherer KR. Effect of experimentally induced stress on vocal parameters[J].Journal of Experimental Psychology Human Perception Performance,1986,(03):302-313. 被引量：1
3Cahn JE. The generation of affect in synthesized speech[J].Journal of the American Voice Input/Output Society,1990.1-19. 被引量：1
4Moriyama T,Ozawa S. Emotion recognition and synthesis system on speech[A].Florence:IEEE Computer Society,1999.840-844. 被引量：1
5Cowie R,Douglas-Cowie E,Savvidou S,McMahon E,Sawey M,Schro. Feeltrace:An instrument for recording perceived emotion in real time[A].Belfast:ISCA,2000.19-24. 被引量：1
6Grimm M,Kroschel K. Evaluation of natural emotions using self assessment manikins[A].Cancun,2005.381-385. 被引量：1
7Grimm M,Kroschel K,Narayanan S. Support vector regression for automatic recognition of spontaneous emotions in speech[A].IEEE Computer Society,2007.1085-1088. 被引量：1
8Eyben F,Wollmer M,Graves A,Schuller B Douglas-Cowie E Cowie R. On-Line emotion recognition in a 3-D activation-valencetime continuum using acoustic and linguistic cues[J].Journal on Multimodal User Interfaces,2010,(1-2):7-19. 被引量：1
9Giannakopoulos T,Pikrakis A,Theodoridis S. A dimensional approach to emotion recognition of speech from movies[A].Taibe:IEEE Computer Society,2009.65-68. 被引量：1
10Wu DR,Parsons TD,Mower E,Narayanan S. Speech emotion estimation in 3d space[A].Singapore:IEEE Computer Society,2010.737-742. 被引量：1

共引文献194

1郑成杰,郑之.基于最大分类器差异域适应方法的3维点云分类[J].信息与控制,2023,52(5):588-597.
2张会云.语音情感识别研究综述[J].信息通信,2019,0(11):58-60. 被引量：2
3李霞,卢官明,闫静杰,张正言.多模态维度情感预测综述[J].自动化学报,2018,44(12):2142-2159. 被引量：25
4李高玲,帖云,齐林.基于随机森林分类优化的多特征语音情感识别[J].微电子学与计算机,2019,36(1):70-73. 被引量：12
5张福泉.情感建模及情感识别技术研究[J].廊坊师范学院学报（自然科学版）,2014,14(5):23-26. 被引量：4
6孙凌云,何博伟,刘征,杨智渊.基于语义细胞的语音情感识别[J].浙江大学学报（工学版）,2015,49(6):1001-1008. 被引量：2
7余春艳,翁子林.音频情感感知与视频精彩片段提取[J].计算机辅助设计与图形学学报,2015,27(10):1890-1899. 被引量：4
8孙颖,姚慧,张雪英,张奇萍.基于混沌特性的情感语音特征提取[J].天津大学学报（自然科学与工程技术版）,2015,48(8):681-685. 被引量：12
9陶华伟,査诚,梁瑞宇,张昕然,赵力,王青云.面向语音情感识别的语谱图特征提取算法[J].东南大学学报（自然科学版）,2015,45(5):817-821. 被引量：17
10蒋海华,胡斌.基于PCA和SVM的普通话语音情感识别[J].计算机科学,2015,42(11):270-273. 被引量：10

同被引文献83

1韩文静,李海峰,韩纪庆.基于长短时特征融合的语音情感识别方法[J].清华大学学报（自然科学版）,2008,48(S1):708-714. 被引量：20
2郑强,刘慧卿,李芳,王庆,王长久,卢川.蒸汽驱后汽窜通道定量描述[J].中国科学：技术科学,2013,43(6):684-688. 被引量：10
3韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：167
4吴克柳,李相方,全一平,关文龙.稠油油藏蒸汽驱开发蒸汽突破预测模型[J].系统工程理论与实践,2014,34(2):538-544. 被引量：3
5刘军,景晓军,孙松林,连自锋.一种用于人脸识别的基于主导近邻像素的局部Gabor空间直方图特征[J].北京邮电大学学报,2015,38(1):51-54. 被引量：8
6邵洁,董楠.RGB-D动态序列的人脸自然表情识别[J].计算机辅助设计与图形学学报,2015,27(5):847-854. 被引量：5
7陈婧,李海峰,马琳,陈肖,陈晓敏.多粒度特征融合的维度语音情感识别方法[J].信号处理,2017,33(3):374-382. 被引量：9
8魏文钊,何清波.基于超声波的手势识别设备的研究[J].机械与电子,2018,36(5):54-57. 被引量：2
9刘振焘,徐建平,吴敏,曹卫华,陈略峰,丁学文,郝曼,谢桥.语音情感特征提取及其降维方法综述[J].计算机学报,2018,41(12):2833-2851. 被引量：30
10曾润华,张树群.改进卷积神经网络的语音情感识别方法[J].应用科学学报,2018,36(5):837-844. 被引量：12

引证文献8

1陶建华,巫英才,喻纯,翁冬冬,李冠君,韩腾,王运涛,刘斌.多模态人机交互综述[J].中国图象图形学报,2022,27(6):1956-1987. 被引量：35
2赵小明,杨轶娇,张石清.面向深度学习的多模态情感识别研究进展[J].计算机科学与探索,2022,16(7):1479-1503. 被引量：13
3陈琳.面向语音特征提取的英语机器人识别方法构建[J].自动化与仪器仪表,2022(8):234-239.
4张可欣,刘云翔.融合多种语言的语音情感识别[J].电子设计工程,2023,31(6):25-29.
5乔万俊,赵庆.基于端到端的英语翻译器语音自动纠正系统研究[J].自动化与仪器仪表,2023(3):240-244.
6宋鹏,李绍凯,张雯婧,郑文明,赵力.基于迁移判别回归的跨域语音情感识别[J].信号处理,2023,39(4):649-657. 被引量：1
7崔传智,陆水青山,吴忠维,盖平原,刘廷峰.基于深度学习的稠油蒸汽驱汽窜时间预测方法[J].深圳大学学报（理工版）,2023,40(5):622-630.
8樊永红,黄鹤鸣,张会云.基于焦点损失的ATCN-GRU语音情感识别[J].计算机仿真,2024,41(2):249-254. 被引量：1

二级引证文献50

1阎志远,汪健雄,游雪松.京张高速铁路多模态票务应用架构研究及应用示范[J].铁道运输与经济,2022,44(9):11-18. 被引量：5
2鲁昊鹏,张启,张新峰,马思伟.面向元宇宙环境的自然交互和引导技术综述[J].人工智能,2022(5):61-70. 被引量：1
3闫桥,陈昌凤.传播生态变革与人机传播的未来[J].青年记者,2023(2):12-15. 被引量：9
4杨舒越,何云丽,胡小强,章逸.虚拟现实技术在江西本土文化中的应用研究[J].无线互联科技,2023,20(1):82-85. 被引量：1
5李萌,查思雨,宫未,贾云鹏.面向儿童学习的智能家居人机交互技术综述[J].计算机辅助设计与图形学学报,2023,35(2):248-261. 被引量：3
6姜婷婷,田慧溢,许艳闰,傅诗婷.人智交互体验度量:受控实验的应用及启示[J].图书情报知识,2023,40(2):10-19. 被引量：1
7邱奕周,翁佩鸥,张仲凤.用户认知下的儿童理财习惯教育文创产品设计[J].家具与室内装饰,2023,30(4):100-105.
8石丽雯,顾天琳,黄艳群,刘金剑.非语言交互视角下定制服务类产品体验设计方法探究[J].包装工程,2023,44(10):70-78. 被引量：1
9史开志,肖乾.基于混合现实的动车组车钩辅助检修方法研究[J].华东交通大学学报,2023,40(3):109-115.
10张晶晶,陈伟,李庆珍.基于CNN和XLNet的音乐多模态情感分析方法[J].贵阳学院学报（自然科学版）,2023,18(2):34-39. 被引量：1

1洪依,孙成立,冷严.基于超轻量通道注意力的端对端语音增强方法[J].智能科学与技术学报,2021,3(3):351-358. 被引量：2
2马丁,李琦,胡意娟.虚拟现实与动作捕捉技术的结合——展望“头号玩家”的游戏世界[J].艺术科技,2021,34(14):63-64.
3王俊霄,潘思睿,杨聶伟.基于呼吸气动声学特征的疲劳检测研究[J].中国高新科技,2021(18):103-104.
4杨晔.微课在语音教学中的实践与探索[J].小学教学参考,2021(36):40-42.
5秦思茵.信息技术辅助下的初中英语语音教学[J].师道（人文）,2021(11):47-48.
6赵庆志,苏静,杨鹏飞,姚宜斌.利用GNSS PWV的AOD自适应预测方法[J].测绘学报,2021,50(10):1279-1289. 被引量：1
7戴妍妍,金赟,马勇,杨子秀,俞佳佳.基于高效通道注意力机制的语音情感识别方法[J].信号处理,2021,37(10):1835-1842. 被引量：6
8夏中亚,王志刚.数据融合在水下高速弹道测试中的应用研究[J].数字海洋与水下攻防,2021,4(5):366-371. 被引量：1
9涂冲,林瑞跃.基于方向距离函数的网络交叉效率度量及其分解[J].温州大学学报（自然科学版）,2021,42(3):26-37.

信号处理

2021年第10期

浏览历史

内容加载中请稍等...

基于Sinc-Transformer模型的原始语音情感识别被引量：8

参考文献4

二级参考文献88

共引文献194

同被引文献83

引证文献8

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于Sinc-Transformer模型的原始语音情感识别 被引量：8

参考文献4

二级参考文献88

共引文献194

同被引文献83

引证文献8

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于Sinc-Transformer模型的原始语音情感识别被引量：8