针对现有语音情感数据集中样本数不足以支撑训练深度神经网络以及层数不断加深带来的梯度爆炸问题,在使用高斯白噪声和随机时频掩蔽对数据集进行增强的基础上,提出了一种融合通道、空间注意力和辅助分类器的膨胀残差网络(dilated residu...针对现有语音情感数据集中样本数不足以支撑训练深度神经网络以及层数不断加深带来的梯度爆炸问题,在使用高斯白噪声和随机时频掩蔽对数据集进行增强的基础上,提出了一种融合通道、空间注意力和辅助分类器的膨胀残差网络(dilated residual network with auxiliary calssifier and channel,spatial attention,DRN-A-CASA)语音情感识别方法。首先,使用增强后的梅尔谱图数据集作为网络模型的输入,并在残差网络原卷积层中采用膨胀卷积来扩大特征提取感受野;其次,在残差网络layer3层后添加辅助分类器分支,加速网络训练并改进损失函数;最后,在layer4层中添加注意力机制关注情感特征,实现语音情感的分类。实验结果表明,基于DRN-A-CASA的模型在RAVDESS及EMODB两个数据集上分别达到了92.91%和89.15%的识别准确率,验证了所提方法的有效性和泛化性能。展开更多
文摘针对现有语音情感数据集中样本数不足以支撑训练深度神经网络以及层数不断加深带来的梯度爆炸问题,在使用高斯白噪声和随机时频掩蔽对数据集进行增强的基础上,提出了一种融合通道、空间注意力和辅助分类器的膨胀残差网络(dilated residual network with auxiliary calssifier and channel,spatial attention,DRN-A-CASA)语音情感识别方法。首先,使用增强后的梅尔谱图数据集作为网络模型的输入,并在残差网络原卷积层中采用膨胀卷积来扩大特征提取感受野;其次,在残差网络layer3层后添加辅助分类器分支,加速网络训练并改进损失函数;最后,在layer4层中添加注意力机制关注情感特征,实现语音情感的分类。实验结果表明,基于DRN-A-CASA的模型在RAVDESS及EMODB两个数据集上分别达到了92.91%和89.15%的识别准确率,验证了所提方法的有效性和泛化性能。