-
题名一种多尺度特征融合TDNN的声纹识别方法
- 1
-
-
作者
叶贤胜
高勇
-
机构
四川大学电子信息学院
-
出处
《通信技术》
2024年第6期551-555,共5页
-
文摘
为了有效提高声纹识别的性能,改进了一种时延神经网络(Time Delay Neural Network,TDNN)架构,通过引入多尺度频率通道注意力(Multi-scale Frequency-channel Attention,MFA)以及多尺度通道注意力模块(Multi-scale Channel Attention Module,MS-CAM),从而增强模型对不同尺度特征的学习能力。MFA模块通过引入频率通道关注机制,有针对性地强化关键信息;MS-CAM模块进一步加强了对多尺度信息的融合,能更好地获得局部与全局的特征。结果表明,所使用的模型在声纹识别测试数据集VOXCELEB1的等错误率和最小检测代价函数2项指标分别为0.96和0.064,与基线系统相比下降幅度分别为8.6%和19%。
-
关键词
声纹识别
多尺度频率通道注意力
多尺度通道注意力
多尺度信息融合
-
Keywords
voiceprint recognition
multi-scale frequency channel attention
multi-scale channel attention
multi-scale information fusion
-
分类号
TN912.34
[电子电信—通信与信息系统]
-