摘要
针对现有的声纹识别技术模型具有提取特征单一、泛化能力不强等局限性,提出了一种融合注意力机制的Res2Net-LSTM声纹识别方法。通过采用Res2Net和LSTM分别提取空间特征和时序特征,增强模型收敛速度与精度,并融合注意力机制,对特征权重进行调整,通过关注重点区域,提高分类性能。在公开的Voxceleb1数据集上进行验证,实验结果表明,相较于ResNetLSTM、Res2Net-LSTM准确率分别提升了10.4%,10.5%,验证了该方法具有更好的性能。
出处
《网络安全技术与应用》
2024年第5期58-61,共4页
Network Security Technology & Application
基金
中央高校基本科研业务经费项目(2022TJJBKY026,2022TJJBKY009)。