基于知识蒸馏与ResNet的声纹识别被引量：2

Voiceprint recognition based on knowledge distillation and ResNet

下载PDF

导出

摘要针对声纹识别领域中存在信道失配与对短语音或噪声条件下声纹特征获取不完全的问题,提出一种将传统方法与深度学习相结合,以I-Vector模型作为教师模型对学生模型ResNet进行知识蒸馏。构建基于度量学习的ResNet网络,引入注意力统计池化层,捕获并强调声纹特征的重要信息,提高声纹特征的可区分性。设计联合训练损失函数,将均方根误差(MSE,mean square error)与基于度量学习的损失相结合,降低计算复杂度,增强模型学习能力。最后,利用训练完成的模型进行声纹识别测试,并与多种深度学习方法下的声纹识别模型比较,等错误率(EER,equal error rate)至少降低了8%,等错误率达到了3.229%,表明该模型能够更有效地进行声纹识别。 Aiming at the problem of channel mismatch in the field of voiceprint recognition and incomplete acquisition of voiceprint features under short speech or noise conditions,a method that combines traditional methods with deep learning is proposed,and the ResNet model is used as the student model to perform knowledge distillation on the I-Vector model as the teacher model.We construct a ResNet network based on metric learning,introduce an attentive statistics pooling layer,capture and emphasize the important information of voiceprint features,and improve the distinguishability of voiceprint features.The mean square error(MSE)is combined with the loss based on metric learning to reduce computational complexity and enhance model learning capabilities.Finally,the trained model is used for voiceprint recognition test,and compared with the voiceprint recognition model under a variety of deep learning methods.It’s found that the equal error rate(EER)is reduced by at least 8%,and the equal error rate has reached 3.229%,indicating that the model can perform speaker verification more effectively.

作者荣玉军方昳凡田鹏程家伟 RONG Yujun;FANG Yifan;TIAN Peng;CHENG Jiawei(China Mobile Hangzhou Information Technology Co.Ltd.,Hangzhou 310000,P.R.China;Chongqing University Posts&Telecommunication,College Automation,Chongqing 400065,P.R.China)

机构地区中移(杭州)信息技术有限公司重庆邮电大学自动化学院

出处《重庆大学学报》 CAS CSCD 北大核心 2023年第1期113-124,共12页 Journal of Chongqing University

基金教育部-中国移动科研基金资助项目(MCM20180404) 国家自然科学基金(52272388)。

关键词深度学习知识蒸馏声纹识别说话人识别 deep learning knowledge distillation voiceprint recognition speaker verification

分类号 TP751 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献6

1郑方,艾斯卡尔.肉孜,王仁宇,李蓝天.生物特征识别技术综述[J].信息安全研究,2016,2(1):12-26. 被引量：45
2孙冬梅,裘正定.生物特征识别技术综述[J].电子学报,2001,29(z1):1744-1748. 被引量：143
3谭萍,邢玉娟.噪声环境下文本相关说话人识别方法改进[J].西安工程大学学报,2016,30(5):639-644. 被引量：7
4胡青,刘本永.基于卷积神经网络的说话人识别算法[J].计算机应用,2016,36(A01):79-81. 被引量：12
5郭玥秀,杨伟,刘琦,王玉.残差网络研究综述[J].计算机应用研究,2020,37(5):1292-1297. 被引量：62
6陈志高,李鹏,肖润秋,黎塔,王文超.文本无关说话人识别的一种多尺度特征提取方法[J].电子与信息学报,2021,43(11):3266-3271. 被引量：4

二级参考文献83

1邬向前,王宽全,张大鹏.一种用于掌纹识别的线特征表示和匹配方法(英文)[J].软件学报,2004,15(6):869-880. 被引量：28
2[1]Glossary of biometrics terms [R].1998,Association for biometrics(AfB),Intemational Computer Security Association (ICSA). 被引量：1
3[2]R Chellappa,et al.Humnan and machine recognition of face:a survey[J].Proc.IEEE,1995,83 (5):705-740. 被引量：1
4[3]R Brunelli,T Poggio.Face recognition:features versus templates [J].IEEE Trans.PAMI,1993,15(10):1042-1052. 被引量：1
5[4]D L Swets,J Weng.Using discriminant eigenfeatures for image retrieval[J].IEEE Trans.PAMI,1996,18 (8):831-836. 被引量：1
6[5]B Moghaddam,et al.Probabilistic visual recognition for object recognition [J].IEEE Trans.PAMI,1997,19(7) :696-710. 被引量：1
7[6]S Y Lee,et al.Recognition of humman front faces using knowledgebased feature extraction and neunofuzzy algorithm [J].Pattern Recognition,1996,29(11):1863-1876. 被引量：1
8[7]S Lawtonce,et al.Face recognition:a convolutional neural-network approach [J].IEEE Trans.NN,1997,8(1):98-113. 被引量：1
9[9]J Zhang,et al.Face recognition:eigenface,elastic matching,and neural nets [J].Proc.IEEE,1997,85(9):1422-1435. 被引量：1
10[10]L Wiskott,et al.Face recognition by elastic bunch graph matching [J].IEEE Trans.PAMI.1997,19(6) :775-779. 被引量：1

共引文献264

1孟涛,王晓勇,胡胜利.结合CNN和GCN的在线学习平台辍学预测方法[J].哈尔滨师范大学自然科学学报,2023,39(4):58-64.
2陈梦娴.“互联网+”时代身份识别与认证安全问题研究[J].信息通信,2019,0(11):184-185. 被引量：2
3邓宇平,王桂棠.基于GoogleNet网络与残差网络的织物纹理分析[J].电子测量技术,2021,44(7):31-38. 被引量：4
4曹佳禾,陈君毅,王智铭,蒋德琛,王勇.基于手掌毫米波雷达回波信号的身份识别[J].国外电子测量技术,2022,41(3):170-176. 被引量：2
5陈天伦.数学课堂教学中学生创新能力的培养[J].西华大学学报（哲学社会科学版）,2005,24(S1):263-264.
6樊铁成,修进玲.船员身份认证的技术问题[J].大连海事大学学报,2008,34(z1):150-152. 被引量：3
7李新中,马俊.基于模糊提取技术生物指纹的密钥提取的实现[J].科技资讯,2007,5(19):235-236.
8高福友.生物特征识别技术及其在监狱安全防范领域的应用[J].安防科技,2011(2):20-23. 被引量：4
9陈帅.手机操作系统中智能化技术运用研究[J].自动化与仪器仪表,2016(4):27-28. 被引量：1
10王秀琴,赵金宪,王忠礼.人耳识别的应用研究与实现[J].黑龙江科技学院学报,2004,14(4):241-243. 被引量：2

同被引文献33

1钟文勤,刘伟,宛新荣,刘亮.“啮齿动物在草原生态系统中的作用与科学管理”一文照片[J].生物学通报,2008,43(1):1-3. 被引量：17
2苏永志,宛新荣,王梦军,陈卫,杜森云,王军,萨仁高娃,玉涛.典型草原区布氏田鼠鼠害防治的经济阈值[J].动物学杂志,2013,48(4):521-525. 被引量：14
3丁勇,侯向阳,吴新宏,Leonid Ubugunov,任卫波,萨茹拉,孙小龙,刘朋涛.气候变化背景下草原生态系统研究热点探讨[J].中国草地学报,2013,35(5):124-132. 被引量：27
4轩俊伟,郑江华,倪亦非,穆晨.基于动力三角翼平台的草原鼠害遥感监测研究[J].中国植保导刊,2015,35(2):52-55. 被引量：12
5马崇勇,张卓然,单艳敏,王智勇,季彦华,项凯峰,杜桂林.内蒙古草原鼠害及其绿色防控技术应用现状[J].中国草地学报,2017,39(5):108-115. 被引量：17
6马涛,郑江华,温阿敏,陈梦,刘忠军.基于UAV低空遥感的荒漠林大沙鼠洞群覆盖率及分布特征研究——以新疆古尔班通古特沙漠南缘局部为例[J].生态学报,2018,38(3):953-963. 被引量：18
7温阿敏,郑江华,陈梦,穆晨,马涛.荒漠生态林区大沙鼠鼠洞密度的无人机遥感监测技术初探[J].林业科学,2018,54(4):186-192. 被引量：13
8李靓,孙存威,谢凯,贺建飚.基于深度学习的小样本声纹识别方法[J].计算机工程,2019,45(3):262-267. 被引量：19
9崔博超,郑江华,刘忠军,马涛,沈江龙,赵雪迷.无人机遥感影像的YOLOv3鼠洞识别技术[J].林业科学,2020,56(10):199-208. 被引量：10
10王小燕,谢文昊,杨艺芳,胡瑞.基于深度学习的垃圾分类检测方法[J].现代电子技术,2021,44(21):110-113. 被引量：10

引证文献2

1堂格斯,包玉龙,孙长青,特日格乐,包玉海,图布新巴雅尔,金额尔德木吐.基于无人机遥感和深度学习的布氏田鼠洞群识别[J].内蒙古民族大学学报（自然科学版）,2023,38(5):448-457.
2钱兴维,张祥.基于深度学习的声纹识别语音唤醒技术优化研究[J].电声技术,2024,48(6):53-55.

1任家润,沈文忠.双重注意力机制下的跨光谱虹膜识别优化算法[J].计算机工程与应用,2023,59(1):187-198. 被引量：2
2胡朗,周俊佐,颜伟鹏,莫佳洋,张建海.噪音环境下声音诱发脑电信号的说话人识别[J].杭州电子科技大学学报（自然科学版）,2023,43(1):62-68. 被引量：2
3苏航,汤武惊.基于神经网络的行人步态识别系统研究[J].中国新技术新产品,2022(21):14-17.
4王锦阳,华光,黄双.基于注意力机制的端到端合成语音检测[J].信号处理,2022,38(9):1975-1987. 被引量：2
5付志涛.基于结构信息的异源遥感图像局部特征描述符研究[J].测绘学报,2022,51(12):2557-2557.
6张云立.基于图神经网络和BiGRU的商品推荐模型[J].信息与电脑,2022,34(20):161-164.
7薛淑萍,柴晓芳,周玉琴.米非司酮片联合宫外孕Ⅰ号方保守治疗异位妊娠的疗效观察及对患者妊娠结局的影响[J].北方药学,2022,19(10):176-178. 被引量：1
8杨帆,黄超.基于BAS-BP模型的深基坑开挖地表沉降预测[J].测绘地理信息,2022,47(5):47-50. 被引量：5
9赵霞,李秉营,时光喜,邹瑞琪,王宁.MRI灌注定量分析对非肿块强化乳腺病变的诊断价值[J].影像诊断与介入放射学,2022,31(6):440-445. 被引量：1
10杜艳霞,康荣保,王莉莉,张晓,赵尔凡.基于改进XGBoost算法的电力中长期负荷预测[J].电声技术,2022,46(9):129-134. 被引量：2

重庆大学学报

2023年第1期

浏览历史

内容加载中请稍等...

基于知识蒸馏与ResNet的声纹识别被引量：2

参考文献6

二级参考文献83

共引文献264

同被引文献33

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于知识蒸馏与ResNet的声纹识别 被引量：2

参考文献6

二级参考文献83

共引文献264

同被引文献33

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于知识蒸馏与ResNet的声纹识别被引量：2