基于深度学习的开放场景下声纹识别系统的设计与实现被引量：4

A deep learning-based speaker recognition system for open set scenarios

下载PDF

导出

摘要针对现实应用场景中短时语音和混叠有噪声情况下声纹识别准确性低的问题,本文设计了一种改进的基于深度学习的声纹识别算法,提高了声纹识别模型在短时语音和带噪环境下的鲁棒性,并将该模型部署到了嵌入式设备中.本文主要对声纹识别算法的编码层和损失函数进行改进.对于编码层,本文使用了基于差分编码的NeXtVLAD技术,同时对帧级特征中的静态声纹特征和动态声纹特征进行建模.对于损失函数,本文将基于小样本学习框架的余弦-原型损失函数cosine-Prototypical与附加间隔分类损失函数AM-Softmax进行融合来训练声纹识别模型,使得模型在特征空间中的同类特征尽可能集聚,异类特征尽可能分离.此外,本文还将声纹识别算法部署在Raspberry Pi平台上,实现了能快速推理的声纹识别系统.实验结果表明:这种改进的声纹识别系统在多种开放场景下,能够实时、准确地完成声纹识别任务,可以达到实际应用的要求. Due to the low accuracy of speaker recognition for short-term speech or under overlapping noisy situations,a new speaker recognition algorithm based on deep learning is proposed and then deployed on an embedded device.The encoding layer and loss function are the two aspects to improve the speaker recognition system in robustness.For the encoding layer,the NeXtVLAD technique based on differential encoding is used to model both static and dynamic speaker features at frame level.For the loss function,the cosine-prototypical loss function based on small-sample learning framework is fused with the additional margin classification loss function AM-Softmax to train the speaker recognition model,which enables the model to collect similar features and separate dissimilar features as much as possible in the feature space.Then the improved speaker recognition algorithm is deployed on the Raspberry Pi platform to realize speaker recognition with fast inference.The experimental results illustrate that the system can accomplish speaker recognition in real time and accurately under various open set scenarios,and meet the requirements of practical applications.

作者郭新罗程方邓爱文 GUO Xin;LUO Chengfang;DENG Aiwen(School of Mechanical and Electrical Engineering,Guangdong Communication Polytechnic,Guangzhou 510520;School of Automation Science and Engineering,South China University of Technology,Guangzhou 510641)

机构地区广东交通职业技术学院机电工程学院华南理工大学自动化科学与工程学院

出处《南京信息工程大学学报（自然科学版）》 CAS 北大核心 2021年第5期526-532,共7页 Journal of Nanjing University of Information Science & Technology（Natural Science Edition）

基金广东省青年创新人才项目(2018GkQNCX005)。

关键词深度学习开放场景短时语音声纹识别差分化编码 NeXtVLAD 树莓派 deep learning open set short-term speech speaker recognition differential encoding NeXtVLAD Raspberry Pi(RPi)

分类号 TN912.3 [电子电信—通信与信息系统] TP18 [电子电信—信息与通信工程]

引文网络
相关文献

参考文献1

1刘丽敏,荆继武.快速发展的我国生物特征识别标准规范[J].中国信息安全,2019(2):68-72. 被引量：4

共引文献3

1赵莉,付世凤.卷积神经网络在语音情感识别中的应用研究[J].中国新技术新产品,2022(24):8-10.
2陈健堯,田聪劲,王美婷,吴建基,张颖婷.老龄化背景下的智能伴老型App设计[J].无线互联科技,2023,20(12):4-8.
3陈浩,许静,耿晓平.我国自动识别技术标准化概述[J].中国标准化,2024(4):45-49.

同被引文献17

1邵淑颖,韩宇龙,尹浩磊,苗洪睿,吴艳,孟一鸣,张振声.基于ITOP4412开发板的智能家宠投食器设计[J].工业技术创新,2021,8(3):92-96. 被引量：1
2李春平,周登文,贾慧秒.基于边缘指导的双通道卷积神经网络单图像超分辨率算法[J].南京信息工程大学学报（自然科学版）,2017,9(6):669-674. 被引量：2
3李靓,孙存威,谢凯,贺建飚.基于深度学习的小样本声纹识别方法[J].计算机工程,2019,45(3):262-267. 被引量：19
4卞港,王仁彪,石永伟.基于STM32和Zigbee的mini宠物智能喂养系统的设计[J].电子技术与软件工程,2019(7):94-94. 被引量：1
5闫河,董莺艳,王鹏,罗成,李焕.基于CNN-LSTM网络的声纹识别研究[J].计算机应用与软件,2019,36(4):166-170. 被引量：19
6文常保,马文博,刘鹏里.基于改进遗传算法的RBF神经网络结构优化研究[J].计算机工程与科学,2019,41(5):917-923. 被引量：13
7魏莲芳.基于“互联网+”的声纹识别技术在刑事案件侦破中的应用研究[J].现代电子技术,2020,43(7):34-38. 被引量：7
8王惠.基于Landmark的声纹识别技术在电影放映监测中的探索实验[J].现代电影技术,2020,0(3):17-23. 被引量：2
9孙彦,丁学文,雷雨婷,陈静,孔祥鑫.基于SSD_MobileNet_v1网络的猫狗图像识别[J].天津职业技术师范大学学报,2020,30(1):38-44. 被引量：3
10牟俊杰,姚刚,孙涛.基于CNN-LSTM神经网络的声纹识别系统设计[J].电子技术应用,2021,47(3):75-78. 被引量：10

引证文献4

1张鹏.遗传优化RBF神经网络背景下的声纹识别研究[J].信息与电脑,2022,34(1):159-161. 被引量：2
2王伟民,程进,邹小平,朴林华.基于卷积神经网络的猫狗识别自动投食器[J].传感器世界,2022,28(2):11-14. 被引量：1
3李子晗,邵笑,张佩云.基于细节还原卷积神经网络的压缩视频质量增强技术研究[J].南京信息工程大学学报（自然科学版）,2023,15(3):274-285. 被引量：3
4郭新,邓爱文,罗程方,邓飞其.开放场景下短时语音说话人识别系统的优化设计[J].南京信息工程大学学报（自然科学版）,2023,15(5):585-591.

二级引证文献6

1王丽莹,束祖娜,陈浩文,屈梦樊,谢家兴.远程实时智能精准喂养宠物系统[J].中国新技术新产品,2023(12):29-32. 被引量：2
2戴天峦,何月顺,何璘琳,陈杰,钟海龙,王文.基于帧间相关性的动态多帧视频质量增强[J].传感器与微系统,2023,42(9):56-60.
3王爱军,王亚飞,彭明生,龚惠,顾昊.基于自然语言处理的声纹优化识别算法研究[J].电力设备管理,2024(4):126-128.
4刘能智.视频编码中的深度学习模型设计与实现[J].信息记录材料,2024,25(7):119-121.
5黄威威,贾克斌.基于三维卷积时空融合网络的压缩视频质量增强算法[J].高技术通讯,2024,34(7):726-733.
6马鼎山.基于神经网络的光纤传感系统声纹识别方法[J].电声技术,2024,48(10):80-82.

1刘晓璇,季怡,刘纯平.基于LSTM神经网络的声纹识别[J].计算机科学,2021,48(S02):270-274. 被引量：13
2张春雷,陈锐,高旭.手术时间分段分析法在机器人辅助腹腔镜前列腺癌根治性切除术难度因素分析中的应用[J].微创泌尿外科杂志,2021(3):152-156. 被引量：3
3邹泓樑,周越茹,金小萍.差分空时媒介调制系统的设计与仿真[J].无线电通信技术,2021,47(6):822-826.
4陈致远,董兴法,刘志伟.基于H型结构光纤SPR的折射率传感研究[J].苏州科技大学学报（自然科学版）,2021,38(4):51-55. 被引量：2

南京信息工程大学学报（自然科学版）

2021年第5期

浏览历史

内容加载中请稍等...

基于深度学习的开放场景下声纹识别系统的设计与实现被引量：4

参考文献1

共引文献3

同被引文献17

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于深度学习的开放场景下声纹识别系统的设计与实现 被引量：4

参考文献1

共引文献3

同被引文献17

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于深度学习的开放场景下声纹识别系统的设计与实现被引量：4