基于角度间隔嵌入特征的端到端声纹识别模型被引量：5

Angular interval embedding based end-to-end voiceprint recognition model

下载PDF

导出

摘要针对传统身份认证矢量(i-vector)与概率线性判别分析(PLDA)结合的声纹识别模型步骤繁琐、泛化能力较弱等问题,构建了一个基于角度间隔嵌入特征的端到端模型。该模型特别设计了一个深度卷积神经网络,从语音数据的声学特征中提取深度说话人嵌入;选择基于角度改进的A-Softmax作为损失函数,在角度空间中使模型学习到的不同类别特征始终存在角度间隔并且同类特征间聚集更紧密。在公开数据集VoxCeleb2上进行的测试表明,与i-vector结合PLDA的方法相比,该模型在说话人辨认中的Top-1和Top-5上准确率分别提高了58.9%和30%;而在说话人确认中的最小检测代价和等错误率上分别减小了47.9%和45.3%。实验结果验证了所设计的端到端模型更适合在多信道、大规模的语音数据集上学习到有类别区分性的特征。 An end-to-end model with angular interval embedding was constructed to solve the problems of complicated multiple steps and weak generalization ability in the traditional voiceprint recognition model based on the combination of identity vector (i-vector) and Probabilistic Linear Discriminant Analysis (PLDA). A deep convolutional neural network was specially designed to extract deep speaker embedding from the acoustic features of voice data. The Angular Softmax (A-Softmax), which is based on angular improvement, was employed as the loss function to keep the angular interval between the different classes of features learned by the model and make the clustering of the similar features closer in the angle space. Compared with the method combining i-vector and PLDA, it shows that the proposed model has the identification accuracy of Top-1 and Top-5 increased by 58.9% and30% respectively and has the minimum detection cost and equal error rate reduced by 47.9% and 45.3% respectively for speaker verification on the public dataset VoxCeleb2. The results verify that the proposed end-to-end model is more suitable for learning class- discriminating features from multi-channel and large-scale datasets.

作者王康董元菲 WANG Kang;DONG Yuanfei(Nanjing Fiber Home World Communication Technology Company Limited, Nanjing Jiangsu 210019, China;Wuhan Research Institute of Posts and Telecommunications, Wuhan Hubei 430074, China)

机构地区南京烽火天地通信科技有限公司武汉邮电科学研究院

出处《计算机应用》 CSCD 北大核心 2019年第10期2937-2941,共5页 journal of Computer Applications

基金国家重点研发计划项目(2017YFB1400704)~~

关键词声纹识别端到端模型损失函数卷积神经网络深度说话人嵌入 voiceprint recognition end-to-endmodel loss function convolutional neuralnetwork deep speaker embedding

分类号 TN912.34 [电子电信—通信与信息系统] TP391.42 [电子电信—信息与通信工程]

引文网络
相关文献

参考文献1

1王昕,张洪冉.基于DNN处理的鲁棒性I-Vector说话人识别算法[J].计算机工程与应用,2018,54(22):167-172. 被引量：11

共引文献10

1程磊,高茂庭.基于深度神经网络的推荐算法[J].现代计算机,2018,24(15):3-7. 被引量：4
2张学祥,雷菊阳.基于DNN与基音周期的说话人识别[J].计算机与现代化,2020,0(1):122-126. 被引量：5
3曾春艳,马超峰,王志锋,朱栋梁,赵楠,王娟,刘聪.深度学习框架下说话人识别研究综述[J].计算机工程与应用,2020,56(7):8-16. 被引量：9
4张保生,王旭.中国证据法治前进步伐(2017-2018年)[J].证据科学,2020,28(1):5-45. 被引量：8
5曾春艳,马超峰,王志锋,孔祥斌.基于卷积神经网络的鲁棒性说话人识别方法[J].华中科技大学学报（自然科学版）,2020,48(6):39-44. 被引量：9
6赵宏,岳鲁鹏,常兆斌,王伟杰.基于多特征I-Vector的说话人识别算法[J].兰州理工大学学报,2021,47(5):93-98. 被引量：1
7龙华,瞿于荃,段荧.一种基于核典型关联分析的短语音说话人嵌入向量算法[J].小型微型计算机系统,2021,42(11):2269-2275. 被引量：2
8陈壮,俞一彪.噪声自适应拟合补偿的鲁棒性声纹识别算法[J].声学学报,2022,47(1):151-160. 被引量：3
9CHEN Zhuang,YU Yibiao.Robust voiceprint recognition with adaptive anti-noise ability based on fitting and compensation[J].Chinese Journal of Acoustics,2022,41(3):279-294.
10郑靓,张友兵,周奎,付瑞.一种可学习的跨域鲁棒说话人识别方法[J].湖北汽车工业学院学报,2023,37(4):42-47.

同被引文献39

1张重远,罗世豪,岳浩天,王博闻,刘云鹏.基于Mel时频谱-卷积神经网络的变压器铁芯声纹模式识别方法[J].高电压技术,2020,46(2):413-423. 被引量：71
2石军,吴建辉,刘伟.基于前馈调制的光载毫米波发生器的设计与实现[J].半导体光电,2019,0(4):585-589. 被引量：1
3吴礼福,申浩.掩蔽法减少谱减法去混响中的音乐噪声[J].电子测量与仪器学报,2017,31(11):1855-1859. 被引量：4
4仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报,2018,43(2):263-272. 被引量：13
5叶佳,闫连山,潘炜,罗斌,邹喜华.面向光载无线系统的混合频相调制信号产生[J].光学学报,2018,38(2):73-77. 被引量：9
6李嘉伟,胡海龙,林志贤.基于声纹识别技术的Android设备声音功能自动化测试系统[J].信息技术与网络安全,2018,37(5):106-109. 被引量：1
7白帆,曹昭睿.基于深度学习的白光-热成像双通道图像识别系统设计[J].科学技术与工程,2018,18(21):264-267. 被引量：5
8刘世杰,王虹.声纹检验技术现状与发展评析[J].山东化工,2018,47(15):79-80. 被引量：5
9汪海彬,郭剑毅,毛存礼,余正涛.基于通用背景-联合估计(UB-JE)的说话人识别方法[J].自动化学报,2018,44(10):1888-1895. 被引量：5
10白海莉.情感语音合成技术或对声纹鉴定准确性产生影响[J].科技创新与应用,2018,8(36):24-24. 被引量：6

引证文献5

1肖鑫鑫.复杂噪声环境下的普通话测试系统设计[J].信息技术,2020,44(11):78-82. 被引量：1
2罗春梅.基于改进MFCC与RCNN的说话人识别算法[J].数学的实践与认识,2021,51(17):102-110. 被引量：6
3白曦龙,冯佳.基于ChaffMatrix的光载声音声纹变化识别系统设计[J].激光杂志,2022,43(1):174-178.
4方昕,黄泽鑫,张聿晗,高天,潘嘉,付中华,高建清,刘俊华,邹亮.基于时域波形的半监督端到端虚假语音检测方法[J].计算机应用,2023,43(1):227-231. 被引量：1
5孟飞宇.基于角裕度损失的说话人识别研究[J].电声技术,2022,46(10):17-19.

二级引证文献8

1钟鹏飞,谭平,汤悦,龙帅,邱辉.基于嵌入式系统的婴儿哭啼监测器[J].信息与电脑,2022,34(5):125-127. 被引量：1
2王学松,王世刚,郭毅峰.基于EEMD的融安方言语音合成算法研究[J].传感器世界,2022,28(6):25-29. 被引量：1
3王莉莉.郴州市普通话测试站公共服务能力提升研究[J].产业与科技论坛,2022,21(17):219-220. 被引量：2
4席青云,孙同日,陶佰睿,杨文博,苗凤娟.PCA-VQ融合降维的SMO-SVM说话人识别研究[J].传感技术学报,2023,36(2):275-279.
5马志举,杜庆治,龙华,邵玉斌.基于改进语谱图的深度学习说话人识别[J].现代电子技术,2023,46(21):32-38. 被引量：1
6陈秉沃,张二华,唐振民.基于模型聚类的说话人识别研究[J].计算机与数字工程,2023,51(8):1745-1749.
7徐杰,韩雪晴,廖庆洲,廖盛斌.基于GMM的听障儿童听觉辨识能力机器检测研究[J].华中师范大学学报(自然科学版),2023,57(6):807-812.
8王健宗,张旭龙,姜桂林,程宁,肖京.基于分层联邦框架的音频模型生成技术研究[J].智能系统学报,2024,19(5):1331-1339.

1汪海彬,郭剑毅,毛存礼,余正涛.基于通用背景-联合估计(UB-JE)的说话人识别方法[J].自动化学报,2018,44(10):1888-1895. 被引量：5
2白雅琳.“你不V吧？”格式探析[J].汉字文化,2019(17):54-57.
3李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱.一种改进的DNN-HMM的语音识别方法[J].应用声学,2019,38(3):371-377. 被引量：18
4王娟,徐志京.HR-DCGAN方法的帕金森声纹样本扩充及识别研究[J].小型微型计算机系统,2019,40(9):2026-2032. 被引量：9
5许文杰,束红.基于MOOC平台的学习监督系统设计与研究[J].电脑知识与技术,2019,15(8):99-100.
6李裴.周总理一生的誓言[J].当代贵州,2019,0(18):79-79.
7刘建,黄娇洁.一种算法对于深层神经网络训练速度的提升[J].电脑知识与技术,2019,15(8X):207-209. 被引量：1
8胡冰舟,刘旭.声纹识别专利技术分析[J].中国科技信息,2019,0(17):15-16.
9邱辉,沈梅英,于月.中国企业家的话语隐喻及其心智模式探析——以马云与任正非话语为例[J].浙江外国语学院学报,2019,0(3):57-64. 被引量：1
10王超,董晶,陈肖肖.银行互联网金融与第三方支付间的竞争与协同——基于银行数据的实证研究[J].现代商业银行,2019,0(6):65-70.

计算机应用

2019年第10期

浏览历史

内容加载中请稍等...

基于角度间隔嵌入特征的端到端声纹识别模型被引量：5

参考文献1

共引文献10

同被引文献39

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于角度间隔嵌入特征的端到端声纹识别模型 被引量：5

参考文献1

共引文献10

同被引文献39

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于角度间隔嵌入特征的端到端声纹识别模型被引量：5