加性噪声条件下鲁棒说话人确认被引量：3

Robust Speaker Verification Under Additive Noise Condition

下载PDF

导出

摘要基于非负矩阵分解的语音去噪,在提高语音信号信噪比的同时,也会引起语音失真,从而导致噪声环境下说话人确认系统性能下降.本文提出基于分区约束非负矩阵分解的语音去噪方法(Nonnegative Matrix Factorization with Partial Constrains,PCNMF),目的是在未知和非平稳噪声条件下提高话人确认系统的鲁棒性.PCNMF在满足分区约束条件的基础上分别构建语音字典和噪声字典.考虑到传统语音训练产生的语音字典往往含有一定的噪声成分,PCNMF通过数学模型产生基音及泛音频谱,在此基础上利用该频谱模仿人声的共振峰结构来合成字典,从而保证语音字典纯净性.另一方面,为了克服传统噪声字典构建方法带来的部分噪声信息丢失问题,PCNMF对在线分离出的噪声样本进行分帧和短时傅里叶变换,然后以帧为单位线性组合生成噪声字典.性能评估实验引入了多种噪声类型,实验结果表明PCNMF可有效提高说话人确认系统的鲁棒性,特别是在未知和非平稳噪声条件下其等错率相比基线系统(Multi-Condition)平均降低了5.2%. While nonnegative matrix factorization based speech enhancing methods can improve signal to noise ratio (SNR) of recovered speech signal,these methods lead to the speech distortion,and thus degrade the performance of speaker verification system under noisy environment.This paper proposes a nonnegative matrix factorization with partial constrains (PCNMF),with objective of enhancing the robustness of speaker verification system in presence of unknown and unstable noises.PCNMF constructs the speech and noise dictionaries while satisfying partition conditions.Considering that the speech dictionary generated by traditional speech training contains a little noise element,PCNMF generates speech dictionary using the spectra of pitch and their harmonics via mathematical model,and accordingly imitates the formant structure of human voice.The purpose is to guarantee the purity of speech dictionary.In addition,in order to alleviate the problem about the loss of the information of the noise sample,PCNMF performs framing operation and Short-Time Fourier Transform against the noise samples separated online,and then generates noise dictionary by means of linear combination of the spectrum frames of the noise samples.Our experiment takes unknown and unstable noises into account,demonstrating that the proposed PCNMF achieves significant improvement of robustness under various noise conditions.Particularly,the equal error rate of PCNMF is reduced by an average of 5.2% in comparison with the base-line (Multi-Condition system).

作者张二华王明合唐振民 ZHANG Er-hua;WANG Ming-he;TANG Zhen-min(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China)

机构地区南京理工大学计算机科学与工程学院

出处《电子学报》 EI CAS CSCD 北大核心 2019年第6期1244-1250,共7页 Acta Electronica Sinica

基金国家自然科学基金(No.61473154)

关键词语音处理说话人确认非负矩阵分解加性噪声 speech processing speaker verification nonnegative matrix factorization additive noise

分类号 TN912 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献6

1XU Yunfei,YANG Hai,YANG Lin,ZHOU Ruohua,YAN Yonghong.A General Bayesian Model for Speaker Verification[J].Chinese Journal of Electronics,2016,25(6):1045-1051. 被引量：1
2蒋晔,唐振民.短语音说话人辨认的研究[J].电子学报,2011,39(4):953-957. 被引量：6
3练秋生,石保顺,陈书贞.字典学习模型、算法及其应用研究进展[J].自动化学报,2015,41(2):240-260. 被引量：120
4车滢霞,俞一彪.约束条件下的结构化高斯混合模型及非平行语料语音转换[J].电子学报,2016,44(9):2282-2288. 被引量：2
5XU Longting,YANG Zhen,SUN Linhui.Simplification of I-Vector Extraction for Speaker Identification[J].Chinese Journal of Electronics,2016,25(6):1121-1126. 被引量：4
6许云飞,杨海,周若华,颜永红.高斯PLDA在说话人确认中的应用及其联合估计[J].自动化学报,2014,40(6):1068-1074. 被引量：3

二级参考文献173

1张海,王尧,常象宇,徐宗本.L_(1/2)正则化[J].中国科学：信息科学,2010,40(3):412-422. 被引量：14
2安冬,王守觉.基于仿生模式识别和PCA/ICA的DOA估计方法[J].电子学报,2004,32(9):1448-1451. 被引量：14
3康永国,双志伟,陶建华,张维.基于混合映射模型的语音转换算法研究[J].声学学报,2006,31(6):555-562. 被引量：13
4P Joseph, JR Campbell. Speaker recognition: A tutorial[ J]. Proceedings of the IEEF,, 1997,85(9) : 1437 - 1462. 被引量：1
5Tomi Kinntmen, Li Haizhou. An overview of text-independent speaker recognition: From feature to super vectors [J]. Speech Communication, 2009,52(2) : 12 - 40. 被引量：1
6I T Jolliffe. Principal Component Analysis [ M ]. Springer: Berlin, 1986. 被引量：1
7N Kambhatla. Dimension reduction by local PCA [J]. Neural Computing, 1997,9 (7) : 1493 - 1516. 被引量：1
8C W Seo, K Y lee. GMM based on local PCA for speaker identification [ J ]. Electronics Letters, 2001,37 ( 24 ) : 1486 - 1488. 被引量：1
9S Molau, M Pitz, R Schluter. Computing Mel-frequency cepstral coefficients on the power spectrum [ A ]. Proceedings of the 2001 IEEE International Conference on Acoustics, Speech and Signal Processing[ C]. USA: IEEE Press, 2001.73 - 76. 被引量：1
10S Furui. Cepstral analysis technique for automatic speaker verification[ J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1981,29 (2) : 254 - 271. 被引量：1

共引文献130

1程德强,陈杰,寇旗旗,聂帅杰,张剑英.融合层次特征和注意力机制的轻量化矿井图像超分辨率重建方法[J].仪器仪表学报,2022,43(8):73-84. 被引量：23
2李帅永,毛维培,程振华,韩明秀,夏传强.基于VMD和K-SVD字典学习的供水管道泄漏振动信号压缩感知方法[J].仪器仪表学报,2020,41(3):49-60. 被引量：25
3张光雅,李江坤,李兵海,张翔,张伟,武雷超.K-SVD字典在航空伽马谱数据降噪中的应用研究[J].核电子学与探测技术,2023,43(1):56-63. 被引量：1
4王水平,唐振民,陈北京,蒋晔.复杂环境下语音增强的复平面谱减法[J].南京理工大学学报,2013,37(6):857-862. 被引量：6
5张晓俊,陶智,吴迪,肖仲喆,赵鹤鸣.采用多特征组合优化的语音特征参数研究[J].通信技术,2012,45(12):98-100. 被引量：4
6殷晓辉.基于改进K-SVD算法的傅里叶叠层成像识别技术研究[J].生命科学仪器,2018,16(6):46-49.
7周国鑫,高勇.基于GMM-UBM模型的说话人辨识研究[J].无线电工程,2014,44(12):14-17. 被引量：5
8吴伟,李艳雄,王梓里,陈祝允.基于语速差异的新闻发布会中首要说话人检测[J].计算机工程与应用,2015,51(4):222-225.
9范引娣.基于分布结构约束稀疏表示的图像分类方法[J].计算机与现代化,2015(7):73-76. 被引量：1
10文伟,王英华,冯博,刘宏伟.基于监督非相干字典学习的极化SAR图像舰船目标检测[J].自动化学报,2015,41(11):1926-1940. 被引量：6

同被引文献19

1蒋晔,唐振民.短语音说话人辨认的研究[J].电子学报,2011,39(4):953-957. 被引量：6
2栗志意,张卫强,何亮,刘加.基于总体变化子空间自适应的i-vector说话人识别系统研究[J].自动化学报,2014,40(8):1836-1840. 被引量：17
3吴文昭.基于多约简α-GMM和SVM的说话人确认[J].兰州理工大学学报,2015,41(4):113-116. 被引量：1
4李作强,高勇.基于CFCC和相位信息的鲁棒性说话人辨识[J].计算机工程与应用,2015,51(17):228-232. 被引量：6
5王群,曾庆宁,郑展恒.低信噪比环境下的麦克风阵列语音识别算法研究[J].科学技术与工程,2017,17(31):101-107. 被引量：7
6戚龙,赵丹.基于BP神经网络的非特定人语音识别算法[J].科学技术与工程,2017,17(31):277-282. 被引量：12
7仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报,2018,43(2):263-272. 被引量：11
8艾斯卡尔·肉孜,王东,李蓝天,郑方,张晓东,金磐石.说话人识别中的分数域语速归一化[J].清华大学学报（自然科学版）,2018,58(4):337-341. 被引量：4
9CHEN Chen,HAN Jiqing.Partial Least Squares Based Total Variability Space Modeling for I-Vector Speaker Verification[J].Chinese Journal of Electronics,2018,27(6):1229-1233. 被引量：4
10王昕,张洪冉.基于DNN处理的鲁棒性I-Vector说话人识别算法[J].计算机工程与应用,2018,54(22):167-172. 被引量：11

引证文献3

1赵宏,岳鲁鹏,常兆斌,王伟杰.基于多特征I-Vector的说话人识别算法[J].兰州理工大学学报,2021,47(5):93-98. 被引量：1
2肜娅峰,陈晨,陈德运,何勇军.基于贝叶斯主成分分析的i-vector说话人确认方法[J].电子学报,2021,49(11):2186-2194. 被引量：2
3汪兰兰,蔡昌新.基于改进线性预测基音频率的语音情感识别系统[J].科学技术与工程,2022,22(26):11524-11532. 被引量：3

二级引证文献6

1于佳祺,简志华,徐嘉,游林,汪云路,吴超.基于联合特征与随机森林的伪装语音检测[J].电信科学,2022,38(6):91-99. 被引量：4
2房小绵.基于语音识别的英语智能对话机器人人机交互系统设计[J].自动化与仪器仪表,2023(4):225-228. 被引量：2
3赖万钦,雷筱珍.基于GMMs算法的说话人身份识别系统研究与实现[J].闽江学院学报,2023,44(2):31-40. 被引量：2
4毕忠勤,李欢峰,张伟娜,董真.基于域泛化的工业设备无监督异常声音检测算法[J].科学技术与工程,2024,24(3):1091-1099.
5景维鹏,肖庆欣,罗辉.基于概率球面判别分析的说话人识别信道补偿算法[J].计算机应用,2024,44(2):556-562.
6韩西,梁凯,岳宇.基于音频匹配的藏语驱动视觉语音合成算法研究[J].吉林大学学报（信息科学版）,2024,42(3):509-515.

1王贡勇.存货物联网建设中信息化管理对策[J].科技经济导刊,2018(25):248-248.
2文思进,高勇.一种鲁棒性听觉特征的说话人确认系统[J].无线电工程,2019,49(7):606-610.
3龚铖,琚炜.基于I-Vector的多核学习SVM的说话人确认系统[J].微型机与应用,2017,36(22):15-18. 被引量：1
4李璟.浅谈程刘龙天老师声乐演唱中正确声音理念的教学[J].最漫画·学校体音美,2018,0(18):00155-00155.
5邹丽,蔡希彪,孙静,孙福明.基于双图正则的半监督NMF混合像元解混算法[J].计算机科学,2018,45(12):251-254.
6李波,张晓力,石旭.基于Matlab的语音信号加密处理[J].信息记录材料,2019,20(4):89-90.
7梁丽香,张翠翠.数字媒体技术专业计算机图形学实验教学探索[J].电脑知识与技术,2018,14(10X):182-183.
8王敦泽.一种采用三次指数的语音基音轨迹平滑算法[J].电声技术,2019,43(3):25-28.
9吴政.导体直流电阻测量不确定度数据分析[J].科学与信息化,2018,0(11):78-78.
10汪纪英.信息技术在初中化学教学中的应用[J].甘肃教育,2019(9):123-123.

电子学报

2019年第6期

浏览历史

内容加载中请稍等...

加性噪声条件下鲁棒说话人确认被引量：3

参考文献6

二级参考文献173

共引文献130

同被引文献19

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

加性噪声条件下鲁棒说话人确认 被引量：3

参考文献6

二级参考文献173

共引文献130

同被引文献19

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

加性噪声条件下鲁棒说话人确认被引量：3