基于听觉掩蔽生成对抗网络的单通道语音增强方法被引量：1

Adversarial generative network based on auditory masking for monaural speech enhancement

下载PDF

导出

摘要为提高语音识别系统在复杂声学场景下的识别率,出现了以单通道语音增强(Monaural Speech Enhancement)技术作为前端处理的鲁棒语音识别系统。尽管现有的单通道语音增强技术能够提高混响干扰下的识别率,却未能显著提升宽带非平稳噪声干扰下的系统识别率。为此,本文提出基于听觉掩蔽生成对抗网络的单通道增强方法,通过听觉掩蔽增强模型和判别器构成的对抗过程,来使增强后的语音特征满足目标语音的概率分布。实验结果表明,就语音识别率而言,所提出的听觉掩蔽生成对抗网络超越了现有的增强方法,能够相对减少19.50%的词错误率,显著提升语音识别系统的噪声鲁棒性。 To improve the accuracy of speech recognition system in the complex acoustic scene,monaural speech enhancement method is involved into the robust automatic speech recognition(ASR)system as a front-end processing.Although monaural speech enhancement has improved the recognition performance under the reverberant conditions,it failed to improve the accuracy of speeches interrupted by the wide-band non-stationary noises.To overcome this problem,the paper proposes the adversarial generative network based on auditory masking for monaural speech enhancement.Through the adversarial process between a discriminator and a masking-based enhancement model,the proposed method can make the enhanced speech features follow the distribution of target speeches.Experimental results show that,the proposed method outperforms current enhancement method in terms of recognition accuracy.It achieves 19.50%relative word error rate(GER)reduction for a robust ASR system,which indicates that the proposed method can further improve the noise robustness.

作者杜志浩韩纪庆 DU Zhihao;HAN Jiqing(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)

机构地区哈尔滨工业大学计算机科学与技术学院

出处《智能计算机与应用》 2021年第3期209-214,共6页 Intelligent Computer and Applications

基金国家重点研发项目(2017YFB1002102)

关键词听觉掩蔽生成对抗网络单通道语音增强鲁棒语音识别 auditory masking adversarial generative network monaural speech enhancement robust speech recognition

分类号 TN912.35 [电子电信—通信与信息系统]

引文网络
相关文献

同被引文献13

1李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱.一种改进的DNN-HMM的语音识别方法[J].应用声学,2019,38(3):371-377. 被引量：18
2朱兆彤,付学志,胡友峰.一种利用迁移学习训练卷积神经网络的声呐图像识别方法[J].水下无人系统学报,2020,28(1):89-96. 被引量：10
3黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17. 被引量：49
4毛炳强,孙铁良,孙凌祎,陈鹏,高畅.基于双神经网络结构的新型人工神经网络训练算法[J].化工自动化及仪表,2021,48(5):446-449. 被引量：4
5刘耿耿,朱予涵,郭灿阳.基于双向长短期记忆网络的共享单车流量预测[J].小型微型计算机系统,2021,42(9):1871-1876. 被引量：4
6郭晟,余乐,燕贺云,朱立东.基于DNN的OTFS系统信号检测方法[J].无线电通信技术,2021,47(6):808-814. 被引量：5
7刘俊鹏,苏劲松,黄德根.融合特定语言适配模块的多语言神经机器翻译[J].计算机科学,2022,49(1):17-23. 被引量：7
8刘飞,陈仁文,邢凯玲,丁汕汕,张迈一.基于迁移学习与深度残差网络的滚动轴承快速故障诊断算法[J].振动与冲击,2022,41(3):154-164. 被引量：49
9夏源,赵蕴龙,范其林.基于信息熵更新权重的数据流集成分类算法[J].计算机科学,2022,49(3):92-98. 被引量：16
10李果,袁小凯,黄世平.基于神经网络模型的智能电网线损估计方法[J].沈阳工业大学学报,2022,44(2):133-138. 被引量：6

引证文献1

1黄晓蓉.基于语言特征和迁移学习的英语翻译机器人纠错系统研究[J].自动化与仪器仪表,2023(1):237-240. 被引量：1

二级引证文献1

1段文婷.基于迁移学习的英语识别方法[J].电子设计工程,2023,31(7):21-24.

1谢仁礼,秦宇,罗雪倩.一种密集卷积神经网络的电视语音响度补偿方法[J].电声技术,2021,45(6):18-24.
2司书斌,赵大伟,徐婉莹,张勇刚,戴斌.视觉—惯性导航定位技术研究进展[J].中国图象图形学报,2021,26(6):1470-1482. 被引量：10
3何东,陈金令,王熙.基于改进YOLOv3的红外行人目标检测[J].中国科技论文,2021,16(7):762-769. 被引量：10
4郑彦虎,唐云,张澎,闵宇航.多尺度卡尔曼滤波语音增强算法研究[J].信息技术,2021,45(7):20-25. 被引量：1
5陈帆,黎元元,张清,谢雁鸣,高明慧.鹿瓜多肽注射液对骨折患者肝功能影响的真实世界研究[J].中国药物警戒,2021,18(6):542-546.
6蒲旭敏,吴超,杨小珑.基于深度学习的1-比特超大规模MIMO信道估计[J].电子技术应用,2021,47(8):87-90. 被引量：3
7宏爱松,李艳丰,刘保辉.基于EEMD及能量变化曲线的配电网故障选线[J].东北电力技术,2021,42(6):14-18. 被引量：2
8李凯,张永生,童晓冲,李峰.基于各向异性和边缘强度修正因子的边缘检测算法[J].计算机工程与科学,2021,43(7):1256-1263. 被引量：5
9徐佳雄,张明,王阳,程郴,何顺帆.基于改进Hilbert-Huang变换的电能质量扰动定位与分类[J].现代电力,2021,38(4):362-369. 被引量：12

智能计算机与应用

2021年第3期

浏览历史

内容加载中请稍等...

基于听觉掩蔽生成对抗网络的单通道语音增强方法被引量：1

同被引文献13

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于听觉掩蔽生成对抗网络的单通道语音增强方法 被引量：1

同被引文献13

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于听觉掩蔽生成对抗网络的单通道语音增强方法被引量：1