基于RefineNet的端到端语音增强方法被引量：3

RefineNet-based End-to-end Speech Enhancement

下载PDF

导出

摘要为提高神经网络对语音信号时域波形的直接处理能力,提出了一种基于RefineNet的端到端语音增强方法.本文构建了一个时频分析神经网络,模拟语音信号处理中的短时傅里叶变换,利用RefineNet网络学习含噪语音到纯净语音的特征映射.在模型训练阶段,用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility,STOI)与信源失真比(Source to distortion ratio,SDR)融入到训练的损失函数.在与具有代表性的传统方法和端到端的深度学习方法的对比实验中,本文提出的算法在客观评价指标上均取得了最好的增强效果,并且在未知噪声和低信噪比条件下表现出更好的抗噪性. In order to improve the direct processing ability of the neural network to the time domain waveform of speech signal,this paper proposes an end-to-end speech enhancement method based on RefineNet.To simulate the short-time Fourier transform,a time-frequency analysis neural network is used in speech signal processing and the RefineNet is used to learn the feature mapping of noisy speech to clean speech.The speech enhancement evaluation metric short-time objective intelligibility(STOI)and source to distortion ratio(SDR)are integrated into the training loss function in the model training phase by using the multi-objective joint optimization training strategy.Experiments show that the proposed method consistently outperforms conventional methods and end-to-end deep learning methods on objective evaluation metric and has better noise immunity under unseen noise and low SNR conditions than other methods.

作者蓝天彭川李森钱宇欣陈聪刘峤 LAN Tian;PENG Chuan;LI Sen;QIAN Yu-Xin;CHEN Cong;LIU Qiao(School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu 610054;CETC Big Data Research Institute Co.,Ltd.,Guiyang 550008)

机构地区电子科技大学信息与软件工程学院中电科大数据研究院有限公司

出处《自动化学报》 EI CAS CSCD 北大核心 2022年第2期554-563,共10页 Acta Automatica Sinica

基金国家自然科学基金(U19B2028,61772117) 科技委创新特区项目(19-163-21-TS-001-042-01) 提升政府治理能力大数据应用技术国家工程实验室重点项目(10-2018039) 四川省科技服务业示范项目(2018GFW0150) 中央高校基本科研业务费项目(ZYGX2019 J077)资助。

关键词语音增强端到端 RefineNet 多目标联合优化深度神经网络 Speech enhancement end-to-end RefineNet multi-objective joint optimization deep neural network

分类号 TN912.35 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1Kunfeng Wang,Chao Gou,Yanjie Duan,Yilun Lin,Xinhu Zheng,Fei-Yue Wang.Generative Adversarial Networks:Introduction and Outlook[J].IEEE/CAA Journal of Automatica Sinica,2017,4(4):588-598. 被引量：49
2刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：70

二级参考文献66

1Kim G, Lu Y, Hu Y, Loizou P C. An algorithm that im- proves speech intelligibility in noise for normal-hearing lis- teners. The Journal of the Acoustical Society of America, 2009, 126(3): 1486-1494. 被引量：1
2Dillon H. Hearing Aids. New York: Thieme, 2001. 被引量：1
3Allen J B. Articulation and intelligibility. Synthesis Lectures on Speech and Audio Processing, 2005, 1(1): 1-124. 被引量：1
4Seltzer M L, Raj B, Stern R M. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition. Speech Communication, 2004, 43(4): 379-393. 被引量：1
5Weninger F, Erdogan H, Watanabe S, Vincent E, Le Roux J, Hershey J R, Schuller B. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR. In: Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation. Liberec, Czech Republic: Springer International Publishing, 2015.91 -99. 被引量：1
6Weng C, Yu D, Seltzer M L, Droppo J. Deep neural networks for single-channel multi-talker speech recognition. IEEE/ ACM Transactions on Audio, Speech, and Language Pro- cessing, 2015, 23(10): 1670-1679. 被引量：1
7Boll S F. Suppression of acoustic noise in speech using spec- tral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113-120. 被引量：1
8Chen J D, Benesty J, Huang Y T, Doclo S. New insights into the noise reduction wiener filter. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4): 1218 -1234. 被引量：1
9Loizou P C. Speech Enhancement: Theory and Practice. New York: CRC Press, 2007. 被引量：1
10Liang S, Liu W J, Jiang W. A new Bayesian method incor- porating with local correlation for IBM estimation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(3): 476-487. 被引量：1

共引文献117

1侯家琛,董西松,熊刚,张俊,谭珂.平行核电:迈向智慧核电的智能技术[J].智能科学与技术学报,2019,0(2):192-201. 被引量：10
2李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：15
3王淳浩,闭家铭,阮利,魏彤羽,任宇翔,黄镇,刘云韬,纪岳天思,SAW Yinxuan,肖利民.自动驾驶安全关键场景生成技术综述[J].信息与控制,2024,53(1):17-32. 被引量：3
4慕君林,马博,王云飞,任卓,刘双喜,王金星.基于深度学习的农作物病虫害检测算法综述[J].农业机械学报,2023,54(S02):301-313. 被引量：20
5杨海龙,曾祥福,钟维良.多尺度时域单通道语音分离网络设计[J].电声技术,2021,45(10):96-99.
6黄张翼,周翊,舒晓峰,刘宏清.联合贝叶斯估计与深度神经网络的语音增强方法[J].小型微型计算机系统,2019,40(1):40-44. 被引量：5
7程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：121
8吕菲,夏秀渝.基于方位特征的听觉选择性注意计算模型研究[J].自动化学报,2017,43(4):634-644. 被引量：5
9支艳利,张云伟.基于环形麦克风阵列的远场语音识别系统[J].微型电脑应用,2017,33(4):62-64. 被引量：2
10王程,周婉,何军.面向自动音乐生成的深度递归神经网络方法[J].小型微型计算机系统,2017,38(10):2412-2416. 被引量：14

同被引文献14

1戴礼荣,张仕良.深度语音信号与信息处理:研究进展与展望[J].数据采集与处理,2014,29(2):171-179. 被引量：33
2都格草,才让卓玛,南措吉.基于谱减法的藏语语音减噪研究[J].广西科学院学报,2018,34(1):78-82. 被引量：2
3柏宇,杨欣爽,许豪,桂冠.自适应滤波器的原理与应用分析[J].中国新通信,2018,20(15):109-109. 被引量：5
4代龙翔,李冠宇,马宁.基于谱减法语音增强效果研究[J].西北民族大学学报（自然科学版）,2017,38(2):21-25. 被引量：5
5杨涵方,周向东.基于深度稀疏辨别的跨领域图像分类[J].计算机工程,2018,44(4):310-316. 被引量：5
6彭亘昌,姚干,周凯波,何顶新.基于一维卷积神经网络和i-vector的孤立词语音识别[J].信息与电脑,2018,30(4):43-46. 被引量：4
7程诚,任佳.一种基于雷达图表示的数值型数据的CNN分类方法[J].信息与控制,2019,48(4):429-436. 被引量：5
8张正文,饶鼎,巩朋成,涂斯纯.基于信号包络和互相关的双端通话检测算法研究[J].现代电子技术,2020,43(3):22-26. 被引量：3
9袁文浩,胡少东,时云龙,李钊,梁春燕.一种用于语音增强的卷积门控循环网络[J].电子学报,2020,48(7):1276-1283. 被引量：12
10刘建伟,谢浩杰,罗雄麟.生成对抗网络在各领域应用研究进展[J].自动化学报,2020,46(12):2500-2536. 被引量：35

引证文献3

1王君堡,王希,边巴旺堆.基于CNN+LSTM的藏语语音去噪算法[J].电声技术,2022,46(6):47-53. 被引量：1
2刘子巍,骆曦,李克,陈富强.基于k近邻的多尺度超球卷积神经网络学习[J].计算机工程,2022,48(11):111-119. 被引量：2
3许春冬,王茹霞,徐锦武,凌贤鹏,黄乔月.融合注意力机制的CS-BiLSTM深度回声消除算法[J].现代电子技术,2023,46(5):55-59. 被引量：2

二级引证文献5

1谢能勇.垃圾焚烧发电锅炉燃烧状态识别与主蒸汽温度预测方法[J].工业炉,2022,44(6):66-70. 被引量：1
2仲腾飞,宋剑,高加俊.音频降噪回声消除技术的应用[J].长江信息通信,2023,36(8):40-42. 被引量：3
3许春冬,黄乔月,王磊,徐锦武.融合动态场景感知和注意力机制的声学回声消除算法[J].信号处理,2024,40(2):396-405.
4汤永涛,王雪宝,王青波,刘国强.基于FastICA算法的多源固定频干扰背景下语音信号去噪[J].电脑知识与技术,2024,20(6):77-79. 被引量：2
5胡涛,王中杰,张连明,陈晓锁.基于深度学习的非结构化大数据密度聚类仿真[J].计算机仿真,2024,41(5):501-505.

1储有亮,李梁.基于DBLSTM-DCNN的骨导和气导语音转换[J].声学技术,2021,40(6):815-821.
2方莉.5G语音感知增强技术研究[J].长江信息通信,2022,35(2):188-190. 被引量：6
3高戈,曾邦,王霄,尹文兵,陈怡.基于声纹嵌入的语音增强算法[J].计算机应用研究,2022,39(3):688-692. 被引量：1
4曾庆宁,王红丽,龙超.一种微型双麦克风语音增强算法[J].现代电子技术,2022,45(6):58-64. 被引量：4
5史文献,黄国彧,吴士军,张军.某型柴油机EGR阀异响故障分析及优化[J].内燃机与配件,2022(4):106-108. 被引量：1
6陈壮,俞一彪.噪声自适应拟合补偿的鲁棒性声纹识别算法[J].声学学报,2022,47(1):151-160. 被引量：3
7王志杰,张学良.基于双路径循环神经网络的单通道语音增强[J].信号处理,2021,37(10):1872-1879. 被引量：8
8杨淇,孙桓五,张凤博.锂电SOC改进无迹卡尔曼滤波估算算法研究[J].机械设计与制造,2021(10):220-224. 被引量：4
9陈宁,秦华,褚英帆,张然.自动驾驶汽车外显界面对过街行人的行为影响研究[J].科学技术创新,2022(4):167-171.
10马伟镇,何良华.多模态医疗图像分类[J].电脑知识与技术,2022,18(3):75-77.

自动化学报

2022年第2期

浏览历史

内容加载中请稍等...

基于RefineNet的端到端语音增强方法被引量：3

参考文献2

二级参考文献66

共引文献117

同被引文献14

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于RefineNet的端到端语音增强方法 被引量：3

参考文献2

二级参考文献66

共引文献117

同被引文献14

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于RefineNet的端到端语音增强方法被引量：3