-
题名融合多尺度特征与上下文信息的语音增强方法
- 1
-
-
作者
更藏措毛
黄鹤鸣
杨毅杰
-
机构
青海师范大学计算机学院
藏语智能信息处理及应用国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第6期138-147,共10页
-
基金
青海省基础研究计划项目(2022-ZJ-925)
国家自然科学基金(62066039)
+1 种基金
省部共建藏语智能信息处理及应用国家重点实验室自主课题(2022-SKL-002,2022-SKL-007)
2021年青海师范大学自然科学中青年项目科研基金(KJQN2021001)。
-
文摘
在语音增强中,常用自编码器结构自动提取特征,但这样得到的特征单一或者冗余且不能较好地捕获语音信号的上下文依赖关系。因此,提出一种融合多尺度特征和上下文信息的语音增强方法MSF-CI。首先,利用多尺度卷积块提取语音信号的多尺度特征,解决特征单一问题;其次,利用注意力机制关注所提取特征的空间与通道关键信息,解决特征冗余问题;最后,使用门控卷积循环神经网络学习语音信号中跨度较长的上下文依赖关系,并通过门控线性单元提高该网络的非线性学习能力,从而提高模型的泛化性。实验结果表明,MSF-CI在低信噪比和不同噪声环境下增强语音信号的语音感知质量、短时客观可懂度等多个指标上均优于GRN、DPT-FSNet、U-Net等同类的单通道语音增强模型。在信噪比为0 dB时,该方法的平均语音感知质量和平均语音客观可懂度达到1.49和0.761。在构建的安多藏语语料库上验证模型的泛化性,平均语音感知质量和平均语音客观可懂度相对于噪声提高了20.7%和11.3%,MSF-CI模型不仅可以提升语音的质量与可理解度,而且具有较优的泛化性。
-
关键词
语音增强
多尺度特征
注意力机制
门控卷积循环神经网络
对数能量谱
-
Keywords
speech enhancement
multi-scale feature
attention mechanism
Gated Convolutional Recurrent Neural(GCRN)network
logarithmic power spectrum(lps)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-