期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
融合多尺度特征与上下文信息的语音增强方法
1
作者 更藏措毛 黄鹤鸣 杨毅杰 《计算机工程》 CAS CSCD 北大核心 2024年第6期138-147,共10页
在语音增强中,常用自编码器结构自动提取特征,但这样得到的特征单一或者冗余且不能较好地捕获语音信号的上下文依赖关系。因此,提出一种融合多尺度特征和上下文信息的语音增强方法MSF-CI。首先,利用多尺度卷积块提取语音信号的多尺度特... 在语音增强中,常用自编码器结构自动提取特征,但这样得到的特征单一或者冗余且不能较好地捕获语音信号的上下文依赖关系。因此,提出一种融合多尺度特征和上下文信息的语音增强方法MSF-CI。首先,利用多尺度卷积块提取语音信号的多尺度特征,解决特征单一问题;其次,利用注意力机制关注所提取特征的空间与通道关键信息,解决特征冗余问题;最后,使用门控卷积循环神经网络学习语音信号中跨度较长的上下文依赖关系,并通过门控线性单元提高该网络的非线性学习能力,从而提高模型的泛化性。实验结果表明,MSF-CI在低信噪比和不同噪声环境下增强语音信号的语音感知质量、短时客观可懂度等多个指标上均优于GRN、DPT-FSNet、U-Net等同类的单通道语音增强模型。在信噪比为0 dB时,该方法的平均语音感知质量和平均语音客观可懂度达到1.49和0.761。在构建的安多藏语语料库上验证模型的泛化性,平均语音感知质量和平均语音客观可懂度相对于噪声提高了20.7%和11.3%,MSF-CI模型不仅可以提升语音的质量与可理解度,而且具有较优的泛化性。 展开更多
关键词 语音增强 多尺度特征 注意力机制 门控卷积循环神经网络 对数能量谱
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部