-
题名基于双分支注意力U-Net的语音增强方法
被引量:1
- 1
-
-
作者
曹洁
王宸章
梁浩鹏
王乔
李晓旭
-
机构
兰州理工大学计算机与通信学院
兰州城市学院信息工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第4期1112-1116,共5页
-
基金
甘肃省重点研发计划资助项目(22YF7GA130)。
-
文摘
针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征作为输入。首先利用残差连接设计了基于Conformer的残差卷积来增强网络降噪的能力。其次设计了双分支注意力机制结构,利用全局和局部注意力获取带噪语音中更丰富的上下文信息,同时有效表示长序列特征,提取更多样的特征信息。最后结合时域频域损失函数构建了加权损失函数对网络进行训练,提高网络的语音增强性能。使用了多个指标对增强语音的质量和可懂度等进行评价,在公开数据集Voice Bank+DEMAND上的增强后的语音感知质量(PESQ)为3.11,短时可懂度(STOI)为95%,信号失真度(CSIG)为4.44,噪声失真测(CBAK)为3.60,综合质量测度(COVL)为3.81,其中PESQ相较于SE-Conformer提高了7.6%,相较于TSTNN提高了5.1%。实验结果表明,所提方法在语音降噪的各个指标都表现出更优的实验结果,能够完成语音增强任务的相关要求。
-
关键词
语音增强
双分支注意力机制
时域
单通道
-
Keywords
speech enhancement
two-branch attention
time domain
single channel
-
分类号
TN912.35
[电子电信—通信与信息系统]
-
-
题名深度复数轴向自注意力卷积循环网络的语音增强
被引量:1
- 2
-
-
作者
曹洁
王乔
梁浩鹏
王宸章
李晓旭
于泓
-
机构
兰州理工大学计算机与通信学院
兰州城市学院信息工程学院
鲁东大学信息与电气工程学院
-
出处
《计算机系统应用》
2024年第4期60-68,共9页
-
基金
甘肃省重点研发计划(22YF7GA130)。
-
文摘
单通道语音增强任务中相位估计不准确会导致增强语音的质量较差,针对这一问题,提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network,DCACRN)的语音增强方法,在复数域同时实现了语音幅度信息和相位信息的增强.首先使用基于复数卷积网络的编码器从输入语音信号中提取复数表示的特征,并引入卷积跳连模块用以将特征映射到高维空间进行特征融合,加强信息间的交互和梯度的流动.然后设计了基于轴向自注意力机制的编码器-解码器结构,利用轴向自注意力机制来增强模型的时序建模能力和特征提取能力.最后通过解码器实现对语音信号的重构,同时利用混合损失函数优化网络模型,提升增强语音信号的质量.实验在公开数据集Valentini和DNS Challenge上进行,结果表明所提方法相对于其他模型在客观语音质量评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)两项指标上均有提升,在非混响数据集中,PESQ比DCTCRN(deep cosine transform convolutional recurrent network)提高了12.8%,比DCCRN(deep complex convolutional recurrent network)提高了3.9%,验证了该网络模型在语音增强任务中的有效性.
-
关键词
单通道语音增强
复数卷积循环网络
卷积跳连
轴向自注意力机制
-
Keywords
single-channel speech enhancement
complex convolutional recurrent network
convolution jump
axial self-attention mechanism
-
分类号
TN912.35
[电子电信—通信与信息系统]
TP183
[电子电信—信息与通信工程]
-