自适应滤波是语音增强算法中的常用技术,而算法复杂度与收敛速度是设计各种自适应算法需要首要考虑的问题.本文提出一种用于片上的语音增强自适应滤波新算法.该算法分两步实现,首先,利用一阶微分麦克风阵列,获得噪声的实时估计;其次,对...自适应滤波是语音增强算法中的常用技术,而算法复杂度与收敛速度是设计各种自适应算法需要首要考虑的问题.本文提出一种用于片上的语音增强自适应滤波新算法.该算法分两步实现,首先,利用一阶微分麦克风阵列,获得噪声的实时估计;其次,对传统的仿射投影算法(Affine projection algorithm,APA)加以改进,得到计算误差向量的快速算法,并根据估计误差动态调整搜索步长以及仿射投影维数,对带噪语音进行自适应滤波消噪.在TMS320VC5509 DSP芯片上实现该算法.实验表明,算法的自适应滤波过程具有接近递推最小二乘算法(Recursive least squares,RLS)的快速收敛速度,以及类似最小均方误差算法(Least mean squares,LMS)的低算法复杂度.展开更多
针对人工耳蜗在噪声环境下言语感知效果差,以及现有算法降噪能力不足的问题,本研究提出了一种改进的Wave-U-Net模型。通过采取轻量化卷积,引入注意力机制,改进损失函数,优化数据集结构,以提高人工耳蜗的降噪效果。使用短时客观可懂度(sh...针对人工耳蜗在噪声环境下言语感知效果差,以及现有算法降噪能力不足的问题,本研究提出了一种改进的Wave-U-Net模型。通过采取轻量化卷积,引入注意力机制,改进损失函数,优化数据集结构,以提高人工耳蜗的降噪效果。使用短时客观可懂度(short-time objective intelligibility,STOI)、语音质量评估(perceptual evaluation of speech quality,PESQ)、浮点运算次数(floating point operations per second,FLOPs)和参数量(Params)对模型的降噪效果和复杂度进行了评估,分别达到0.81、2.75,0.83 G,1.04 M。实验结果表明,本研究算法在符合人工耳蜗产品规范的基础上,实现了明显的降噪效果,提高了人工耳蜗使用者在复杂噪声环境中的语音感知效果。本研究方法为人工耳蜗算法的改进提供了新的可能,可为听力受损患者提供更好的听觉感受。展开更多
提出一种新的通用旁瓣消除器结构,它利用广义奇异值分解(Generalized singular value decomposition,GSVD)技术,通过广义奇异向量的变换间接估计声源到麦克风之间的传递函数。不同噪声环境下的实验结果表明,与现有的各种GSC算法相比,该...提出一种新的通用旁瓣消除器结构,它利用广义奇异值分解(Generalized singular value decomposition,GSVD)技术,通过广义奇异向量的变换间接估计声源到麦克风之间的传递函数。不同噪声环境下的实验结果表明,与现有的各种GSC算法相比,该算法能够更有效地抑制混响和噪声,并且增强后的语音失真最小。展开更多
为进一步提升铁路客运站嘈杂环境下的语音识别效果,文章提出一种基于Conformer的语音降噪模型ConformerGAN。其训练流程类似生成对抗网络,生成器采用Conformer进行语音特征提取,对特征建模;鉴别器使用代理评估函数对语音感知进行质量评...为进一步提升铁路客运站嘈杂环境下的语音识别效果,文章提出一种基于Conformer的语音降噪模型ConformerGAN。其训练流程类似生成对抗网络,生成器采用Conformer进行语音特征提取,对特征建模;鉴别器使用代理评估函数对语音感知进行质量评价。为增强模型的泛化能力并提高模型对未知噪声的降噪能力,在噪声的叠加上采用随机截取片段融入的方式,并构建铁路客运站场景噪声数据集。与语音降噪相关模型效果对比的结果表明,ConformerGAN模型可将客观语音质量评估(PESQ,Perceptual Evaluation of Speech Quality)分数提高0.19,有效提高铁路客运站嘈杂环境下的语音识别准确率,改善铁路旅客语音交互体验。展开更多
文摘自适应滤波是语音增强算法中的常用技术,而算法复杂度与收敛速度是设计各种自适应算法需要首要考虑的问题.本文提出一种用于片上的语音增强自适应滤波新算法.该算法分两步实现,首先,利用一阶微分麦克风阵列,获得噪声的实时估计;其次,对传统的仿射投影算法(Affine projection algorithm,APA)加以改进,得到计算误差向量的快速算法,并根据估计误差动态调整搜索步长以及仿射投影维数,对带噪语音进行自适应滤波消噪.在TMS320VC5509 DSP芯片上实现该算法.实验表明,算法的自适应滤波过程具有接近递推最小二乘算法(Recursive least squares,RLS)的快速收敛速度,以及类似最小均方误差算法(Least mean squares,LMS)的低算法复杂度.
文摘针对人工耳蜗在噪声环境下言语感知效果差,以及现有算法降噪能力不足的问题,本研究提出了一种改进的Wave-U-Net模型。通过采取轻量化卷积,引入注意力机制,改进损失函数,优化数据集结构,以提高人工耳蜗的降噪效果。使用短时客观可懂度(short-time objective intelligibility,STOI)、语音质量评估(perceptual evaluation of speech quality,PESQ)、浮点运算次数(floating point operations per second,FLOPs)和参数量(Params)对模型的降噪效果和复杂度进行了评估,分别达到0.81、2.75,0.83 G,1.04 M。实验结果表明,本研究算法在符合人工耳蜗产品规范的基础上,实现了明显的降噪效果,提高了人工耳蜗使用者在复杂噪声环境中的语音感知效果。本研究方法为人工耳蜗算法的改进提供了新的可能,可为听力受损患者提供更好的听觉感受。
文摘提出一种新的通用旁瓣消除器结构,它利用广义奇异值分解(Generalized singular value decomposition,GSVD)技术,通过广义奇异向量的变换间接估计声源到麦克风之间的传递函数。不同噪声环境下的实验结果表明,与现有的各种GSC算法相比,该算法能够更有效地抑制混响和噪声,并且增强后的语音失真最小。
文摘为进一步提升铁路客运站嘈杂环境下的语音识别效果,文章提出一种基于Conformer的语音降噪模型ConformerGAN。其训练流程类似生成对抗网络,生成器采用Conformer进行语音特征提取,对特征建模;鉴别器使用代理评估函数对语音感知进行质量评价。为增强模型的泛化能力并提高模型对未知噪声的降噪能力,在噪声的叠加上采用随机截取片段融入的方式,并构建铁路客运站场景噪声数据集。与语音降噪相关模型效果对比的结果表明,ConformerGAN模型可将客观语音质量评估(PESQ,Perceptual Evaluation of Speech Quality)分数提高0.19,有效提高铁路客运站嘈杂环境下的语音识别准确率,改善铁路旅客语音交互体验。