Based on W-disjoint orthogonality of speech mixtures, a space d,scnmlnative tunetlon was proposer1 to enumerate and localize competing speakers in the surrounding environments. Then, a Wiener-like postfiherer was deve...Based on W-disjoint orthogonality of speech mixtures, a space d,scnmlnative tunetlon was proposer1 to enumerate and localize competing speakers in the surrounding environments. Then, a Wiener-like postfiherer was developed to adaptively suppress interferences. Experimental results with a hands-free speech recognizer under various SNR and competing speakers settings show that nearly 69 % error reduction can be obtained with a two-channel small aperture microphone array against the conventional single microphone baseline system. Comparisons were made against traditional delay-and-sum and Griffiths-Jim adaptive beamforming techniques to further assess the effectiveness of this method.展开更多
麦克风阵列声源定位可为在复杂环境下的说话人的空间位置估计提供有效的解决方案。而传统的应用于雷达,声呐系统领域的阵列信号处理理论已趋于完美,很多应用于阵列信号处理的算法加以修改就可以用来进行麦克风阵列的声源定位。以阵列信...麦克风阵列声源定位可为在复杂环境下的说话人的空间位置估计提供有效的解决方案。而传统的应用于雷达,声呐系统领域的阵列信号处理理论已趋于完美,很多应用于阵列信号处理的算法加以修改就可以用来进行麦克风阵列的声源定位。以阵列信号处理中的经典算法MUSIC(Multiple Signal Classification)算法为原型,同时根据语音信号在应用中的特点,介绍了一种基于近场的信号模型,并以此为依据对算法进行改进,使声源定位更加精确。对此算法进行了仿真实验,仿真结果表明,此算法具有良好的定位性能,并随着信号信噪比的上升,性能有所提高。展开更多
针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方...针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方法首先利用残差卷积网络提取特征并构建距离矩阵以建模输入之间的相关性;其次通过多尺度分割和解耦头学习不同尺度下的定位信息;最后根据多尺度加权定位损失、置信度损失和分类损失优化模型,实现对关键词存在性和时域边界的细粒度预测。在LibriSpeech数据集上的实验结果表明,MF-STD在集内词的检测中,精准率和交并比分别达到97.1%和88.6%;在集外词的检测中,精准率和交并比分别达到96.7%和88.2%。与现有的语音关键词检测与定位方法相比,MF-STD的检测准确率和定位精度显著提升,充分证明该方法的先进性,也证明了多尺度特征建模与细粒度定位约束在语音关键词检测任务中的有效性。展开更多
文摘Based on W-disjoint orthogonality of speech mixtures, a space d,scnmlnative tunetlon was proposer1 to enumerate and localize competing speakers in the surrounding environments. Then, a Wiener-like postfiherer was developed to adaptively suppress interferences. Experimental results with a hands-free speech recognizer under various SNR and competing speakers settings show that nearly 69 % error reduction can be obtained with a two-channel small aperture microphone array against the conventional single microphone baseline system. Comparisons were made against traditional delay-and-sum and Griffiths-Jim adaptive beamforming techniques to further assess the effectiveness of this method.
文摘麦克风阵列声源定位可为在复杂环境下的说话人的空间位置估计提供有效的解决方案。而传统的应用于雷达,声呐系统领域的阵列信号处理理论已趋于完美,很多应用于阵列信号处理的算法加以修改就可以用来进行麦克风阵列的声源定位。以阵列信号处理中的经典算法MUSIC(Multiple Signal Classification)算法为原型,同时根据语音信号在应用中的特点,介绍了一种基于近场的信号模型,并以此为依据对算法进行改进,使声源定位更加精确。对此算法进行了仿真实验,仿真结果表明,此算法具有良好的定位性能,并随着信号信噪比的上升,性能有所提高。
文摘针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方法首先利用残差卷积网络提取特征并构建距离矩阵以建模输入之间的相关性;其次通过多尺度分割和解耦头学习不同尺度下的定位信息;最后根据多尺度加权定位损失、置信度损失和分类损失优化模型,实现对关键词存在性和时域边界的细粒度预测。在LibriSpeech数据集上的实验结果表明,MF-STD在集内词的检测中,精准率和交并比分别达到97.1%和88.6%;在集外词的检测中,精准率和交并比分别达到96.7%和88.2%。与现有的语音关键词检测与定位方法相比,MF-STD的检测准确率和定位精度显著提升,充分证明该方法的先进性,也证明了多尺度特征建模与细粒度定位约束在语音关键词检测任务中的有效性。