期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向语言对话场景的智能语音交互关键技术研究 被引量:2
1
作者 李可 《自动化与仪器仪表》 2023年第8期295-299,共5页
针对多语言对话场景距离的限制以及噪声、干扰和混响等多重因素的影响,导致语音信息识别质量不高的问题,提出基于卷积神经网络与多通道语音DOA估计的定位与分离,以实现对不同距离、不同声源数下语音的识别,提高语音识别质量。实验结果证... 针对多语言对话场景距离的限制以及噪声、干扰和混响等多重因素的影响,导致语音信息识别质量不高的问题,提出基于卷积神经网络与多通道语音DOA估计的定位与分离,以实现对不同距离、不同声源数下语音的识别,提高语音识别质量。实验结果证明,运用卷积神经网络的DOA估计方法与多通道语音分离算法,针对同性别或不同性别说话者在不同距离、不同方位角的识别性能较高,且能对混合信号可实现较高的有效分离。 展开更多
关键词 语言对话场景 智能语言交互技术 卷积神经网络 语音DOA估计 多通道语音分离
原文传递
一种面向自组织麦克风网络的多通道语音分离方法 被引量:3
2
作者 张盛 杨剑鸣 《信号处理》 CSCD 北大核心 2021年第5期757-762,共6页
针对自组织麦克风网络,如何充分有效地利用多通道语音数据获得更好的语音分离性能是一个难题。本文介绍了一种新的多通道语音分离方法,通过引入压缩激励脊髓模块,在麦克风位置未知时,也能显式地学习潜在的通道关系,自适应地更新各个通... 针对自组织麦克风网络,如何充分有效地利用多通道语音数据获得更好的语音分离性能是一个难题。本文介绍了一种新的多通道语音分离方法,通过引入压缩激励脊髓模块,在麦克风位置未知时,也能显式地学习潜在的通道关系,自适应地更新各个通道对应特征的权重,以增加少量的额外计算代价达到增强语音分离的效果。压缩激励脊髓模块通过将多通道的特征信息压缩到通道维度,获得全局通道依赖关系的表征,利用激活函数根据通道关系表征对瓶颈单元筛选出有价值的特征信息。瓶颈单元由脊髓网络组成,通过逐步输入的方式生成全局信息和重新配置权重,更有效地处理数据。本文在基于LibriSpeech仿真的多通道版本数据中进行实验,在评估指标SDR和SI-SDR上相比于单通道基线获得了明显的提升,并取得超越最先进的自组织麦克风多通道方法的效果。 展开更多
关键词 多通道语音分离 自组织麦克风网络 深度学习 时域卷积
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部