-
题名面向语言对话场景的智能语音交互关键技术研究
被引量:2
- 1
-
-
作者
李可
-
机构
陕西工业职业技术学院
-
出处
《自动化与仪器仪表》
2023年第8期295-299,共5页
-
基金
陕西工业职业技术学院2022年校级课题《POA视域下高职外语教学有效融通课程思政的路径研究》(2022YKYB-060)。
-
文摘
针对多语言对话场景距离的限制以及噪声、干扰和混响等多重因素的影响,导致语音信息识别质量不高的问题,提出基于卷积神经网络与多通道语音DOA估计的定位与分离,以实现对不同距离、不同声源数下语音的识别,提高语音识别质量。实验结果证明,运用卷积神经网络的DOA估计方法与多通道语音分离算法,针对同性别或不同性别说话者在不同距离、不同方位角的识别性能较高,且能对混合信号可实现较高的有效分离。
-
关键词
语言对话场景
智能语言交互技术
卷积神经网络
多语音DOA估计
多通道语音分离
-
Keywords
language dialogue scene
intelligent language interaction technology
convolutional neural network
multivoice DOA estimation
multichannel speech separation
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-
-
题名一种面向自组织麦克风网络的多通道语音分离方法
被引量:3
- 2
-
-
作者
张盛
杨剑鸣
-
机构
清华大学深圳国际研究生院
-
出处
《信号处理》
CSCD
北大核心
2021年第5期757-762,共6页
-
基金
深圳市基础学科布局项目(JCYJ20180508152046428)。
-
文摘
针对自组织麦克风网络,如何充分有效地利用多通道语音数据获得更好的语音分离性能是一个难题。本文介绍了一种新的多通道语音分离方法,通过引入压缩激励脊髓模块,在麦克风位置未知时,也能显式地学习潜在的通道关系,自适应地更新各个通道对应特征的权重,以增加少量的额外计算代价达到增强语音分离的效果。压缩激励脊髓模块通过将多通道的特征信息压缩到通道维度,获得全局通道依赖关系的表征,利用激活函数根据通道关系表征对瓶颈单元筛选出有价值的特征信息。瓶颈单元由脊髓网络组成,通过逐步输入的方式生成全局信息和重新配置权重,更有效地处理数据。本文在基于LibriSpeech仿真的多通道版本数据中进行实验,在评估指标SDR和SI-SDR上相比于单通道基线获得了明显的提升,并取得超越最先进的自组织麦克风多通道方法的效果。
-
关键词
多通道语音分离
自组织麦克风网络
深度学习
时域卷积
-
Keywords
multichannel speech separation
ad-hoc microphones
deep learning
time-domain convolution
-
分类号
TN912.3
[电子电信—通信与信息系统]
-