-
题名多说话人分离与目标说话人提取的研究现状与展望
- 1
-
-
作者
鲍长春
杨雪
-
机构
北京工业大学信息科学技术学院语音与音频信息处理研究所
-
出处
《数据采集与处理》
CSCD
北大核心
2024年第5期1044-1061,共18页
-
基金
国家自然科学基金(61831019)。
-
文摘
语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题,旨在从混合信号中分离出说话人的语音信号。近年来,研究人员提出了大量的语音分离方法,显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先,根据目标说话人的辅助信息利用与否,将语音分离方法分为两大类,即多说话人分离与目标说话人提取;其次,从传统到基于深度学习的角度,分别对多说话人分离和目标说话人提取两类方法进行详细介绍;最后,讨论了当前语音分离领域面临的一些挑战,并对未来的研究方向进行展望。
-
关键词
语音分离
鸡尾酒会问题
多说话人分离
目标说话人提取
深度学习
-
Keywords
speech separation
cocktail party problem
multi-speaker separation
target speaker extraction
deep learning
-
分类号
TN912.3
[电子电信—通信与信息系统]
TP183
[电子电信—信息与通信工程]
-
-
题名说话人感知的交叉注意力说话人提取网络
- 2
-
-
作者
李卓璋
许柏炎
蔡瑞初
郝志峰
-
机构
广东工业大学计算机学院
汕头大学理学院
-
出处
《广东工业大学学报》
CAS
2024年第3期91-101,共11页
-
基金
科技创新2030-“新一代人工智能”重大项目(2021ZD0111501)
国家优秀青年科学基金资助项目(62122022)
国家自然科学基金资助项目(61876043,61976052,62206064)。
-
文摘
目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息。现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音频嵌入和注册音频嵌入的交互学习机制。以上不足导致了现有研究工作在注册音频和目标音频之间存在较大差异时有说话人混淆问题。为了解决该问题,提出说话人感知的交叉注意力说话人提取网络(Speaker-aware Cross Attention Speaker Extraction Network,SACAN)。SACAN在说话人识别辅助网络引入基于注意力的说话人聚合模块,有效聚合目标说话人声音特性的关键信息和利用混合音频增强目标说话人嵌入。进一步地,SACAN通过交叉注意力构建交互学习机制促进说话人嵌入与混合音频嵌入融合学习,增强了模型的说话人感知能力。实验结果表明,SACAN相比基准方法在STOI和SI-SDRi分别提高了0.013 3、1.069 5 d B,并在说话人混淆相关评估和消融实验中验证了不同模块的有效性。
-
关键词
语音分离
目标说话人提取
说话人嵌入
交叉注意力
多任务学习
-
Keywords
speech separation
target speaker extraction
speaker embedding
cross attention
multi-task learning
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的目标说话人语音提取
- 3
-
-
作者
王志雄
-
机构
湖南财经工业职业技术学院汽车工程学院
-
出处
《电脑知识与技术》
2024年第10期37-40,共4页
-
文摘
人类能够在多人交谈的复杂环境中专注并识别目标说话人的语音,而现有机器技术尚未完全达到这一水平。针对这一实际应用场景,本文提出了一种时域目标说话人语音提取网络架构,该架构无需将混合语音分解为幅度谱和相位谱,而是直接将其转换为嵌入系数,从而规避了复杂的相位估计。该网络由四个关键部分构成,即说话人辅助网络、语音编码器、目标说话人语音提取器以及语音解码器。具体而言,语音编码器负责将混合语音转化为嵌入系数;说话人辅助网络则通过学习以说话人嵌入形式表示目标说话人特征;目标说话人语音提取器以嵌入系数与目标说话人嵌入作为输入,进而估计出一个接收掩模;最后,语音解码器根据处理过的嵌入系数重新构造出目标说话人的语音。实验结果显示,在开放评测环境下,相较于基准模型,所提方法在SDR(Signal-to-Distortion Ratio)和SI-SDR(Source-to-Interference Signal-to-Distortion Ratio)指标上分别取得了相对提升2.62dB和2.52dB的成绩。实验结果有力证明了该方法具有更好的抗干扰性和泛化性能。
-
关键词
单通道
目标说话人语音提取
时域语音信号
泛化性
语音编码器
语音解码器
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-