随着深度学习技术的发展,合成语音的质量和听感与真实自然语音越来越难以区分,这严重威胁了基于声纹识别相关应用的可靠性和安全性。现有研究从特征提取和后端二分类器两个维度上提出了各种方法用于伪造语音检测,取得了优异的效果。然而...随着深度学习技术的发展,合成语音的质量和听感与真实自然语音越来越难以区分,这严重威胁了基于声纹识别相关应用的可靠性和安全性。现有研究从特征提取和后端二分类器两个维度上提出了各种方法用于伪造语音检测,取得了优异的效果。然而,当模型面对未知的伪造类型数据时,模型检测准确率急剧下降,特别是对于跨数据集评估测试场景。受到自监督学习框架在多种语音识别下游任务成功经验的启发,提出一种基于预训练和微调结合的伪造语音检测框架。预训练使用无标签数据学习通用的语音表征,之后利用有标签的真实伪造语音数据集来微调整个网络参数,达到区分真实自然音和伪造语音的目的。该方法在ASVspoof 2019逻辑攻击数据集上的联合检测代价函数值为0.0061,等错误率(EER)值为0.19%,同时在ASVspoof 2015和Fake or Real跨数据集评测上也展现了良好的泛化能力。展开更多
欺骗语音已经对自动说话人识别系统产生严重影响。语音转换、语音合成和语音重放是对ASV系统进行欺骗的3种主要手段,但流行的欺骗检测方法使用的卷积神经网络大多层数较深、网络较复杂,不适合在移动设备以及嵌入式设备上运行。针对这一...欺骗语音已经对自动说话人识别系统产生严重影响。语音转换、语音合成和语音重放是对ASV系统进行欺骗的3种主要手段,但流行的欺骗检测方法使用的卷积神经网络大多层数较深、网络较复杂,不适合在移动设备以及嵌入式设备上运行。针对这一问题,提出一种适用于3种欺骗情况下的基于轻量型神经网络Mo⁃bileNet和GhostVLAD(Ghost Vector of Local Aggregated Descriptors)方法相结合的算法。首先对语音数据进行增广并提取常数Q倒谱系数和振幅频谱图,将其作为输入特征;然后将MobileNetV2或V3-large网络的最后一个池化层替换为GhostVLAD聚合层;最后使用端到端的优化方法对真实语音和欺骗语音进行识别。在ASVspoof 2019数据集上进行实验,结果表明该算法效果较好,相比基线系统在等错误率上分别降低了38%和13%。展开更多
文摘随着深度学习技术的发展,合成语音的质量和听感与真实自然语音越来越难以区分,这严重威胁了基于声纹识别相关应用的可靠性和安全性。现有研究从特征提取和后端二分类器两个维度上提出了各种方法用于伪造语音检测,取得了优异的效果。然而,当模型面对未知的伪造类型数据时,模型检测准确率急剧下降,特别是对于跨数据集评估测试场景。受到自监督学习框架在多种语音识别下游任务成功经验的启发,提出一种基于预训练和微调结合的伪造语音检测框架。预训练使用无标签数据学习通用的语音表征,之后利用有标签的真实伪造语音数据集来微调整个网络参数,达到区分真实自然音和伪造语音的目的。该方法在ASVspoof 2019逻辑攻击数据集上的联合检测代价函数值为0.0061,等错误率(EER)值为0.19%,同时在ASVspoof 2015和Fake or Real跨数据集评测上也展现了良好的泛化能力。
文摘欺骗语音已经对自动说话人识别系统产生严重影响。语音转换、语音合成和语音重放是对ASV系统进行欺骗的3种主要手段,但流行的欺骗检测方法使用的卷积神经网络大多层数较深、网络较复杂,不适合在移动设备以及嵌入式设备上运行。针对这一问题,提出一种适用于3种欺骗情况下的基于轻量型神经网络Mo⁃bileNet和GhostVLAD(Ghost Vector of Local Aggregated Descriptors)方法相结合的算法。首先对语音数据进行增广并提取常数Q倒谱系数和振幅频谱图,将其作为输入特征;然后将MobileNetV2或V3-large网络的最后一个池化层替换为GhostVLAD聚合层;最后使用端到端的优化方法对真实语音和欺骗语音进行识别。在ASVspoof 2019数据集上进行实验,结果表明该算法效果较好,相比基线系统在等错误率上分别降低了38%和13%。