期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
语音伪造与鉴伪的发展与挑战 被引量:16
1
作者 陶建华 傅睿博 +2 位作者 易江燕 王成龙 汪涛 《信息安全学报》 CSCD 2020年第2期28-38,共11页
本文对语音伪造与鉴伪的发展进行了梳理与阐释。针对语音伪造的适用场景与关键技术点,分别对身份风格伪造、音色与韵律伪造、语音模拟三大核心语音伪造技术的基本概念、发展历程、优势与不足进行梳理与分析。针对语音伪造的应对技术语... 本文对语音伪造与鉴伪的发展进行了梳理与阐释。针对语音伪造的适用场景与关键技术点,分别对身份风格伪造、音色与韵律伪造、语音模拟三大核心语音伪造技术的基本概念、发展历程、优势与不足进行梳理与分析。针对语音伪造的应对技术语音鉴伪技术,首先介绍整理了针对性较强、面向参数式语音伪造、拼接式语音伪造与语音模拟技术框架的应对技术,在此基础上介绍了具有普适性更强的基于深度鉴别网络语音鉴伪研究进展。在此基础上,本文针对语音伪造技术所面临口语化、低资源的挑战,对未来多风格、低成本、鲁棒性发展趋势进行分析。对于语音鉴伪,本文从语料库、特征挖掘、异常检测三个角度对未来的研究重点进行诠释。 展开更多
关键词 语音 语音 发展与挑战
下载PDF
基于全局时频注意力网络的语音伪造检测 被引量:2
2
作者 王成龙 易江燕 +3 位作者 陶建华 马浩鑫 田正坤 傅睿博 《计算机研究与发展》 EI CSCD 北大核心 2021年第7期1466-1475,共10页
语音伪造检测是近年的一个研究热点,受到了广泛关注.目前,卷积神经网及其变种的提出,使其在语音伪造检测任务中取得了不错进展.然而,目前仍存在2方面问题:1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的,忽视了... 语音伪造检测是近年的一个研究热点,受到了广泛关注.目前,卷积神经网及其变种的提出,使其在语音伪造检测任务中取得了不错进展.然而,目前仍存在2方面问题:1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的,忽视了每一维上特征图的不同位置强调的信息是不一样的.2)此外,前人工作大多关注特征图的局部信息,没有利用全局视图中特征图之间的关系.为了解决以上挑战,引入全局时频注意力框架,分别对通道维度和时频维度做了注意力变换.具体而言,引入了2个并行的注意力模块:1)时频注意力模块;2)全局注意力模块.对于时频注意力模块,可以通过使用加权求和在所有时频特征图上聚合特征来进行更新.对于全局注意力模块,借鉴了SE-Net的思想,通过参数为每个特征通道生成权重.通过这种办法,可以得到特征通道上响应的全局分布.在ASVspoof2019 LA公开数据集上进行了一系列实验,结果显示所提的模型取得不错的效果,最佳模型的等错误率达到4.12%,刷新了单个模型的最好成绩. 展开更多
关键词 语音 注意力机制 语音造检测 全局注意力 时频注意力
下载PDF
融合CNN和Transformer编码器的变声语音鉴别与还原 被引量:1
3
作者 魏春雨 孙蒙 +1 位作者 刘伟 张星昱 《信息技术与网络安全》 2022年第1期47-54,共8页
语音变声伪装会导致人耳感知和声纹识别出现错误,从而达到隐匿说话人真实身份的目的。为削弱变声语音的影响,提出一种融合卷积神经网络(Convolutional Neural Networks,CNN)和Transformer编码器的模型,提取变声语音的局部特征和全局特... 语音变声伪装会导致人耳感知和声纹识别出现错误,从而达到隐匿说话人真实身份的目的。为削弱变声语音的影响,提出一种融合卷积神经网络(Convolutional Neural Networks,CNN)和Transformer编码器的模型,提取变声语音的局部特征和全局特征用于判别变声因子,并根据变声因子的数值实施变声语音还原。在中英文真实场景录音数据集上验证了所提方法的有效性,对变声因子判别实现了95%以上的准确率。利用所提出的方法,在黑箱条件下对某型商用硬件变声器输出的语音进行鉴别与还原,取得了较好的效果。 展开更多
关键词 基频变声 语音 变声还原 时频特征
下载PDF
基于多特征融合的语音鉴伪算法
4
作者 江婧 王润 +2 位作者 张金连 郗涛 颜普 《安徽建筑大学学报》 2020年第6期73-77,84,共6页
在网络信息高速发展的今天,大众社交软件和平台带给人们便利的同时,也滋生出一些新的诈骗手段——语音诈骗。为减少此类诈骗事件的发生,对语音鉴伪进行相关深入研究,提出一种基于多特征融合的语音鉴伪算法。由于声谱图能从图像角度完整... 在网络信息高速发展的今天,大众社交软件和平台带给人们便利的同时,也滋生出一些新的诈骗手段——语音诈骗。为减少此类诈骗事件的发生,对语音鉴伪进行相关深入研究,提出一种基于多特征融合的语音鉴伪算法。由于声谱图能从图像角度完整反映音频特征,因此首先提取声谱图灰度共生矩阵的四项指标——平均能量E、平均熵H、平均惯性矩I和相关性C;然后再融合音频信号的平均基因周期、平均短时能量、平均幅度、梅尔频率倒谱系数等特征,把融合的多维特征输入到BP神经网络,训练得到最佳的BP神经网络模型,最后通过训练后的BP神经网络对语音测试样本进行鉴别。经多次实验得出,训练得到的BP神经网络模型对语音鉴伪的准确率可达到94.1%。 展开更多
关键词 声学 语音 声谱图 BP神经网络 梅尔频率倒谱系数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部