-
题名语音深度伪造及其检测技术研究进展
- 1
-
-
作者
许裕雄
李斌
谭舜泉
黄继武
-
机构
广东省智能信息处理重点实验室
深圳市媒体信息内容安全重点实验室
深圳大学电子与信息工程学院
深圳大学计算机与软件学院
-
出处
《中国图象图形学报》
CSCD
北大核心
2024年第8期2236-2268,共33页
-
基金
国家自然科学基金项目(U23B2022,U22B2047,62272314)
广东省基础与应用基础研究基金项目(2019B151502001)
+1 种基金
深圳市基础研究重点项目(JCYJ20200109105008228)
亚马逊云科技——2022教育部就业育人项目(20221128)。
-
文摘
语音深度伪造技术是利用深度学习方法进行合成或生成语音的技术。人工智能生成内容技术的快速迭代与优化,推动了语音深度伪造技术在伪造语音的自然度、逼真度和多样性等方面取得显著提升,同时也使得语音深度伪造检测技术面临着巨大挑战。本文对语音深度伪造及其检测技术的研究进展进行全面梳理回顾。首先,介绍以语音合成(speech synthesis,SS)和语音转换(voice conversion,VC)为代表的伪造技术。然后,介绍语音深度伪造检测领域的常用数据集和相关评价指标。在此基础上,从数据增强、特征提取和优化以及学习机制等处理流程的角度对现有的语音深度伪造检测技术进行分类与深入分析。具体而言,从语音加噪、掩码增强、信道增强和压缩增强等数据增强的角度来分析不同增强方式对伪造检测技术性能的影响,从基于手工特征的伪造检测、基于混合特征的伪造检测、基于端到端的伪造检测和基于特征融合的伪造检测等特征提取和优化的角度对比分析各类方法的优缺点,从自监督学习、对抗训练和多任务学习等学习机制的角度对伪造检测技术的训练方式进行探讨。最后,总结分析语音深度伪造检测技术存在的挑战性问题,并对未来研究进行展望。本文汇总的相关数据集和代码可在https://github.com/media-sec-lab/Audio-Deepfake-Detection访问。
-
关键词
语音深度伪造
语音深度伪造检测
语音合成(SS)
语音转换(VC)
人工智能生成内容(AIGC)
自监督学习
对抗训练
-
Keywords
speech deepfake
speech deepfake detection
speech synthesis(SS)
voice conversion(VC)
artificial intelligence-generated content(AIGC)
self-supervised learning
adversarial training
-
分类号
TN912
[电子电信—通信与信息系统]
-