期刊文献+
共找到141篇文章
< 1 2 8 >
每页显示 20 50 100
语音转换及相关技术综述 被引量:34
1
作者 李波 王成友 +2 位作者 蔡宣平 唐朝京 张尔扬 《通信学报》 EI CSCD 北大核心 2004年第5期109-118,共10页
给出了语音转换的定义,介绍了语音转换的用途,分析了表征说话人个性特征的语音参数,研究了语音转换的系统结构,对语音转换的实现主要从频谱包络和韵律两个方面的转换进行了研究讨论,分析并介绍了语音转换现在的发展水平及存在的问题。
关键词 语音处理 语音转换 频谱包络 韵律特征
下载PDF
语音伪造及检测技术研究综述 被引量:19
2
作者 任延珍 刘晨雨 +1 位作者 刘武洋 王丽娜 《信号处理》 CSCD 北大核心 2021年第12期2412-2439,共28页
语音承载着人类语言和说话人身份信息,通过语音伪造技术可以精确模仿目标说话人的声音以达到欺骗人或机器听觉的目的。目前,深度伪造(Deepfake)正在对全球的政治经济及社会稳定带来极大的威胁,其中语音伪造是Deepfake实现舆论操控的核... 语音承载着人类语言和说话人身份信息,通过语音伪造技术可以精确模仿目标说话人的声音以达到欺骗人或机器听觉的目的。目前,深度伪造(Deepfake)正在对全球的政治经济及社会稳定带来极大的威胁,其中语音伪造是Deepfake实现舆论操控的核心技术之一。近年来语音伪造技术在拟人度、自然度方面有了显著进步,使得语音伪造检测技术面临着更大的挑战。本文对当前主流的语音伪造和伪造语音检测技术研究现状进行综述,主要包括:1)对主流语音伪造技术,包括语音合成、语音转换和语音对抗样本的基本概念、技术发展历程和研究进展进行综述;2)对伪造语音检测技术的基本概念、性能评价指标、主要技术实现原理和性能效果进行综述;3)对伪造语音检测相关的主流竞赛、常用数据集和可用代码工具资源进行介绍;最后对语音伪造和检测技术现存的挑战性问题和未来的研究方向进行讨论。 展开更多
关键词 语音伪造 语音伪造检测 语音合成 语音转换 说话人验证 对抗样本
下载PDF
基于语音频谱包络抽取的MFCC算法 被引量:4
3
作者 李波 王成友 +2 位作者 杨聪 蔡宣平 张尔扬 《国防科技大学学报》 EI CAS CSCD 北大核心 2004年第4期42-45,共4页
MFCC可以更加准确地表示语音低频处的频谱包络,在语音转换中是一种很好的频谱包络表示方法;提出一种新的有效的求解MFCC的算法,先对频谱通过谐波抽取得到阶梯谱包络,再对阶梯谱包络进行Mel尺度变换,最后通过余弦变换求得MFCC参数。该方... MFCC可以更加准确地表示语音低频处的频谱包络,在语音转换中是一种很好的频谱包络表示方法;提出一种新的有效的求解MFCC的算法,先对频谱通过谐波抽取得到阶梯谱包络,再对阶梯谱包络进行Mel尺度变换,最后通过余弦变换求得MFCC参数。该方法实现简单,运算结果准确。 展开更多
关键词 语音处理 MFCC 语音识别 说话人识别 语音转换
下载PDF
基于卷积非负矩阵分解的语音转换方法 被引量:12
4
作者 孙健 张雄伟 +2 位作者 曹铁勇 杨吉斌 孙新建 《数据采集与处理》 CSCD 北大核心 2013年第2期141-148,共8页
为了在语音转换过程中充分考虑语音的帧间相关性,提出了一种基于卷积非负矩阵分解的语音转换方法。卷积非负矩阵分解得到的时频基可较好地保存语音信号中的个人特征信息及帧间相关性。利用这一特性,在训练阶段,通过卷积非负矩阵分解从... 为了在语音转换过程中充分考虑语音的帧间相关性,提出了一种基于卷积非负矩阵分解的语音转换方法。卷积非负矩阵分解得到的时频基可较好地保存语音信号中的个人特征信息及帧间相关性。利用这一特性,在训练阶段,通过卷积非负矩阵分解从训练数据中提取源说话人和目标说话人相匹配的时频基。在转换阶段,通过时频基替换实现对源说话人语音的转换。相对于传统方法,本方法能够更好地保存和转换语音帧间相关性。实验仿真及主、客观评价结果表明,与基于高斯混合模型、状态空间模型的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度。 展开更多
关键词 语音转换 卷积非负矩阵分解 时频基
下载PDF
基于遗传径向基神经网络的声音转换 被引量:3
5
作者 左国玉 刘文举 阮晓钢 《中文信息学报》 CSCD 北大核心 2004年第1期78-84,共7页
声音转换技术可以将一个人的语音模式转换为与其特性不同的另一个人语音模式 ,使转换语音保持源说话人原有语音信息内容不变 ,而具有目标说话人的声音特点。本文研究了由遗传算法训练的RBF神经网络捕获说话人的语音频谱包络映射关系 ,... 声音转换技术可以将一个人的语音模式转换为与其特性不同的另一个人语音模式 ,使转换语音保持源说话人原有语音信息内容不变 ,而具有目标说话人的声音特点。本文研究了由遗传算法训练的RBF神经网络捕获说话人的语音频谱包络映射关系 ,以实现不同说话人之间声音特性的转换。实验对六个普通话单元音音素的转换语音质量分别作了客观和主观评估 ,结果表明用神经网络方法可以获得所期望的转换语音性能。实验结果还说明 ,与K -均值法相比 ,用遗传算法训练神经网络可以增强网络的全局寻优能力 ,使转换语音与目标语音的平均频谱失真距离减小约 10 %。 展开更多
关键词 人工智能 自然语言处理 声音转换 RBF神经网络 遗传算法 线谱频
下载PDF
语音转换技术研究现状及展望 被引量:9
6
作者 张雄伟 苗晓孔 +2 位作者 曾歆 孙蒙 曹铁勇 《数据采集与处理》 CSCD 北大核心 2019年第5期753-770,共18页
语音转换通常是指将一个人的声音个性化特征通过“修改变换”,使之听起来像另外一个人的 声音,同时保持说话内容信息不变。近年来,随着信息处理和机器学习技术的快速发展,语音转换技术 也得到了突飞猛进的进步。为此,在简要介绍语音转... 语音转换通常是指将一个人的声音个性化特征通过“修改变换”,使之听起来像另外一个人的 声音,同时保持说话内容信息不变。近年来,随着信息处理和机器学习技术的快速发展,语音转换技术 也得到了突飞猛进的进步。为此,在简要介绍语音转换基本概念的基础上,重点综述了近几年语音转 换的典型模型和方法,分析了语音转换的关键技术,列举了语音转换技术的主要应用场景,梳理了目前 语音转换中仍存在的若干技术问题,并展望了语音转换研究的发展方向。 展开更多
关键词 语音处理 语音转换 神经网络 频谱转换 韵律转换
下载PDF
非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换 被引量:10
7
作者 李燕萍 曹盼 +2 位作者 石杨 张燕 钱博 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第3期322-329,共8页
提出了1种基于变分自编码器和辅助分类器生成对抗网络的语音转换方法,实现了非平行文本条件下多对多的高质量语音转换.在该方法中,利用辅助分类器生成对抗网络替代基于变分自编码器和生成对抗网络模型中的Wasserstein生成对抗网络.由于... 提出了1种基于变分自编码器和辅助分类器生成对抗网络的语音转换方法,实现了非平行文本条件下多对多的高质量语音转换.在该方法中,利用辅助分类器生成对抗网络替代基于变分自编码器和生成对抗网络模型中的Wasserstein生成对抗网络.由于辅助分类器生成对抗网络将特征样本的类别标签作为辅助信息,其鉴别器不仅能预测样本真假,还能预测生成样本所属的类别,从而提高了生成对抗网络的生成效果.充分的客观和主观评价表明:本文提出的方法明显优于基准模型,在显著改善语音质量的同时也有效提升了说话人个性的相似度. 展开更多
关键词 语音转换 变分自编码器 非平行文本 辅助分类器生成对抗网络 多对多
下载PDF
基于深度神经网络的汉语语音合成的研究 被引量:10
8
作者 王坚 张媛媛 《计算机科学》 CSCD 北大核心 2015年第S1期75-78,共4页
为了提高基于HMM的语音合成的音质,探讨了不同的结构和参数对深度神经网络(DNN)训练的影响,并证明了DNN判别S/U/V的有效性;完成了DNN对HMM合成系统的合成语音谱参向原始语音进行转换。进一步地,探讨了对暂时分解(TD)算法得到的参数进行... 为了提高基于HMM的语音合成的音质,探讨了不同的结构和参数对深度神经网络(DNN)训练的影响,并证明了DNN判别S/U/V的有效性;完成了DNN对HMM合成系统的合成语音谱参向原始语音进行转换。进一步地,探讨了对暂时分解(TD)算法得到的参数进行转换的方案,对TD分解得到的事件向量进行DNN训练,建立转换模型,并同未转换的事件函数进行再合成。实验证明,用DNN转换合成后的频谱更接近原始频谱;主观评测表明,该方法能有效地改善合成语音的音质。 展开更多
关键词 HTS DNN 深度学习 声音转换 暂时分解
下载PDF
语音欺骗检测方法的研究现状及展望 被引量:10
9
作者 张雄伟 李嘉康 +1 位作者 孙蒙 郑琳琳 《数据采集与处理》 CSCD 北大核心 2020年第5期807-823,共17页
语音欺骗是指通过录音、语音合成(Text⁃to⁃speech,TTS)、语音转换(Voice conversion,VC)等手段,将一段非法的、未经过自动说话人验证(Automatic speaker verification,ASV)系统认证的声音进行“修改仿冒”,以达到通过ASV系统检测的目的... 语音欺骗是指通过录音、语音合成(Text⁃to⁃speech,TTS)、语音转换(Voice conversion,VC)等手段,将一段非法的、未经过自动说话人验证(Automatic speaker verification,ASV)系统认证的声音进行“修改仿冒”,以达到通过ASV系统检测的目的。随着人工智能和语音欺骗技术的发展,ASV系统在安全性方面遇到了严峻的挑战。检测输入ASV系统的语音的真实性,防止欺骗语音通过ASV的验证以提高ASV系统的安全性,是近年来语音领域研究的一个热点问题。国内外学者的最新研究从声学特征选取、识别模型选择等角度出发,探索了不同的语音欺骗方法对ASV系统的影响,并深入研究了相应的语音欺骗检测技术,在一定程度上提高了ASV系统的防欺骗性能。本文介绍了语音欺骗的基本方法,给出了语音欺骗检测的框架和典型声学特征,分两大类别总结了语音欺骗检测的主要方法和最新进展,梳理了目前语音欺骗检测中仍然存在的若干技术问题,并对语音欺骗检测技术的发展方向进行了展望。 展开更多
关键词 语音欺骗检测 语音合成(TTS) 语音转换(VC) 说话人验证 ASVspoof
下载PDF
电子伪装语音的变声规律研究 被引量:9
10
作者 张桂清 金怡珠 +1 位作者 刘红伟 崔效义 《证据科学》 2010年第4期503-509,共7页
本文以目前社会上流行的两款不同类别的电子伪装语音器材为对象,对多名实验对象变声前、后的声学特征(基频、共振峰、声调、能量和过零率等)进行了深入的实验分析。实验结果和分析表明,变声相对于原声,其声学特征变化是有规律的,根据这... 本文以目前社会上流行的两款不同类别的电子伪装语音器材为对象,对多名实验对象变声前、后的声学特征(基频、共振峰、声调、能量和过零率等)进行了深入的实验分析。实验结果和分析表明,变声相对于原声,其声学特征变化是有规律的,根据这一声学特征变化规律,对变声语音逆变声就能得到与原声符合很好的恢复语音,这为深入开展对经过电子伪装的语音进行同一人鉴定奠定了基础。 展开更多
关键词 电子伪装语音 变声规律 声学特征 同一人鉴定
原文传递
基于深度学习的语音合成与转换技术综述 被引量:9
11
作者 潘孝勤 芦天亮 +1 位作者 杜彦辉 仝鑫 《计算机科学》 CSCD 北大核心 2021年第8期200-208,共9页
语音信息处理技术在深度学习的推动下发展迅速,其中语音合成和转换技术相结合能实现实时高保真的指定对象、内容的语音输出,在人机交互、泛娱乐等领域具有广泛的应用前景。文中旨在对基于深度学习的语音合成与转换技术进行综述。首先,... 语音信息处理技术在深度学习的推动下发展迅速,其中语音合成和转换技术相结合能实现实时高保真的指定对象、内容的语音输出,在人机交互、泛娱乐等领域具有广泛的应用前景。文中旨在对基于深度学习的语音合成与转换技术进行综述。首先,简要回顾了语音合成和转换技术的发展历程;接着,列举了在语音合成、转换领域的常见公开数据集以便研究者开展相关探索;然后,讨论了从文本到语音模型,包括在风格、韵律、速度等方面进行改进的经典和前沿的模型、算法,并分别对比评述了其效果与发展潜力;进一步针对语音转换进行综述,归纳总结了转换方法与优化思路;最后,总结了语音合成与转换的应用与挑战,并根据其在模型、应用和规范方面所面临的问题,展望了未来在模型压缩、少样本学习和伪造检测方面的发展方向。 展开更多
关键词 语音信息处理 语音合成 语音转换 深度学习 生成对抗网络
下载PDF
基于GMM模型和LPC-MFCC联合特征的声道谱转换研究 被引量:8
12
作者 曾歆 张雄伟 +2 位作者 孙蒙 苗晓孔 姚琨 《声学技术》 CSCD 北大核心 2020年第4期451-455,共5页
声道谱转换是语音转换中的关键技术。目前,大多数语音转换方法对声道谱的转换都是先提取语音中的某一种声道特征参数,然后对其进行训练转换,进而合成转换语音。由于不同的声道特征参数表征着不同的物理和声学意义,因此这些方法通常忽略... 声道谱转换是语音转换中的关键技术。目前,大多数语音转换方法对声道谱的转换都是先提取语音中的某一种声道特征参数,然后对其进行训练转换,进而合成转换语音。由于不同的声道特征参数表征着不同的物理和声学意义,因此这些方法通常忽略了不同声道特征参数之间可能存在的互补性。针对这一问题,研究了不同声道特征参数之间进行联合建模的方法,引入了一种由线性预测系数(LinearPredictionCoefficient,LPC)和梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)联合构成的LPC-MFCC特征参数,提出了一种基于高斯混合模型(Gaussian Mixture Model, GMM)和LPC-MFCC联合特征参数的语音转换方法。为验证文中方法的有效性,仿真实验选取了基于GMM和LPC的语音转换方法进行对比,对多组实验数据进行主观和客观测试,结果表明,文中提出的语音转换方法可以获得相似度更高的转换语音。 展开更多
关键词 语音转换 声道谱转换 高斯混合模型 联合建模 线性预测系数-梅尔频率倒谱系数
下载PDF
基于自适应粒子群优化径向基函数神经网络的语音转换 被引量:8
13
作者 张玲华 姚绍芹 解伟超 《数据采集与处理》 CSCD 北大核心 2015年第2期336-343,共8页
语音转换是指在保持源说话人语义内容不变的前提下,通过改变源说话人的个性特征,使其听起来像目标说话人的语音。本文提出一种自适应粒子群优化算法训练径向基函数神经网络进行语音特征建模,以获取说话人谱包络的映射关系;此外,考虑到... 语音转换是指在保持源说话人语义内容不变的前提下,通过改变源说话人的个性特征,使其听起来像目标说话人的语音。本文提出一种自适应粒子群优化算法训练径向基函数神经网络进行语音特征建模,以获取说话人谱包络的映射关系;此外,考虑到说话人谱包络参数与基频有着密切的联系,利用基于径向基函数神经网络的联合谱包络基频变换方法,将谱包络参数与基频联合进行建模和转换,使得转换后的基频含有更多的说话人个性特征。最后,运用主、客观方法对获得的转换语音进行性能测试。实验表明,与主流的基于高斯混合模型的语音转换相比,使用自适应粒子群优化的径向基函数神经网络方法能够获得更好的转换性能,且更加适用于男声到女声的转换。 展开更多
关键词 语音转换 径向基函数神经网络 自适应粒子群优化 高斯混合模型 基频
下载PDF
语音合成及伪造、鉴伪技术综述 被引量:8
14
作者 杨帅 乔凯 +2 位作者 陈健 王林元 闫镔 《计算机系统应用》 2022年第7期12-22,共11页
近年来随着移动智能设备的兴起,人们越来越频繁的接触和使用语音信息,语音伪造和鉴伪成为语音处理领域中愈加重要的技术.本文首先梳理了语音合成系统的一般流程,并对语音伪造领域中主要的文本到语音(textto-speech,TTS)和语音转换(voice... 近年来随着移动智能设备的兴起,人们越来越频繁的接触和使用语音信息,语音伪造和鉴伪成为语音处理领域中愈加重要的技术.本文首先梳理了语音合成系统的一般流程,并对语音伪造领域中主要的文本到语音(textto-speech,TTS)和语音转换(voice conversion,VC)两项技术进行系统归纳;接着,对语音鉴伪技术中常见的算法进行介绍和分类;最后,针对语音伪造和鉴伪目前存在的问题,本文从数据、模型、训练方法以及应用场景等多个角度出发提出未来可能的发展方向. 展开更多
关键词 语音伪造 神经网络 频谱转换 检测技术 语音合成
下载PDF
A modified voice conversion algorithm using compressed sensing 被引量:8
15
作者 JIAN Zhihua WANG Xiangwen 《Chinese Journal of Acoustics》 2014年第3期323-333,共11页
A voice conversion algorithm,which makes use of the information between continuous frames of speech by compressed sensing,is proposed in this paper.According to the sparsity property of the concatenated vector of seve... A voice conversion algorithm,which makes use of the information between continuous frames of speech by compressed sensing,is proposed in this paper.According to the sparsity property of the concatenated vector of several continuous Linear Spectrum Pairs(LSP)in the discrete cosine transformation domain,this paper utilizes compressed sensing to extract the compressed vector from the concatenated LSPs and uses it as the feature vector to train the conversion function.The results of evaluations demonstrate that the performance of this approach can averagely improve 3.21%with the conventional algorithm based on weighted frequency warping when choosing the appropriate numbers of speech frame.The experimental results also illustrate that the performance of voice conversion system can be improved by taking full advantage of the inter-frame information,because those information can make the converted speech remain the more stable acoustic properties which is inherent in inter-frames. 展开更多
关键词 LPCC A modified voice conversion algorithm using compressed sensing GMM LSP
原文传递
高斯混合模型参数估值算法的优化 被引量:7
16
作者 翟继友 张鹏 《计算机技术与发展》 2011年第11期145-148,共4页
EM算法是高斯混合模型参数估值的常用方法,该算法有局部收敛的特性,易造成模型的参数估计对于初值较为敏感,往往得到一个局部的最优值。为了对EM算法进行优化,文中将具有全局寻优和并行搜索特性的遗传算法与EM算法相结合,对其加以改进,... EM算法是高斯混合模型参数估值的常用方法,该算法有局部收敛的特性,易造成模型的参数估计对于初值较为敏感,往往得到一个局部的最优值。为了对EM算法进行优化,文中将具有全局寻优和并行搜索特性的遗传算法与EM算法相结合,对其加以改进,并用到语音转换过程之中,最后通过仿真实验分析了算法的性能,结果表明使用优化算法得出的高斯混合模型所转换出来的语音,相对于传统EM估计算法得出的高斯混合模型所转换出来的语音,具有较小的失真测度值,证明使用该优化算法能够改善转换后的语音质量。 展开更多
关键词 EM算法 高斯混合模型 语音转换
下载PDF
基于LPC残差用频域法来实现基音周期变换 被引量:4
17
作者 李波 王成友 +2 位作者 杨聪 蔡宣平 张尔扬 《国防科技大学学报》 EI CAS CSCD 北大核心 2005年第1期89-92,共4页
基音周期变换是文—语转换和语音转换的重要内容。在语音转换中有很多作者主张基于LPC分析来实现语音转换,通过直接或间接调整LPC系数来实现频谱包络的转换,而基音周期的转换则通过对LPC激励谱或LPC残差的处理来实现。提出对LPC残差用... 基音周期变换是文—语转换和语音转换的重要内容。在语音转换中有很多作者主张基于LPC分析来实现语音转换,通过直接或间接调整LPC系数来实现频谱包络的转换,而基音周期的转换则通过对LPC激励谱或LPC残差的处理来实现。提出对LPC残差用频域法来进行处理,得到改变了基音周期的LPC残差,从而实现语音的基音周期的变换。这种方法也可以用于文—语转换的基音周期改变中。 展开更多
关键词 文—语转换 语音转换 基音周期变换
下载PDF
浅谈经贸英语的特点及翻译 被引量:4
18
作者 刘长缨 《四川师范学院学报(哲学社会科学版)》 2002年第1期77-82,共6页
与普通英语相比,经贸英语有其显著的特点,因而,经贸英语就应根据其显著特点翻译,以满足其特殊的要求,这样译文才能做到准确、适当。
关键词 经贸英语 词法 句法 语体 被动语态 转换法 拆句法 翻译 修辞
下载PDF
深度伪造生成和检测技术综述 被引量:5
19
作者 张煜之 王锐芳 +2 位作者 朱亮 赵坤园 刘梦琪 《信息安全研究》 2022年第3期258-269,共12页
近年来兴起的深度伪造技术能够高度逼真地模拟和伪造音视频内容,并得到了广泛的良性和恶意应用.针对深度伪造的生成和检测,国内外专家学者进行了深入研究,并提出了相应的生成和检测方案.对现有的基于深度学习的音视频深度伪造生成技术... 近年来兴起的深度伪造技术能够高度逼真地模拟和伪造音视频内容,并得到了广泛的良性和恶意应用.针对深度伪造的生成和检测,国内外专家学者进行了深入研究,并提出了相应的生成和检测方案.对现有的基于深度学习的音视频深度伪造生成技术、检测技术、数据集以及未来研究方向进行了全面的概述和详细分析,这些工作将有助于相关人员对深度伪造的理解和对恶意深度伪造防御检测的研究. 展开更多
关键词 深度学习 深度伪造 生成技术 检测技术 人脸替换 语音转换
下载PDF
基于STRAIGHT模型和人工神经网络的语音转换 被引量:5
20
作者 张正军 杨卫英 陈赞 《电声技术》 2010年第9期49-52,共4页
采用STRAIGHT语音分析-合成模型,提取源说话人和目标说话人的基频和光滑声道谱作为表征语音特征的参数。在频谱训练阶段,把声道谱转换成MFCC参数,采用人工神经网络算法对源-目标说话人的MFCC参数进行训练映射。主观和客观试验结果表明,... 采用STRAIGHT语音分析-合成模型,提取源说话人和目标说话人的基频和光滑声道谱作为表征语音特征的参数。在频谱训练阶段,把声道谱转换成MFCC参数,采用人工神经网络算法对源-目标说话人的MFCC参数进行训练映射。主观和客观试验结果表明,该方法能取得较好的转换效果,转换语音和目标语音较接近,易于理解。 展开更多
关键词 STRAIGHT模型 人工神经网络:语音转换
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部