基于声道长度对齐的年龄语音转换被引量：2

Vocal tract length aligning based mandarin age voice conversion

下载PDF

导出

摘要提出一种基于声道长度对齐的年龄语音转换方法.该方法包含频谱转换和基频转换两个方面,前者在频域依据声道因子和弯折函数对已进行基音标注过的每一帧语音的频谱进行弯折转换;后者对基频特征的转换采用线性变换方法.实验结果表明,通过对同一人不同年龄段的语音进行转换合成,由年龄较大语音向年龄较小语音转换时,转换合成得到的语音频谱平均距离得到明显减小,转换效果较好,而从年龄较小语音向年龄较大语音转换时,频谱平均距离减少较小,同时女性年龄语音转换的效果和自然度都好于男性. Vocal tract length aligning was proposed for mandarin age voice conversion which transforms age speech into some required target age speech .In the method ,the speech spectrum which has been pitch marked was warped in the frequency domain based on the warping factor and warping function while pitch was converted by linear transformation .The experimental results show that the effect of transforming old age speech into a young one is better than otherwise and that the average spectra distance of the former is markedly reduced .Meanwhile , age voice conversion is better for female voice than for male voice in effectiveness and naturalness .

作者李金中李贤汪增福

机构地区中国科学技术大学自动化系语音及语言信息处理国家工程实验室中国科学院合肥智能机械研究所

出处《中国科学技术大学学报》 CAS CSCD 北大核心 2015年第7期575-581,共7页 JUSTC

基金国家自然科学基金(61472393) 安徽省自主创新专项基金(13Z02008)资助

关键词年龄语音转换声道长度对齐基音标注声道因子弯折函数线性变换 age voice conversion vocal tract length aligning pitch marker warping factor warping function linear transformation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1Tiirk O, Arslan L M. Subband based voice conversion[C]// International Conference on Spoken LanguageProcessing. Denver,USA: IEEE Press, 2002:289-292. 被引量：1
2Tao S B, J H, Kang Y G, Li A J. Prosody conversionfrom neutral speech to emotional speech [J]. IEEETransactions on Audio, Speech, and LanguageProcessing, 2006,14(4): 1145-1154. 被引量：1
3Wu C H, Hsia C C,Lee C H, et al. Hierarchicalprosody conversion using regression-based clustering foremotional speech synthesis [J]. IEEE Transactions onAudio, Speech, and Language Processing, 2010,18(6): 1394-1405. 被引量：1
4Schotz S. Perception, analysis and synthesis of speakerage[R], Lund University, 2006. 被引量：1
5Tiirk O New methods for voice conversion[D]. MasterDegree, Yliksek Lisans Tezi. Istanbul : BogazigiUniversitesi, 2003. 被引量：1
6Toda T,Black A W,Tokuda K. Voice conversionbased on maximum-likelihood estimation of spectralparameter trajectory[J]. IEEE Transactions on Audio,Speech, and Language Processing, 2007,15 ( 8 ):2222-2235. 被引量：1
7Mashimo M, Toda T,Shikano K,et al. Evaluation ofcross-language voice conversion based on GMM andSTRAIGHT[C]// 7th European Conference on SpeechCommunication and Technology. Aalborg,Denmark:ISCA Press, 2001: 361-364. 被引量：1
8Kain A,Macon M W. Spectral voice conversion fortext-to-speech synthesis [C]// Proceedings of theInternational Conference on Acoustics, Speech andSignal Processing. Seattle, USA; IEEE Press, 1998,1: 285-288. 被引量：1
9Zeng D J,Yu Y B. Voice conversion using structuredGaussian mixture model [C]// International Conferenceon Signal Processing. Beijing, China: IEEE Press,2010: 541-544. 被引量：1
10Zhang M, Tao J H. Phoneme cluster based statedmapping for text-independent voice conversion CC]//International Conference on Acoustics,Speech, andSignal Processing. Taipei, China: IEEE Press, 2009:4281-4284. 被引量：1

二级参考文献8

1Uebel L F, Woodland P C. An investigation into vocal tract length normalization[C]. In: Proc. Eurospeech, 1999:2527-2530 被引量：1
2Wakita H. Normalization of vowels by vocal-tract length and its application to vowel identification[J]. IEEE Trans. On Acoustic, Speech and Signal Processing, 1977, 25:183-192. 被引量：1
3Claes T, Dologlou I, Bosch L T, et al. A novel feature transformation for vocal tract length normalization in automatic speech recognition[J]. IEEE Trans. on Speech and Audio Processing, 1998, 6(6): 549-557. 被引量：1
4Eide E, Gish H. A parametric approach to vocal tract length normalization[C]. In: Proc. ICASSP, 1996:346-348. 被引量：1
5Li L, Richard R. Speaker normalization using efficient warping procedures[C]. In: Proc. ICASSP, 1996:353-356. 被引量：1
6Li L, Richard R. A frequency warping approach to speaker normalization[J]. IEEE Trans. on Speech and Audio Processing,1998, 6(1): 49-60. 被引量：1
7Ono Y, Wakita H, Zhao Y-X. Speaker normalization using constrained spectra shifts in auditory filter domain[C]. In: Proc. Eurospeech, 1993:355-358. 被引量：1
8Rabiner L R, Schafer R W. Digital processing of speech signals[M]. Prentice-Hall Press, 1978. 被引量：1

共引文献1

1马瑞堂,李成荣.一种基于声道归一化自适应技术的儿童语音识别方法[J].计算机应用,2007,27(B06):130-132. 被引量：1

同被引文献17

1简志华,杨震.基于混合线性变换的语声转换算法[J].电子与信息学报,2007,29(7):1700-1702. 被引量：2
2申毅,简志华,杨震.改进的GMM模型语声转换系统[J].南京邮电大学学报（自然科学版）,2007,27(5):11-15. 被引量：2
3简志华,杨震.语声转换技术发展及展望[J].南京邮电大学学报（自然科学版）,2007,27(6):88-94. 被引量：3
4双志伟,Raimo Bakis,秦勇.IBM Voice Conversion Systems for 2007 TC-STAR Evaluation[J].Tsinghua Science and Technology,2008,13(4):510-514. 被引量：2
5方尔庆,耿新.基于视听信息的自动年龄估计方法[J].软件学报,2011,22(7):1503-1523. 被引量：5
6李力,俞一彪.采用超音段韵律特征联合短时频谱的语音转换[J].信号处理,2012,28(2):289-294. 被引量：3
7孙新建,张雄伟,杨吉斌,曹铁勇,孙健.基于隐变量模型的语音转换方法研究[J].信号处理,2012,28(3):344-351. 被引量：2
8简志华,王向文.一种用于语音转换的区域最近邻迭代训练算法[J].电子与信息学报,2012,34(9):2091-2096. 被引量：1
9陈雪勤,赵鹤鸣.有效高斯分量通用背景模型下耳语音声道系统转换研究[J].声学学报,2013,38(2):195-200. 被引量：5
10孙健,张雄伟,曹铁勇,杨吉斌,孙新建.基于卷积非负矩阵分解的语音转换方法[J].数据采集与处理,2013,28(2):141-148. 被引量：12

引证文献2

1惠琳,俞一彪.短时频谱通用背景模型群联合韵律的年龄语音转换[J].声学学报,2017,42(6):762-768. 被引量：3
2张雄伟,苗晓孔,曾歆,孙蒙,曹铁勇.语音转换技术研究现状及展望[J].数据采集与处理,2019,34(5):753-770. 被引量：9

二级引证文献12

1潘梦鹞,吕小勇,陈少伟,郇锐铁,王锋.基于AI智能语音技术线上教学的创新与实践[J].创新创业理论研究与实践,2022(24):170-173. 被引量：2
2舒炎昕,王军锋,拓江敏,李悦.a系语气词特殊发音基频的情感表现[J].应用声学,2018,37(6):947-955. 被引量：1
3卓嘎,次仁尼玛.基于Matlab的藏语语音频谱仿真和分析[J].电子设计工程,2019,27(19):170-173. 被引量：2
4鲍薇,温正棋.声音伪造与防伪检测技术研究[J].信息技术与标准化,2020(1):54-58. 被引量：1
5李智诚,张云翔.面向电力行业的智能会议录音回溯系统[J].现代计算机,2020,26(21):37-39. 被引量：1
6张雄伟,李嘉康,孙蒙,郑琳琳.语音欺骗检测方法的研究现状及展望[J].数据采集与处理,2020,35(5):807-823. 被引量：10
7郑琳琳,张雄伟,孙蒙,李嘉康,张星昱.基于i⁃vector的电子伪装语音鲁棒还原方法研究[J].数据采集与处理,2020,35(5):880-891. 被引量：1
8周迪,简志华,胡伟通,汪云路.基于双字典的噪声环境下的语音转换方法[J].小型微型计算机系统,2020,41(10):2230-2234. 被引量：1
9张雄伟,张星昱,孙蒙,邹霞.说话人验证系统攻击方法的研究现状及展望[J].数据采集与处理,2021,36(5):831-849. 被引量：3
10杨帅,乔凯,陈健,王林元,闫镔.语音合成及伪造、鉴伪技术综述[J].计算机系统应用,2022,31(7):12-22. 被引量：8

1刘婧迪,潘峮,张欣,杨大成.认知无线电频谱转换技术浅析[J].现代电信科技,2009,39(3):60-64. 被引量：1
2行业资讯速读[J].世界广播电视,2010,24(10):16-16.
3孙燕,姜占才,王得芳.语音频谱分析与应用[J].计算机与现代化,2010(4):200-202. 被引量：7
4郭鹏娟,蒋冬梅,Hichem Sahli,Werner Verhelst.基于基频特征的情感语音识别研究[J].计算机应用研究,2007,24(10):101-103. 被引量：2
5李强,明艳.语音频谱分析仿真系统的实现[J].科学咨询,2009(23):91-91. 被引量：1
6卢一男,单宝钰,关超.声纹识别技术现状与发展应用[J].信息系统工程,2017,30(2):11-11. 被引量：5
7王志军.如此提取PDF文本内容[J].网友世界,2006(19):33-33.
8韩丽娜.基于采样窗的非均匀路面图像校正算法[J].微电子学与计算机,2014,31(2):122-124. 被引量：3
9谭延军,聂友伟.基于LabVIEW平台的虚拟仪器编程[J].微处理机,2013,34(6):76-78. 被引量：8
10新型计算机语音识别系统功能接近大脑[J].测绘技术装备,2006,8(2):9-9.

中国科学技术大学学报

2015年第7期

浏览历史

内容加载中请稍等...

基于声道长度对齐的年龄语音转换被引量：2

参考文献22

二级参考文献8

共引文献1

同被引文献17

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于声道长度对齐的年龄语音转换 被引量：2

参考文献22

二级参考文献8

共引文献1

同被引文献17

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于声道长度对齐的年龄语音转换被引量：2