短时频谱通用背景模型群联合韵律的年龄语音转换被引量：3

Voice conversion of different ages using universal background model groups of short-time spectra and prosodic features

下载PDF

导出

摘要提出一种短时频谱通用背景模型群与韵律参数相结合进行年龄语音转换的方法。谱参数转换方面,同一年龄段各说话者提取语音短时谱系数并建立高斯混合模型,然后依据语音特征相似性对说话者进行聚类,每一类训练一个通用背景模型,最终得到通用背景模型群和一组短时频谱转换函数。谱参数转换之后再对共振峰进一步微调。韵律参数转换方面,基频和语速分别建立单高斯和平均时长率模型来推导转换函数。实验结果显示,提出的方法在ABX和MOS等评价指标上比传统的双线性法有明显的优势,相对单一通用背景模型法的对数似然度变化率提高了4%。这一结果表明提出的方法能够使转换语音具有良好目标倾向性的同时有较好的语音质量,性能较传统方法有明显提升。 For the voice conversion of different ages, a method using Universal Background Model Groups（UBMG） of short-time spectra and prosodic features is proposed. In spectrum aspect, Gaussian Mixture Model（GMM） is trained for every speaker after extracting linear predictive cepstrum coefficients, then the speakers in the same age period are clustered based on their voice similarity, and each cluster is further trained to be a UBM of spectrum distribution.Finally, an UBM group and corresponding spectrum conversion functions are obtained in each age period. Formants adjustment is further used after spectrum conversion. Furthermore, fundamental frequency and speech rate are modeled by single Gaussian and average duration rate respectively to derive their conversion functions in the aspect of prosodic features. The results of objective and subjective evaluation experiments such as ABX and MOS show that the proposed method has a distinct advantage compared with conventional bilinear method and its change rate of log-likelihood ratio increases by 4% compared with single UBM method. The results show the proposed method can make the converted speech more close to the speech of target age period with good speech quality while the performance has been improved evidently compared with conventional methods.

作者惠琳俞一彪 HUI Lin YU Yibiao(School of Electronic and Information Engineering, Soochow University Suzhou 215006)

机构地区苏州大学电子信息学院

出处《声学学报》 EI CSCD 北大核心 2017年第6期762-768,共7页 Acta Acustica

基金国家自然科学基金项目(61271360)资助

关键词背景模型语音时频谱通用共振峰频率参数转换高斯混合模型基频模型法正韵律

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献4

1方尔庆,耿新.基于视听信息的自动年龄估计方法[J].软件学报,2011,22(7):1503-1523. 被引量：5
2李金中,李贤,汪增福.基于声道长度对齐的年龄语音转换[J].中国科学技术大学学报,2015,45(7):575-581. 被引量：2
3陈雪勤,赵鹤鸣.有效高斯分量通用背景模型下耳语音声道系统转换研究[J].声学学报,2013,38(2):195-200. 被引量：5
4李力,俞一彪.采用超音段韵律特征联合短时频谱的语音转换[J].信号处理,2012,28(2):289-294. 被引量：3

二级参考文献78

1卢正鼎,丰洪才.基于分段线性频谱弯折函数的说话人归一化方法[J].小型微型计算机系统,2004,25(12):2232-2236. 被引量：2
2康永国,双志伟,陶建华,张维.基于混合映射模型的语音转换算法研究[J].声学学报,2006,31(6):555-562. 被引量：13
3罗武庭.DJ—2可变矩形电子束曝光机的DMA驱动程序[J].LSI制造与测试,1989,10(4):20-26. 被引量：373
4H.Fujisaki and K.Hirose,“Analysis of voice fundamental frequency contours for declarative sentence of Japanese,”J.Acoust.Soc.Japan,1984,5(4):233-242. 被引量：1
5G.P.Kochanski and C.Shih,“STEM-ML:Language independent prosody description,”Proc.ICSLP,Beijing, China,2000:239-242. 被引量：1
6Y.Xu and Q.E.Wang,“Pitch targets and their realization: Evidence from Mandarin Chinese,”Speech Communication, 2001,33:319-337. 被引量：1
7X.Sun,“The determination,analysis,and synthesis of fundamental frequency,”Ph.D.dissertation,Northwestern Univ.,2002. 被引量：1
8S.Desai,E.V.Raghavendra,B.Yegnanarayana,A.W. Black,and K.Prahallad,“Voice conversion using artificial neural networks,”IEEE Int.Conf.on Acoustics, Speech and Signal Processing(ICASSP),2009:3893- 3896. 被引量：1
9Y.Stylianou,T.Toda,C.H.Wu,A.Kain,and O. Rosec,“Introduction to the Special Section on Voice Transformation,”IEEE Audio,Speech,and Language Processing,2010,18(5):909-911. 被引量：1
10Y.Zhang and J.Tao,“Prosody Modification on Mixed-Language Speech Synthesis,”Chinese Spoken Language Processing,2008:l-4. 被引量：1

共引文献11

1王先梅,梁玲燕,王志良,胡四泉.人脸图像的年龄估计技术研究[J].中国图象图形学报,2012,17(6):603-618. 被引量：33
2刘健刚,郑玉琪,陈美华,姜浩,赵力.A study on the feasibility of CET oral test based on automatic essay marking[J].Journal of Southeast University(English Edition),2012,28(4):410-414.
3李阳春,俞一彪.倒谱本征空间结构化高斯混合模型语音转换方法[J].声学学报,2015,40(1):12-19. 被引量：9
4钟远涛.移动电子商务安全对语音识别技术的应用[J].商场现代化,2015(3):82-82. 被引量：2
5LI Yangchun,YU Yibiao.Voice conversion using structured Gaussian mixture model in cepstrum eigenspace[J].Chinese Journal of Acoustics,2015,34(3):325-336. 被引量：2
6周健,窦云峰,刘荣敏,王华彬,陶亮.采用低维特征映射的耳语音向正常音转换[J].声学学报,2018,43(5):855-863. 被引量：2
7黄国捷,金慧,俞一彪.增强变分自编码器做非平行语料语音转换[J].信号处理,2018,34(10):1246-1251. 被引量：3
8王海燕.一种基于RBF神经网络的汉语耳语音转化为正常语音的方法[J].数字技术与应用,2018,0(9):49-51.
9赵军,侯凯艳,杨林.基于加权字典对学习的人脸年龄估计方法[J].计算机工程,2019,45(2):191-194. 被引量：4
10张雄伟,苗晓孔,曾歆,孙蒙,曹铁勇.语音转换技术研究现状及展望[J].数据采集与处理,2019,34(5):753-770. 被引量：9

同被引文献19

1王治平,赵力,邹采荣.基于基音参数规整及统计分布模型距离的语音情感识别[J].声学学报,2006,31(1):28-34. 被引量：26
2张杰,龙子夜,张博,陈咏丽,秦玉英.语音信号处理中基频提取算法综述[J].电子科技大学学报,2010,39(S1):99-102. 被引量：5
3谢群.语气词的主观意义研究——语气词主观意义研究系列之一[J].外语学刊,2015(6):75-79. 被引量：7
4李强,陈丁当,舒勤军.一种基于幅度谱偏度的语音激活检测算法[J].重庆邮电大学学报（自然科学版）,2015,27(6):728-734. 被引量：4
5沈锁金,刘伟,高颖.语音增强算法的研究与实现[J].电声技术,2016,40(12):40-42. 被引量：4
6韩长军.基于MATLAB的语音信号去噪方法应用[J].辽东学院学报（自然科学版）,2017,24(1):72-76. 被引量：8
7李姗,徐珑婷.基于语谱图提取瓶颈特征的情感识别算法研究[J].计算机技术与发展,2017,27(5):82-86. 被引量：7
8冯辉宗,王芸芳.语谱特征的身份认证向量识别方法[J].重庆大学学报（自然科学版）,2017,40(5):88-94. 被引量：4
9沈惠玲,万永菁.一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J].华东理工大学学报（自然科学版）,2017,43(4):546-552. 被引量：2
10苗晓晓,张健,索宏彬,周若华,颜永红.应用于短时语音语种识别的时长扩展方法[J].清华大学学报（自然科学版）,2018,58(3):254-259. 被引量：7

引证文献3

1舒炎昕,王军锋,拓江敏,李悦.a系语气词特殊发音基频的情感表现[J].应用声学,2018,37(6):947-955. 被引量：1
2卓嘎,次仁尼玛.基于Matlab的藏语语音频谱仿真和分析[J].电子设计工程,2019,27(19):170-173. 被引量：2
3周迪,简志华,胡伟通,汪云路.基于双字典的噪声环境下的语音转换方法[J].小型微型计算机系统,2020,41(10):2230-2234. 被引量：1

二级引证文献4

1陈苍,王军锋.视障者在语音交互体验中的问题研究[J].工业设计研究,2019(1):8-11.
2黄成龙.2019年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2020,41(5):47-52.
3牟莉,佘石豪,孟玉茹.基于主体-延伸法的基音周期检测改进算法[J].西安工程大学学报,2022,36(1):121-128. 被引量：5
4何娟,吕冠群.基于声音信号的翻译机器人语音交互系统设计[J].自动化与仪器仪表,2022(6):186-190. 被引量：2

1唐斌.基于GMM模型的语音转换技术研究[J].通讯世界,2017,23(18):296-296.
2成谢锋,陈亚敏.S1和S2共振峰频率在心音分类识别中的应用[J].南京邮电大学学报（自然科学版）,2017,37(5):7-12. 被引量：9
3宋伟,张力,邓亚航.基于背景差分法的模型改进方法研究[J].传感器与微系统,2017,36(10):67-69. 被引量：9
4王泽勋.层次韵律特征对语音情感转换的影响分析[J].信息通信,2017,30(10):29-30.
5缑新科,王跃.基于T矩阵归一化PLDA的说话人确认[J].计算机与现代化,2017(10):53-56.
6吴董事长率大陆大学生摄影创作团首访台湾[J].海峡影艺,2012,0(2):74-79.
7王小芬,高丽,周頔.动背景下基于低秩傅里叶模式重构物体目标检测[J].计算机工程与设计,2017,38(11):3168-3172.
8中华艺术摄影学会召开会员大会[J].海峡影艺,2013,0(2):49-49.
9余礼根,李长缨,陈立平,薛绪掌,卫如雪,郭文忠.番茄声发射信号功率谱特征分析[J].农业机械学报,2017,48(10):189-194. 被引量：3
10杜敏娜,姜南,张灵坚,张杭锋,齐欢,张辉,王继栋.链霉菌Streptomyces sp. HS-NF-496中两个Anthrabenzoxocinone类化合物[J].天然产物研究与开发,2017,29(10):1683-1687. 被引量：2

声学学报

2017年第6期

浏览历史

内容加载中请稍等...

短时频谱通用背景模型群联合韵律的年龄语音转换被引量：3

参考文献4

二级参考文献78

共引文献11

同被引文献19

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

短时频谱通用背景模型群联合韵律的年龄语音转换 被引量：3

参考文献4

二级参考文献78

共引文献11

同被引文献19

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

短时频谱通用背景模型群联合韵律的年龄语音转换被引量：3