期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于统计韵律模型的汉语语音合成系统的研究 被引量:7
1
作者 陶建华 赵晟 蔡莲红 《中文信息学报》 CSCD 北大核心 2002年第1期1-6,共6页
本文论述了采用统计模型进行汉语韵律层级结构分析和韵律建模的思路 ,在此基础上建立了汉语语音合成系统。其中 ,本文还仔细阐述了韵律代价函数的构造 ,及其参数的自动训练算法。同时 ,论文还分析了韵律特征间相互作用对音节基元选取的... 本文论述了采用统计模型进行汉语韵律层级结构分析和韵律建模的思路 ,在此基础上建立了汉语语音合成系统。其中 ,本文还仔细阐述了韵律代价函数的构造 ,及其参数的自动训练算法。同时 ,论文还分析了韵律特征间相互作用对音节基元选取的影响 ,并最终实现了一个连续语流中用于汉语语音合成的音节基元选取模型。测试表明了本文提出的基于统计模型的韵律层级分析和韵律建模思路 ,能够较好应用于汉语语音合成系统的构造 。 展开更多
关键词 汉语韵律层级结构 韵律建模 韵律代价函数 语音合成系统
下载PDF
面向情感转换的层次化韵律分析与建模 被引量:7
2
作者 徐俊 蔡莲红 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第S1期1274-1277,共4页
语音的韵律特征对情感表达起着非常重要的作用。在基于韵律修改的情感语音转换系统中,为了更为准确地预测情感语音的韵律特征,该文提出一种层次化的韵律分析与建模方法,针对愤怒、高兴、悲伤、惊奇这4种情感对语音按照韵律结构的层级进... 语音的韵律特征对情感表达起着非常重要的作用。在基于韵律修改的情感语音转换系统中,为了更为准确地预测情感语音的韵律特征,该文提出一种层次化的韵律分析与建模方法,针对愤怒、高兴、悲伤、惊奇这4种情感对语音按照韵律结构的层级进行分析,探讨不同层次之间情感韵律特征变化规律的关联性和叠加性,并使用高层音段信息作为输入对低层信息进行决策树建模。实验结果表明,本方法对情感韵律特征的预测均方误差比局部分音段以及传统的决策树韵律模型低大约5%。 展开更多
关键词 情感韵律特征 情感转换 韵律分析 韵律建模
原文传递
Modeling Pitch Contour of Chinese Mandarin Sentences with the PENTA Model 被引量:1
3
作者 Hui Pang Zhiyong Wu Lianhong Cai 《Tsinghua Science and Technology》 EI CAS 2012年第2期218-224,共7页
In continuous speech, the pitch contour of the same syllable may vary much due to its contextual information. The Parallel Encoding and Target Approximation (PENTA) model is applied here to Mandarin speech synthesis... In continuous speech, the pitch contour of the same syllable may vary much due to its contextual information. The Parallel Encoding and Target Approximation (PENTA) model is applied here to Mandarin speech synthesis with a method to predict pitch contours for Chinese syllables with different contexts by combining the Classification And Regression Tree (CART) with the PENTA model to improve its prediction accuracy. CART was first used to cluster the syllables' normalized pitch contours according to the syllables contextual information and the distances between pitch contours. The average pitch contour was used to train the PENTA model with the average contour for each cluster. The initial pitch is required with the PENTA model to predict a continuous pitch contour. A Pitch Discontinuity Model (PDM) was used to predict the initial pitches at positions with voiceless consonants and prosodic boundaries. Initial tests on a Chinese four-syllable word corpus containing 2048 words were extended to tests with a continuous speech corpus containing 5445 sentences. The results are satisfactory in terms of the Root Mean Square Error (RMSE) comparing the predicted pitch contour with the original contour. This method can model pitch contours for Mandarin sentences with any text for speech synthesis. 展开更多
关键词 speech synthesis PENTA model prosody analysis prosody modeling
原文传递
基于多重互信息约束的高表现力语音转换
4
作者 王光 刘宗泽 +1 位作者 姜彦吉 董浩 《计算机系统应用》 2024年第9期216-225,共10页
随着语音转换在人机交互领域的广泛应用,对于获取高表现力语音的需求日益显著.当前语音转换主要通过解耦声学特征实现,侧重对内容和音色特征的解耦,很少考虑语音中混合的情感特性,导致转换音频情感表现力不足.为解决上述问题,本文提出... 随着语音转换在人机交互领域的广泛应用,对于获取高表现力语音的需求日益显著.当前语音转换主要通过解耦声学特征实现,侧重对内容和音色特征的解耦,很少考虑语音中混合的情感特性,导致转换音频情感表现力不足.为解决上述问题,本文提出一种基于多重互信息约束的高表现力语音转换模型(MMIC-EVC).在对内容和音色特征进行解耦的基础上,引入表现力模块分别对话语级韵律和节奏特征进行建模,以实现情感特性的传递;随后通过最小化各特征之间的多重互信息变分对数上界,约束各编码器专注于解耦对应的声学嵌入.在CSTR-VCTK和ESD语音数据集上的实验表明,本模型的转换音频语音自然度评分(MOS)达到3.78,梅尔倒谱失真为5.39 dB,最佳最差占比测试结果大幅领先于基线模型,MMIC-EVC能够有效解耦韵律和节奏特征,并实现高表现力语音转换,为人机交互带来更加出色和自然的用户体验. 展开更多
关键词 语音转换 特征解耦 互信息约束 韵律建模 人机交互
下载PDF
维吾尔语音情感声学特征提取与建模研究 被引量:2
5
作者 阿依提拉.米吉提 艾斯卡尔.肉孜 艾斯卡尔.艾木都拉 《通信技术》 2013年第11期51-54,共4页
在收集较大规模情感语音语料库基础上,分析了维吾尔语语音在韵律特征和音质特征方面的19种语境信息和6种情感特征参数,并利用STRAIGHT算法实现了情感特征参数的提取,最后利用分类回归树(CART)算法针对各个情感特征和中性向其它情感的转... 在收集较大规模情感语音语料库基础上,分析了维吾尔语语音在韵律特征和音质特征方面的19种语境信息和6种情感特征参数,并利用STRAIGHT算法实现了情感特征参数的提取,最后利用分类回归树(CART)算法针对各个情感特征和中性向其它情感的转换特征进行了建模。实验结果表明,所提取情感特征能准确的区分各个情感类型,为实现中性语音转换成各种目标情感语音奠定了基础。 展开更多
关键词 维吾尔语 情感特征 STRAIGHT 算法 韵律分析 情感建模
原文传递
Prosodically Rich Speech Synthesis Interface Using Limited Data of Celebrity Voice
6
作者 Takashi Nose Taiki Kamei 《Journal of Computer and Communications》 2016年第16期79-94,共16页
To enhance the communication between human and robots at home in the future, speech synthesis interfaces are indispensable that can generate expressive speech. In addition, synthesizing celebrity voice is commercially... To enhance the communication between human and robots at home in the future, speech synthesis interfaces are indispensable that can generate expressive speech. In addition, synthesizing celebrity voice is commercially important. For these issues, this paper proposes techniques for synthesizing natural-sounding speech that has a rich prosodic personality using a limited amount of data in a text-to-speech (TTS) system. As a target speaker, we chose a well-known prime minister of Japan, Shinzo Abe, who has a good prosodic personality in his speeches. To synthesize natural-sounding and prosodically rich speech, accurate phrasing, robust duration prediction, and rich intonation modeling are important. For these purpose, we propose pause position prediction based on conditional random fields (CRFs), phone-duration prediction using random forests, and mora-based emphasis context labeling. We examine the effectiveness of the above techniques through objective and subjective evaluations. 展开更多
关键词 Parametric Speech Synthesis Hidden Markov Model (HMM) Prosodic Personality prosody modeling Conditional Random Field (CRF) Random Forest Emphasis Context
下载PDF
普通话到西安话的韵律转换
7
作者 郭威彤 杨鸿武 +1 位作者 梁青青 裴东 《计算机工程与应用》 CSCD 北大核心 2011年第16期122-127,共6页
方言语音的转换是人机交互领域的一个重要研究课题。为实现普通话到西安话的转换,论文利用《方言调查字表》设计了一个包括文本语料和语音语料的西安方言语料库,录制了普通话和西安话平行的语音语料库。提出了基于归一化非线性多项式的... 方言语音的转换是人机交互领域的一个重要研究课题。为实现普通话到西安话的转换,论文利用《方言调查字表》设计了一个包括文本语料和语音语料的西安方言语料库,录制了普通话和西安话平行的语音语料库。提出了基于归一化非线性多项式的方言韵律转换模型以及基于统计的方言时长转换模型和停顿时长转换模型。利用STRAIGHT算法修改普通话语音,实现普通话到西安话的转换。对转换结果的MOS评测表明,转换后的单字平均MOS得分4.60,双字平均MOS得分为4.75,语句的平均MOS得分为4.15。 展开更多
关键词 方言转换 语料库 韵律建模 时长模型 基频曲线
下载PDF
基于声调核参数及DNN建模的韵律边界检测研究 被引量:1
8
作者 林举 解焱陆 +1 位作者 张劲松 张微 《中文信息学报》 CSCD 北大核心 2016年第6期35-39,48,共6页
韵律边界对言语表达的自然度和可理解度有着重要作用。韵律建模也是语音合成、语音理解中的重要方面。该文从相邻声调的相互作用角度出发,提出基于深度神经网络(DNN)及声调核声学特征的汉语韵律边界检测方法。该方法首先采用声调核部分... 韵律边界对言语表达的自然度和可理解度有着重要作用。韵律建模也是语音合成、语音理解中的重要方面。该文从相邻声调的相互作用角度出发,提出基于深度神经网络(DNN)及声调核声学特征的汉语韵律边界检测方法。该方法首先采用声调核部分的声学特征来计算边界检测相关参数。然后,利用深度神经网络进行建模。作为对比,实验中采用了以整个音节的声学特征为输入特征的基线系统。结果表明,只使用调核部分声学特征的系统优于使用整个音节的系统,韵律边界检测正确率相对提高了4%,这表明该文提出的汉语韵律边界检测方法的有效性。 展开更多
关键词 韵律边界建模 声调核 深度神经网络
下载PDF
基于韵律的话语标记功能判别统计分析与建模研究--以“你知道”为例 被引量:1
9
作者 单谊 谢朝群 《外国语言文学》 2022年第5期63-78,134,135,共18页
一直以来,国内外学界大都依据少数样例或小规模语料主观推断话语标记的语用功能,忽视了韵律对语用功能的判别作用。本文基于大规模自然口语语料库,使用Praat语音软件和R语言统计分析“你知道”的韵律与语用数据,并构建韵律-功能分类模... 一直以来,国内外学界大都依据少数样例或小规模语料主观推断话语标记的语用功能,忽视了韵律对语用功能的判别作用。本文基于大规模自然口语语料库,使用Praat语音软件和R语言统计分析“你知道”的韵律与语用数据,并构建韵律-功能分类模型。统计分析发现,“你知道”的各韵律特征之间显著相关,韵律特征与语用功能密切互动,韵律-功能条件决策树模型能够有效判别语用功能。这些发现证明韵律特征的表现形式会受到语用功能的外在制约,韵律特征可以作为语用功能分类的客观依据。 展开更多
关键词 话语标记 韵律与功能互动关系 统计分析 模型建构
原文传递
基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法 被引量:1
10
作者 吴则诚 飞龙 +1 位作者 张晖 王海波 《信号处理》 CSCD 北大核心 2021年第10期1825-1834,共10页
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古... 语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法。该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换。实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音转换效果,在语音自然度和说话人相似度的MOS评分上分别提升了0.1和0.2。 展开更多
关键词 蒙古语语音转换 非平行 条件CycleGAN 细粒度韵律建模
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部