期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种基于Tacotron 2的端到端中文语音合成方案
被引量:
13
1
作者
王国梁
陈梦楠
陈蕾
《华东师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2019年第4期111-119,共9页
颠覆性设计的端到端语音合成系统Tacotron 2,目前仅能处理英文.致力于对Tacotron 2进行多方位改进,设计了一种中文语音合成方案,主要包括:针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符;针对现有中文训练语...
颠覆性设计的端到端语音合成系统Tacotron 2,目前仅能处理英文.致力于对Tacotron 2进行多方位改进,设计了一种中文语音合成方案,主要包括:针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符;针对现有中文训练语料不足的情况,使用预训练解码器,在较少语料上获得了较好音质;针对中文语音合成急促停顿问题,采用对交叉熵损失进行加权,并用多层感知机代替变线性变换对停止符进行预测的策略,获得了有效改善;另外通过添加多头注意力机制进一步提高了中文语音合成音质.梅尔频谱、梅尔倒谱距离等的实验对比结果表明了方案的有效性:可以令Tacotron 2较好地适应中文语音合成的要求.
展开更多
关键词
语音合成
多头注意力
tacotron
2
下载PDF
职称材料
端到端的藏语语音合成方法
被引量:
1
2
作者
拉巴顿珠
珠杰
+1 位作者
欧珠
尼玛
《应用声学》
CSCD
北大核心
2023年第2期324-332,共9页
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种...
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用,取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据;其次,利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了合成语音的自然度。因此,基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值,值得进一步研究和推广应用。
展开更多
关键词
语音合成
藏语
字音转换
端到端
tacotron
2
下载PDF
职称材料
一种基于改进注意力机制的实时鲁棒语音合成方法
被引量:
1
3
作者
唐君
张连海
李嘉欣
《信号处理》
CSCD
北大核心
2022年第3期527-535,共9页
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现...
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度。在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88。
展开更多
关键词
语音合成
注意力损失机制
tacotron
2
WaveGlow
序列到序列
下载PDF
职称材料
基于CBHG的Mel谱精细结构重建
被引量:
1
4
作者
唐君
张连海
李嘉欣
《信息工程大学学报》
2022年第2期135-140,共6页
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析...
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析并预测其缺失的精细结构,最后将这些精细结构叠加到解码输出的Mel谱中以生成细化后的Mel谱,从而提高合成语音的质量。实验结果表明,提出的后处理网络有效恢复了Mel谱在解码过程中丢失的精细结构,同时通过结合高性能、高效率的HiFi-GAN声码器,最终合成语音的平均主观意见分(Mean Opinion Score,MOS)达到4.10,相比基线提升了0.26。
展开更多
关键词
语音合成
CBHG
Mel谱
后处理网络
tacotron
2
HiFi-GAN
下载PDF
职称材料
题名
一种基于Tacotron 2的端到端中文语音合成方案
被引量:
13
1
作者
王国梁
陈梦楠
陈蕾
机构
国家电网安徽省电力有限公司信息通信分公司
华东师范大学计算机科学技术系
出处
《华东师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2019年第4期111-119,共9页
文摘
颠覆性设计的端到端语音合成系统Tacotron 2,目前仅能处理英文.致力于对Tacotron 2进行多方位改进,设计了一种中文语音合成方案,主要包括:针对汉字不表音、变调和多音字等问题,添加预处理模块,将中文转化为注音字符;针对现有中文训练语料不足的情况,使用预训练解码器,在较少语料上获得了较好音质;针对中文语音合成急促停顿问题,采用对交叉熵损失进行加权,并用多层感知机代替变线性变换对停止符进行预测的策略,获得了有效改善;另外通过添加多头注意力机制进一步提高了中文语音合成音质.梅尔频谱、梅尔倒谱距离等的实验对比结果表明了方案的有效性:可以令Tacotron 2较好地适应中文语音合成的要求.
关键词
语音合成
多头注意力
tacotron
2
Keywords
text
to
speech
multi-head
attention
tacotron
2
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
端到端的藏语语音合成方法
被引量:
1
2
作者
拉巴顿珠
珠杰
欧珠
尼玛
机构
西藏大学信息科学技术学院西藏信息化省部共建协同创新中心
西藏民族大学
出处
《应用声学》
CSCD
北大核心
2023年第2期324-332,共9页
基金
国家自然科学基金项目(62066042,61872254,62162057)
教育部人文社会科学研究项目(21YJCZH059,20YJA740035)
西藏大学培育计划项目(ZDCZJH21-10)。
文摘
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用,取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据;其次,利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了合成语音的自然度。因此,基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值,值得进一步研究和推广应用。
关键词
语音合成
藏语
字音转换
端到端
tacotron
2
Keywords
Speech
synthesis
Tibetan
Phoneme
transformation
End-to-end
tacotron
2
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于改进注意力机制的实时鲁棒语音合成方法
被引量:
1
3
作者
唐君
张连海
李嘉欣
机构
中国人民解放军战略支援部队信息工程大学信息系统工程学院
出处
《信号处理》
CSCD
北大核心
2022年第3期527-535,共9页
基金
国家自然科学基金资助项目(61673395)。
文摘
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度。在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88。
关键词
语音合成
注意力损失机制
tacotron
2
WaveGlow
序列到序列
Keywords
speech
synthesis
attention
loss
mechanism
tacotron
2
WaveGlow
sequence
to
sequence
分类号
TN912.33 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于CBHG的Mel谱精细结构重建
被引量:
1
4
作者
唐君
张连海
李嘉欣
机构
信息工程大学
出处
《信息工程大学学报》
2022年第2期135-140,共6页
基金
国家自然科学基金资助项目(61673395,62171470)。
文摘
在大多数语音合成系统中,预测的Mel谱的质量直接决定了最终合成语音的质量。基于Tacotron 2的框架预测的Mel谱通常缺乏接近真实数据的精细结构,为解决此问题,提出一种基于CBHG的后处理网络。该后处理网络通过对解码输出的Mel谱进行分析并预测其缺失的精细结构,最后将这些精细结构叠加到解码输出的Mel谱中以生成细化后的Mel谱,从而提高合成语音的质量。实验结果表明,提出的后处理网络有效恢复了Mel谱在解码过程中丢失的精细结构,同时通过结合高性能、高效率的HiFi-GAN声码器,最终合成语音的平均主观意见分(Mean Opinion Score,MOS)达到4.10,相比基线提升了0.26。
关键词
语音合成
CBHG
Mel谱
后处理网络
tacotron
2
HiFi-GAN
Keywords
speech
synthesis
CBHG
Mel
spectrum
post-processing
network
tacotron
2
HiFi-GAN
分类号
TN912.33 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种基于Tacotron 2的端到端中文语音合成方案
王国梁
陈梦楠
陈蕾
《华东师范大学学报(自然科学版)》
CAS
CSCD
北大核心
2019
13
下载PDF
职称材料
2
端到端的藏语语音合成方法
拉巴顿珠
珠杰
欧珠
尼玛
《应用声学》
CSCD
北大核心
2023
1
下载PDF
职称材料
3
一种基于改进注意力机制的实时鲁棒语音合成方法
唐君
张连海
李嘉欣
《信号处理》
CSCD
北大核心
2022
1
下载PDF
职称材料
4
基于CBHG的Mel谱精细结构重建
唐君
张连海
李嘉欣
《信息工程大学学报》
2022
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部