期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于层次化Conformer的语音合成
1
作者
吴克伟
韩超
+2 位作者
孙永宣
彭梦昊
谢昭
《计算机科学》
CSCD
北大核心
2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于...
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。
展开更多
关键词
语音合成
文本
编码器
语音
编码器
层次化模型
CONFORMER
下载PDF
职称材料
基于N-Gram的改进预训练文本编码器
被引量:
2
2
作者
郭雅鑫
张春燕
《中国汽车》
2023年第4期30-34,共5页
预训练文本编码器常以较短的文本组合为单位进行处理,但是较小的文本粒度会导致字、词之间的联系信息丢失,影响编码器的泛化能力和性能,尤其在中文处理中,意义以词而不是单字的形式体现的情况下,对于词的分割和长短的把握尤为重要。本...
预训练文本编码器常以较短的文本组合为单位进行处理,但是较小的文本粒度会导致字、词之间的联系信息丢失,影响编码器的泛化能力和性能,尤其在中文处理中,意义以词而不是单字的形式体现的情况下,对于词的分割和长短的把握尤为重要。本文对基于Transformer模型的双向编码模型(BERT)进行了改进,提出了一种基于N-Gram增强的预训练文本编码器模型。测试表明,本方法在中文分词、词性标记命名体识别的任务中表现均优于BERT,且对训练样本大小依赖较低。
展开更多
关键词
文本
编码器
N-GRAM
预训练模型
原文传递
融合句嵌入的VAACGAN多对多语音转换
被引量:
1
3
作者
李燕萍
曹盼
+1 位作者
石杨
张燕
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2021年第3期500-508,共9页
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换。辅助分类器生成对抗网络...
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换。辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度。通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量。实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换。
展开更多
关键词
语音转换
句嵌入
文本
编码器
辅助分类器生成对抗网络(ACGAN)
变分自
编码器
非平行
文本
多对多
下载PDF
职称材料
题名
基于层次化Conformer的语音合成
1
作者
吴克伟
韩超
孙永宣
彭梦昊
谢昭
机构
大数据知识工程教育部重点实验室(合肥工业大学)
情感计算与先进智能机器安徽省重点实验室(合肥工业大学)
合肥工业大学计算机与信息学院
出处
《计算机科学》
CSCD
北大核心
2024年第2期161-171,共11页
基金
安徽省重点研究与开发计划(202004d07020004)
安徽省自然科学基金(2108085MF203)
中央高校基本科研业务费专项资金(PA2021GDSK0072,JZ2021HGQA0219)。
文摘
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。
关键词
语音合成
文本
编码器
语音
编码器
层次化模型
CONFORMER
Keywords
Speech synthesis
Text encoder
Speech encoder
Hierarchical model
Conformer
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于N-Gram的改进预训练文本编码器
被引量:
2
2
作者
郭雅鑫
张春燕
机构
中汽信息科技(天津)有限公司
出处
《中国汽车》
2023年第4期30-34,共5页
文摘
预训练文本编码器常以较短的文本组合为单位进行处理,但是较小的文本粒度会导致字、词之间的联系信息丢失,影响编码器的泛化能力和性能,尤其在中文处理中,意义以词而不是单字的形式体现的情况下,对于词的分割和长短的把握尤为重要。本文对基于Transformer模型的双向编码模型(BERT)进行了改进,提出了一种基于N-Gram增强的预训练文本编码器模型。测试表明,本方法在中文分词、词性标记命名体识别的任务中表现均优于BERT,且对训练样本大小依赖较低。
关键词
文本
编码器
N-GRAM
预训练模型
Keywords
text encoder
N-Gram
pre-trained model
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
原文传递
题名
融合句嵌入的VAACGAN多对多语音转换
被引量:
1
3
作者
李燕萍
曹盼
石杨
张燕
机构
南京邮电大学通信与信息工程学院
金陵科技学院软件工程学院
出处
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2021年第3期500-508,共9页
基金
国家自然科学基金(61401227,61872199,61872424)
金陵科技学院智能人机交互科技创新团队建设专项(218/010119200113)。
文摘
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换。辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度。通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量。实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换。
关键词
语音转换
句嵌入
文本
编码器
辅助分类器生成对抗网络(ACGAN)
变分自
编码器
非平行
文本
多对多
Keywords
voice conversion
sentence embedding
text-encoder
Auxiliary Classifier Generative Adversarial Network(ACGAN)
variational autoencoder
non-parallel corpora
many-to-many
分类号
TN912.3 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于层次化Conformer的语音合成
吴克伟
韩超
孙永宣
彭梦昊
谢昭
《计算机科学》
CSCD
北大核心
2024
0
下载PDF
职称材料
2
基于N-Gram的改进预训练文本编码器
郭雅鑫
张春燕
《中国汽车》
2023
2
原文传递
3
融合句嵌入的VAACGAN多对多语音转换
李燕萍
曹盼
石杨
张燕
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2021
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部