期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于全局风格嵌入的多说话人印尼语语音合成
1
作者
杨益灵
杨鉴
王发亮
《计算机科学与应用》
2023年第1期126-135,共10页
由于印尼语高质量语料数据库的稀缺,该语种多说话人语音合成系统性能仍有待提升。因此以缓解低资源对多说话人语音合成性能的影响为目的,研究并实现了基于GST-Tacotron2模型框架的印尼语端到端语音合成系统。选用8.5小时的单说话人印尼...
由于印尼语高质量语料数据库的稀缺,该语种多说话人语音合成系统性能仍有待提升。因此以缓解低资源对多说话人语音合成性能的影响为目的,研究并实现了基于GST-Tacotron2模型框架的印尼语端到端语音合成系统。选用8.5小时的单说话人印尼语数据训练的合成系统,合成语音的MOS评分达4.11。在此基础上,设计多说话人印尼语语音合成系统,着重探索了在仅利用其他印尼语说话人少量语音数据进行混合训练时,采用说话人编码方法对多说话人合成自然度的影响。实验结果表明,利用合计14.5小时多说话人语音数据训练的合成模型,主位说话人合成语音的MOS评分到达了4.12,梅尔倒谱失真比单说话人最优模型降低了7.2%。其他说话人合成语音的MOS评分均大于3.60,验证了所提方法的有效性。
展开更多
关键词
语音合成
多
说话
人
风格迁移
低资源
印尼语
下载PDF
职称材料
电话语音中基于多说话人的声纹识别系统
2
作者
郑燕琳
杨晓炯
许星宇
《电信科学》
北大核心
2010年第S2期105-108,共4页
电话语音声纹识别系统在实际应用中不可避免包含多说话人语音数据,由于不能有效地将对话双方的语音自动分离,从而使得输入语音含有多个说话人,直接影响到系统的识别性能。本文提出电话语音中基于多说话人的声纹识别系统,实际应用表明,...
电话语音声纹识别系统在实际应用中不可避免包含多说话人语音数据,由于不能有效地将对话双方的语音自动分离,从而使得输入语音含有多个说话人,直接影响到系统的识别性能。本文提出电话语音中基于多说话人的声纹识别系统,实际应用表明,该系统可得到较好声纹识别效果。本文的结果对探讨实际应用的多说话人电话语音声纹识别方法有重要意义。
展开更多
关键词
多
说话
人
语音分离
声纹识别
下载PDF
职称材料
基于MFCC和运动强度聚类初始化的多说话人识别
被引量:
10
3
作者
曹洁
余丽珍
《计算机应用研究》
CSCD
北大核心
2012年第9期3295-3298,共4页
针对常用基于音频特征的多说话人聚类初始化方法精度不高这一问题,提出了一种基于视频信号的新方法。该方法通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择,有效提升了说话人初始类纯度。最后将该方法...
针对常用基于音频特征的多说话人聚类初始化方法精度不高这一问题,提出了一种基于视频信号的新方法。该方法通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结果表明,在整个会议集上该方法相比其他方法有了很大改善,较之线性初始化系统的错误识别率平均降低了19.436%,较之改进的线性初始化系统的错误识别率平均降低了16.618%。
展开更多
关键词
多
说话
人
识别
聚类初始化
运动强度特征
运动强度初始化
下载PDF
职称材料
多说话人语音环境下目标说话人声纹验证方法研究
被引量:
1
4
作者
陈家峥
张斌
李雅明
《物联网技术》
2024年第2期3-7,10,共6页
声纹身份验证技术越来越多的应用于IoT智能设备中,针对多说话人语音环境,应用传统VAD模块的声纹验证系统错误拒绝率严重升高,甚至无法工作。本文从语音分离技术入手,设计实现了一种只对目标说话人触发的轻量化SD-VAD模型。首先,通过在...
声纹身份验证技术越来越多的应用于IoT智能设备中,针对多说话人语音环境,应用传统VAD模块的声纹验证系统错误拒绝率严重升高,甚至无法工作。本文从语音分离技术入手,设计实现了一种只对目标说话人触发的轻量化SD-VAD模型。首先,通过在基线模型中引入CNN和BiLSTM结构,使神经网络获得更强大的特征提取能力和上下文依赖性。其次,重新定义类内加权损失,对不同的分类混淆错误施加不同的惩罚,使模型重点关注目标说话人相关的分类,最大程度保留目标语音的完整性。最后,本文将SD-VAD应用于声纹验证模型的前端。实验结果表明,本文改进的结构相较于基线模型,mAP提升了1.5%,目标说话人类的AP提升了1.9%。相较于传统VAD模块,使基于ECAPA-TDNN的声纹验证系统错误拒绝率(FRR)降低了13.95%,较大提升了声纹验证系统的鲁棒性和使用灵活性。
展开更多
关键词
物联网
声纹验证
语音分离
多
说话
人
环境
语音活动检测(VAD)
ECAPA-TDNN
下载PDF
职称材料
改进的说话人聚类初始化和GMM的多说话人识别
被引量:
5
5
作者
曹洁
余丽珍
《计算机应用研究》
CSCD
北大核心
2012年第2期590-593,共4页
针对多说话人聚类线性初始化方法精度较差的问题,提出了一种改进的聚类初始化方法。该方法引入BIC对由线性初始化产生的初始类进行检测分割,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结...
针对多说话人聚类线性初始化方法精度较差的问题,提出了一种改进的聚类初始化方法。该方法引入BIC对由线性初始化产生的初始类进行检测分割,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结果表明,所提方法使说话人平均类纯度(ACP)提高了48.51%,系统的错误识别率平均降低12.09%。
展开更多
关键词
多
说话
人
识别
改进的聚类初始化
高斯混合模型
平均类纯度
下载PDF
职称材料
基于数值积分卡尔曼-概率假设密度滤波的多说话人跟踪方法
被引量:
1
6
作者
陈里铭
陈喆
+1 位作者
殷福亮
侯代文
《信号处理》
CSCD
北大核心
2012年第9期1209-1218,共10页
针对多说话人跟踪的非线性系统模型,提出了一种基于数值积分卡尔曼-概率假设密度滤波的多说话人跟踪方法。该方法采用麦克风阵列的时间延迟估计作为观测数据,利用具有三次代数精度的球面-径向数值积分准则计算非线性系统贝叶斯滤波器中...
针对多说话人跟踪的非线性系统模型,提出了一种基于数值积分卡尔曼-概率假设密度滤波的多说话人跟踪方法。该方法采用麦克风阵列的时间延迟估计作为观测数据,利用具有三次代数精度的球面-径向数值积分准则计算非线性系统贝叶斯滤波器中的多维积分,通过数值积分卡尔曼滤波和概率假设密度滤波对后验多说话人状态的一阶统计量进行估计,并通过递推更新得到说话人状态信息,实现非线性高斯系统的多说话人跟踪。该方法无需求解非线性系统函数的雅克比矩阵,且计算量较小。仿真实验分析了检测概率、虚警点数目、采样周期、信噪比以及混响时间变化时跟踪算法的性能。实验结果表明,该方法降低了系统模型非线性对滤波算法的影响,增强了跟踪算法的鲁棒性,提高了说话人状态和数目的估计精度。
展开更多
关键词
多
说话
人
跟踪
概率假设密度滤波
卡尔曼滤波
非线性滤波
下载PDF
职称材料
基于Fast ICA的多说话人识别系统
7
作者
周燕
《苏州市职业大学学报》
2011年第2期10-13,共4页
针对多人混合语音条件下说话人身份难以识别的问题,提出了一种使用快速独立分量分析(Fast ICA)方法分离各个说话人的语音信号,并采用RBF神经网络方法进行说话人识别的策略.由于不同语音源信号保持相对独立,利用盲信号分离的思想,使用Fas...
针对多人混合语音条件下说话人身份难以识别的问题,提出了一种使用快速独立分量分析(Fast ICA)方法分离各个说话人的语音信号,并采用RBF神经网络方法进行说话人识别的策略.由于不同语音源信号保持相对独立,利用盲信号分离的思想,使用Fast ICA方法用于信号的分离,从而对获得的独立语音数据分别提取说话人特征,采用RBF神经网络模型实现多说话人身份的识别.实验结果表明,该方法能有效地实现混合语音条件下的说话人识别.
展开更多
关键词
多
说话
人
识别
快速独立分量分析
RBF神经网络
下载PDF
职称材料
真实环境中基于子帧分析的多说话人定位算法
8
作者
蔡卫平
唐珺
《长江信息通信》
2021年第3期82-85,共4页
针对真实环境中的多说话人定位问题,提出一种基于子帧分析的多声源定位算法。该算法将一帧语音信号分为8个子帧,利用每个子帧信号计算相位变换加权的可控响应功率函数,分别搜索其最大值得到声源位置的子帧估计。由于语音信号在时域具有...
针对真实环境中的多说话人定位问题,提出一种基于子帧分析的多声源定位算法。该算法将一帧语音信号分为8个子帧,利用每个子帧信号计算相位变换加权的可控响应功率函数,分别搜索其最大值得到声源位置的子帧估计。由于语音信号在时域具有稀疏性,这些估计值对应多个声源的位置。利用会聚聚类算法将子帧估计值分为若干类,然后用平均子帧可控响应功率函数对估计值进行评价,得到最终的声源位置估计。实验表明,在2~3个说话人的情况下,该算法比传统算法的定位性能有较大幅度提高。
展开更多
关键词
真实环境
多
说话
人
定位
子帧分析
会聚聚类
下载PDF
职称材料
题名
基于全局风格嵌入的多说话人印尼语语音合成
1
作者
杨益灵
杨鉴
王发亮
机构
云南大学
出处
《计算机科学与应用》
2023年第1期126-135,共10页
文摘
由于印尼语高质量语料数据库的稀缺,该语种多说话人语音合成系统性能仍有待提升。因此以缓解低资源对多说话人语音合成性能的影响为目的,研究并实现了基于GST-Tacotron2模型框架的印尼语端到端语音合成系统。选用8.5小时的单说话人印尼语数据训练的合成系统,合成语音的MOS评分达4.11。在此基础上,设计多说话人印尼语语音合成系统,着重探索了在仅利用其他印尼语说话人少量语音数据进行混合训练时,采用说话人编码方法对多说话人合成自然度的影响。实验结果表明,利用合计14.5小时多说话人语音数据训练的合成模型,主位说话人合成语音的MOS评分到达了4.12,梅尔倒谱失真比单说话人最优模型降低了7.2%。其他说话人合成语音的MOS评分均大于3.60,验证了所提方法的有效性。
关键词
语音合成
多
说话
人
风格迁移
低资源
印尼语
分类号
TN912.33 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
电话语音中基于多说话人的声纹识别系统
2
作者
郑燕琳
杨晓炯
许星宇
机构
公安部第三研究所
出处
《电信科学》
北大核心
2010年第S2期105-108,共4页
文摘
电话语音声纹识别系统在实际应用中不可避免包含多说话人语音数据,由于不能有效地将对话双方的语音自动分离,从而使得输入语音含有多个说话人,直接影响到系统的识别性能。本文提出电话语音中基于多说话人的声纹识别系统,实际应用表明,该系统可得到较好声纹识别效果。本文的结果对探讨实际应用的多说话人电话语音声纹识别方法有重要意义。
关键词
多
说话
人
语音分离
声纹识别
Keywords
multi-speaker,speech separation,speaker recognition
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于MFCC和运动强度聚类初始化的多说话人识别
被引量:
10
3
作者
曹洁
余丽珍
机构
兰州理工大学计算机与通信学院
兰州理工大学电气工程与信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2012年第9期3295-3298,共4页
基金
甘肃省自然科学基金资助项目(1014ZSB064)
甘肃省财政厅资助项目(0914ZTB148)
文摘
针对常用基于音频特征的多说话人聚类初始化方法精度不高这一问题,提出了一种基于视频信号的新方法。该方法通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结果表明,在整个会议集上该方法相比其他方法有了很大改善,较之线性初始化系统的错误识别率平均降低了19.436%,较之改进的线性初始化系统的错误识别率平均降低了16.618%。
关键词
多
说话
人
识别
聚类初始化
运动强度特征
运动强度初始化
Keywords
multi-speaker recognition
clustering initialization
motion intensity feature
motion intensities initialization
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
多说话人语音环境下目标说话人声纹验证方法研究
被引量:
1
4
作者
陈家峥
张斌
李雅明
机构
桂林电子科技大学电子工程与自动化学院
出处
《物联网技术》
2024年第2期3-7,10,共6页
文摘
声纹身份验证技术越来越多的应用于IoT智能设备中,针对多说话人语音环境,应用传统VAD模块的声纹验证系统错误拒绝率严重升高,甚至无法工作。本文从语音分离技术入手,设计实现了一种只对目标说话人触发的轻量化SD-VAD模型。首先,通过在基线模型中引入CNN和BiLSTM结构,使神经网络获得更强大的特征提取能力和上下文依赖性。其次,重新定义类内加权损失,对不同的分类混淆错误施加不同的惩罚,使模型重点关注目标说话人相关的分类,最大程度保留目标语音的完整性。最后,本文将SD-VAD应用于声纹验证模型的前端。实验结果表明,本文改进的结构相较于基线模型,mAP提升了1.5%,目标说话人类的AP提升了1.9%。相较于传统VAD模块,使基于ECAPA-TDNN的声纹验证系统错误拒绝率(FRR)降低了13.95%,较大提升了声纹验证系统的鲁棒性和使用灵活性。
关键词
物联网
声纹验证
语音分离
多
说话
人
环境
语音活动检测(VAD)
ECAPA-TDNN
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
TN912-34 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
改进的说话人聚类初始化和GMM的多说话人识别
被引量:
5
5
作者
曹洁
余丽珍
机构
兰州理工大学计算机与通信学院
兰州理工大学电气工程与信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2012年第2期590-593,共4页
基金
甘肃省财政厅资助项目(0914ZTB148)
甘肃省自然科学基金资助项目(1014ZSB064)
文摘
针对多说话人聚类线性初始化方法精度较差的问题,提出了一种改进的聚类初始化方法。该方法引入BIC对由线性初始化产生的初始类进行检测分割,有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型(GMM)多说话人识别系统。实验结果表明,所提方法使说话人平均类纯度(ACP)提高了48.51%,系统的错误识别率平均降低12.09%。
关键词
多
说话
人
识别
改进的聚类初始化
高斯混合模型
平均类纯度
Keywords
multi-speaker recognition
improved clustering initialization
Gaussian mixture model
average cluster purity
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于数值积分卡尔曼-概率假设密度滤波的多说话人跟踪方法
被引量:
1
6
作者
陈里铭
陈喆
殷福亮
侯代文
机构
大连理工大学信息与通信工程学院
[
出处
《信号处理》
CSCD
北大核心
2012年第9期1209-1218,共10页
基金
国家自然科学基金(61172110
61172107
+1 种基金
60772161)
高等学校博士点专项科研基金(200801410015)资助课题~~
文摘
针对多说话人跟踪的非线性系统模型,提出了一种基于数值积分卡尔曼-概率假设密度滤波的多说话人跟踪方法。该方法采用麦克风阵列的时间延迟估计作为观测数据,利用具有三次代数精度的球面-径向数值积分准则计算非线性系统贝叶斯滤波器中的多维积分,通过数值积分卡尔曼滤波和概率假设密度滤波对后验多说话人状态的一阶统计量进行估计,并通过递推更新得到说话人状态信息,实现非线性高斯系统的多说话人跟踪。该方法无需求解非线性系统函数的雅克比矩阵,且计算量较小。仿真实验分析了检测概率、虚警点数目、采样周期、信噪比以及混响时间变化时跟踪算法的性能。实验结果表明,该方法降低了系统模型非线性对滤波算法的影响,增强了跟踪算法的鲁棒性,提高了说话人状态和数目的估计精度。
关键词
多
说话
人
跟踪
概率假设密度滤波
卡尔曼滤波
非线性滤波
Keywords
Multiple speakers tracking; Probability hypothesis density filter; Kalman filter; Nonlinear filter
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Fast ICA的多说话人识别系统
7
作者
周燕
机构
苏州市职业大学电子信息工程系
出处
《苏州市职业大学学报》
2011年第2期10-13,共4页
基金
苏州市职业大学创新团队基金资助项目(3100125)
江苏省"青蓝工程"资助项目
文摘
针对多人混合语音条件下说话人身份难以识别的问题,提出了一种使用快速独立分量分析(Fast ICA)方法分离各个说话人的语音信号,并采用RBF神经网络方法进行说话人识别的策略.由于不同语音源信号保持相对独立,利用盲信号分离的思想,使用Fast ICA方法用于信号的分离,从而对获得的独立语音数据分别提取说话人特征,采用RBF神经网络模型实现多说话人身份的识别.实验结果表明,该方法能有效地实现混合语音条件下的说话人识别.
关键词
多
说话
人
识别
快速独立分量分析
RBF神经网络
Keywords
multi-speaker recognition
Fast ICA
RBF neural network
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
真实环境中基于子帧分析的多说话人定位算法
8
作者
蔡卫平
唐珺
机构
九江职业技术学院电气工程学院
出处
《长江信息通信》
2021年第3期82-85,共4页
基金
课题项目:江西省教育厅科学技术研究项目【火灾报警系统用户信息远程传输装置设计与研制】,编号:GJJ204010。
文摘
针对真实环境中的多说话人定位问题,提出一种基于子帧分析的多声源定位算法。该算法将一帧语音信号分为8个子帧,利用每个子帧信号计算相位变换加权的可控响应功率函数,分别搜索其最大值得到声源位置的子帧估计。由于语音信号在时域具有稀疏性,这些估计值对应多个声源的位置。利用会聚聚类算法将子帧估计值分为若干类,然后用平均子帧可控响应功率函数对估计值进行评价,得到最终的声源位置估计。实验表明,在2~3个说话人的情况下,该算法比传统算法的定位性能有较大幅度提高。
关键词
真实环境
多
说话
人
定位
子帧分析
会聚聚类
Keywords
real environments
multiple speaker localization
sub-frame analysis
agglomerative clustering
分类号
TN912.3 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于全局风格嵌入的多说话人印尼语语音合成
杨益灵
杨鉴
王发亮
《计算机科学与应用》
2023
0
下载PDF
职称材料
2
电话语音中基于多说话人的声纹识别系统
郑燕琳
杨晓炯
许星宇
《电信科学》
北大核心
2010
0
下载PDF
职称材料
3
基于MFCC和运动强度聚类初始化的多说话人识别
曹洁
余丽珍
《计算机应用研究》
CSCD
北大核心
2012
10
下载PDF
职称材料
4
多说话人语音环境下目标说话人声纹验证方法研究
陈家峥
张斌
李雅明
《物联网技术》
2024
1
下载PDF
职称材料
5
改进的说话人聚类初始化和GMM的多说话人识别
曹洁
余丽珍
《计算机应用研究》
CSCD
北大核心
2012
5
下载PDF
职称材料
6
基于数值积分卡尔曼-概率假设密度滤波的多说话人跟踪方法
陈里铭
陈喆
殷福亮
侯代文
《信号处理》
CSCD
北大核心
2012
1
下载PDF
职称材料
7
基于Fast ICA的多说话人识别系统
周燕
《苏州市职业大学学报》
2011
0
下载PDF
职称材料
8
真实环境中基于子帧分析的多说话人定位算法
蔡卫平
唐珺
《长江信息通信》
2021
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部