-
题名基于SDC特征和GMM-UBM模型的自动语种识别
被引量:14
- 1
-
-
作者
姜洪臣
郑榕
张树武
徐波
-
机构
中国科学院自动化研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第1期49-53,共5页
-
基金
国家自然科学基金资助项目(60475014)
国家高技术研究发展计划资助项目(2003AA1155202005AA114130)
-
文摘
本文提出了一种基于SDC特征和GMM-UBM模型的自动语种识别方法。SDC特征由许多语音帧的一阶差分谱连接扩展而成,与传统的MFCC特征相比,包含了更多的时序特征信息。UBM模型反映了所有待识别语种的特征分布特性,借助贝叶斯自适应算法可以快速得到每个语种的模型。与传统的GMM方法相比,该方法的训练和识别的速度更快。该方法对OGI电话语音库中11个语种进行了测试,其10秒、30秒和45秒句子的最佳识别正确率分别为72.38%、82.62%和85.23%,识别速度约为0.03倍实时。
-
关键词
计算机应用
中文信息处理
SDC特征
GMM-UBM模型
贝叶斯自适应
自动语种识别
-
Keywords
computer application
Chinese information processing
shifted delta cepstra
GMM-UBM model
Bayesian adaptation
automatic language identification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于滑动倒谱的自动语言辨识
被引量:4
- 2
-
-
作者
王洪海
刘刚
郭军
-
机构
北京邮电大学信息工程学院
-
出处
《智能系统学报》
2008年第4期336-341,共6页
-
基金
"十一五"国家863计划重点项目课题(2006AA010102)
-
文摘
滑动差分倒谱在自动语言辨识的研究中获得了广泛的应用.但是滑动差分倒谱并没有利用语音信号的静态倒谱信息,在方言辨识中的研究表明静态倒谱比差分倒谱含有更多的特征信息.为此,提出了滑动倒谱(SC)的概念,并与滑动差分倒谱特征矢量进行了对比研究.首先利用开发集的语音考察了滑动差分倒谱和滑动倒谱的控制参数在不同取值的情况下对识别性能的影响,利用爬山法确定了这2类特征矢量达到局部最优控制参数组合的路径,然后利用测试集的数据对优化后的2类特征矢量建立的模型进行了闭集辨识和开集辨识.2种情况下的测试结果都表明滑动倒谱的性能优于滑动差分倒谱.并且这2种参数还具有特征互补性,将它们进行决策级数据融合可以进一步提高系统的性能.
-
关键词
自动语言辨识
滑动倒谱
滑动差分倒谱
高斯混合模型
-
Keywords
automatic language identification
shifted cepstra
shifted delta cepstra
Gaussian mixture model
-
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
-
-
题名自动语言辨识的研究方法及发展概述
被引量:1
- 3
-
-
作者
王洪海
刘刚
郭军
-
机构
北京邮电大学模式识别实验室
-
出处
《电脑与信息技术》
2007年第2期37-39,共3页
-
文摘
根据自动语言辨识研究中所采用的识别信息的不同,文章将研究中使用的方法归类为基于声学特征的方法、基于韵律特征的方法、基于音素识别的方法和基于高层语言信息的方法。通过对这些方法进行分类介绍并结合NIST的评测结果分析,阐述了近十几年来自动语言辨识研究的发展情况,最后对进一步研究中存在的问题和发展趋势进行了分析。
-
关键词
自动语言辨识
滑动差分倒谱
连续语音识别
概述
-
Keywords
automatic language identification
Shifted Delta Cepstra(SDC)
Continuous Speech Recognition(CSR)
overview
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于音素识别的语种辨识方法中的因子分析
被引量:1
- 4
-
-
作者
仲海兵
宋彦
戴礼荣
-
机构
中国科学技术大学电子工程与信息科学系科大讯飞语音实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2012年第1期105-110,共6页
-
文摘
在基于音素识别的语种辨识系统中,特定的一段语音,音素识别的结果会受到说话人和信道等干扰因素的影响.对此,文中基于音素搭配关系对每段语音构建相应的特征向量表示.在向量空间中,利用因子分析建立噪声子空间的数学描述模型,并在语言模型的训练和识别过程加以消除.在NISTLRE2007的测试任务中,相对于基于音素识别的语种辨识基线系统,该方法可有效提高系统性能.在30s时长测试中,基于音素识别的语言模型和基于音素识别的支持向量机模型的等错误率分别相对降低14.4%和12.9%.
-
关键词
自动语种识别
因子分析
音素识别器
-
Keywords
automatic language identification
Factor Analysis
Phone Recognizer
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名Cohen类双线性时频分布在语音识别上的应用
- 5
-
-
作者
蒋治宏
黄力
莫徽忠
-
机构
柳州职业技术学院
-
出处
《现代电子技术》
2007年第16期128-130,共3页
-
文摘
短时分析技术有着与生俱来的短时平稳假设限制,众多非平稳信号处理技术有着克服这一根本技术限制的潜力。非平稳信号处理技术中的Cohen类双线性时频分布技术拥有良好的时频分辨率,其中的WVD的时频分辨率已达到不确定原理下界,在非平稳信号处理技术中有独特优势。详细介绍了将这一优势在语音自动识别上的应用原理,提出了一种新型的语音智能识别方法。
-
关键词
自动语言辨识
时频主分量分析
Cohen类双线性时频分布
核函数
-
Keywords
automatic language identification
time - frequency principal component analysis
Cohen bilinear time - frequency distribution
kernel function
-
分类号
TP311.134.3
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于C_nV结构的自动语言辨识研究
被引量:2
- 6
-
-
作者
戴冠男
王炳锡
屈丹
-
机构
解放军信息工程大学
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第23期173-175,共3页
-
基金
国家自然科学基金资助项目(编号:60372038)
-
文摘
与说话人识别、连续语音识别相比,自动语言辨识是一个相对较新的研究,而且是一项较难的课题。与音素配位学相比较韵律是语言辨识的更有希望的一个语言辨识特征。论文介绍了一种基于伪音节结构CnV的自动语言辨识方法,该系统提取了辅音、元音构成的伪音节结构的MFCC和!MFCC特征参数,使用了与语言无关的GMM算法模型化该特征。经过对OGI-TS数据库中的英语、法语、汉语测试表明,元音、辅音特征信息在语言辨识中起到一定作用,伪音节结构模型也是语言辨识的有效模型之一。
-
关键词
自动语言辩识(LID)
伪音节(PS)
伪音节结构模型(PSM)
高斯混合模型(GMM)
-
Keywords
automatic language identification (LID), Pseudo-Syllable (PS), Pseudo-Syllable Model (PSM), Gaussian Mixture Model (GMM)
-
分类号
TN912.34
[电子电信—通信与信息系统]
-