期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于乘积HMM的双模态语音识别方法 被引量:8
1
作者 赵晖 顾亚强 唐朝京 《计算机工程》 CAS CSCD 北大核心 2010年第8期7-9,共3页
针对噪声环境中的语音识别,提出一种用于双模态语音识别的乘积隐马尔可夫模型(HMM)。在独立训练音频HMM和视频HMM的基础上,建立二维训练模型,表征音频流和视频流之间的异步特性。引入权重系数,根据不同噪声环境自适应调整音频流与视频... 针对噪声环境中的语音识别,提出一种用于双模态语音识别的乘积隐马尔可夫模型(HMM)。在独立训练音频HMM和视频HMM的基础上,建立二维训练模型,表征音频流和视频流之间的异步特性。引入权重系数,根据不同噪声环境自适应调整音频流与视频流的权重。实验结果证明,与其他双模态语音识别方法相比,该方法的识别性能更高。 展开更多
关键词 模态语音识别 乘积隐马尔可夫模型 异步特性 权重系数
下载PDF
双模态车载语音控制仿真系统的设计与实现
2
作者 严乐贫 奉小慧 《计算机与现代化》 2010年第8期211-215,共5页
针对音、视频双模态语音识别能有效地提高噪声环境下的识别率的特性,本文设计了车载语音控制指令识别实验系统。该系统模拟车载环境,把说话时的视频信息融入到语音识别系统中,系统分为模型训练、离线识别和在线识别3部分。在线识别全程... 针对音、视频双模态语音识别能有效地提高噪声环境下的识别率的特性,本文设计了车载语音控制指令识别实验系统。该系统模拟车载环境,把说话时的视频信息融入到语音识别系统中,系统分为模型训练、离线识别和在线识别3部分。在线识别全程采用语音作为人机交互手段,并具备用户自适应的功能。离线识别部分将系统产生的数据分层次进行统计,非常适合进行双模态语音识别算法研究。 展开更多
关键词 模态语音识别 语音识别 车载控制
下载PDF
基于调度下令的录音自动识别方法及关键技术研究 被引量:1
3
作者 傅靖 季铮铮 +1 位作者 周红杰 谈叶月 《自动化与仪表》 2022年第3期96-101,共6页
为提高企业办公中录音的识别率,该研究应用机器人流程自动化技术,建立基于PRA接口的录音自动识别调度下令系统,使用主流的RPA开发工具UiPath,实现企业业务流程自动化。建立基于注意力机制的AVSR双模态语音识别模型,对原始音频信号进行... 为提高企业办公中录音的识别率,该研究应用机器人流程自动化技术,建立基于PRA接口的录音自动识别调度下令系统,使用主流的RPA开发工具UiPath,实现企业业务流程自动化。建立基于注意力机制的AVSR双模态语音识别模型,对原始音频信号进行谱减法去噪,使用注意力机制对特征进行前期和后期融合,在音频缺失和噪声污染的情况下辅助修正音频特征。为提高系统的任务执行效率,提出一种基于动态优先级的任务调度下令方法,计算等待队列中等待任务的实时优先级,选择动态优先级最高的任务执行。实验结果表明,该研究系统的任务调度完成时间较低,任务数高达80个时任务调度完成时间为3086ms,训练次数达到200次时对存在噪声的语音信号的识别率高达99%。 展开更多
关键词 机器人流程自动化 注意力机制 模态语音识别 动态优先级 任务调度下令
下载PDF
双模态语音识别中乘积HMM权重系数与瞬时SNR的关系研究
4
作者 赵晖 顾亚强 唐朝京 《计算机应用》 CSCD 北大核心 2009年第B12期279-281,285,共4页
在有噪声污染等复杂情况下,为了能够得到更高的语音识别率,提出了一种新的乘积隐马尔可夫模型(HMM)用于双模态语音识别,研究并确定了模型中权重系数与瞬时信噪比(SNR)之间的关系。该模型在独立训练音频和视频HMM的基础上,建立二维训练模... 在有噪声污染等复杂情况下,为了能够得到更高的语音识别率,提出了一种新的乘积隐马尔可夫模型(HMM)用于双模态语音识别,研究并确定了模型中权重系数与瞬时信噪比(SNR)之间的关系。该模型在独立训练音频和视频HMM的基础上,建立二维训练模型,并使用重估策略保证更高的准确性。同时引入广义几率递减(GPD)算法,调整音视频特征的权重系数。实验结果表明,提出的方法在噪声环境下体现出了良好稳定的识别性能。 展开更多
关键词 模态语音识别 乘积隐马尔可夫模型 权重系数 重估 广义几率递减算法
下载PDF
汉语听觉视觉双模态信息的互补作用 被引量:4
5
作者 周治 杜利民 徐彦君 《中国科学(E辑)》 CSCD 2000年第3期283-288,共6页
从汉语听觉视觉双模态数据库CAVSR1.0中选出 10个人的视听数据 ,每人发 14个音节 /ba,bi,bian ,biao ,bin ,de ,di,dian ,duo,dong,gai,gan ,gen ,gu/ .感知实验的样本分单语音信号、语音信号 +视觉信号、单视觉信号 3类 .单语音信号、... 从汉语听觉视觉双模态数据库CAVSR1.0中选出 10个人的视听数据 ,每人发 14个音节 /ba,bi,bian ,biao ,bin ,de ,di,dian ,duo,dong,gai,gan ,gen ,gu/ .感知实验的样本分单语音信号、语音信号 +视觉信号、单视觉信号 3类 .单语音信号、语音信号+视觉信号分别包括 5种声学条件 :无噪语音信号 ,信噪比S/N为 0 ,-8,-12 ,-16dB的语音信号 .由 2 0名观察者进行感知识别 .通过对实验结果分析 ,发现人类对单视觉信号有较强的识别能力 ;声母的发音方法、发音部位和韵母造成了视觉上的不同差异 ;在噪声环境下 ,视觉信息对听觉信息有非常明显的补偿作用 ,可以使正确识别率大幅度提高 . 展开更多
关键词 听觉视觉模态语音识别 汉语 视听信息 互补作
原文传递
双模态跨语料库语音情感识别
6
作者 刘云翔 张可欣 《应用技术学报》 2024年第1期77-84,共8页
语音情感识别(SER)在双模态的跨数据库语音情感识别研究较少,跨数据库情感识别过度减少数据集之间差异的同时,会忽视情感判别能力的特征的问题。YouTube数据集为源数据,互动情感二元动作捕捉数据库(IEMOCAP)为目标数据。在源数据和目标... 语音情感识别(SER)在双模态的跨数据库语音情感识别研究较少,跨数据库情感识别过度减少数据集之间差异的同时,会忽视情感判别能力的特征的问题。YouTube数据集为源数据,互动情感二元动作捕捉数据库(IEMOCAP)为目标数据。在源数据和目标数据中,Opensmile工具箱用来提取语音特征,将提取的语音特征输入到CNN和双向长短期记忆网络(BLSTM),来提取更高层次的特征,文本模态为语音信号的翻译稿。首先双向编码器表示转换器(Bert)把文本信息向量化,BLSTM提取文本特征,然后设计模态不变损失来形成2种模态的公共表示空间。为了解决跨语料库的SER问题,通过联合优化线性判别分析(LDA)、最大平均差异(MMD)、图嵌入(GE)和标签回归(LSR),学习源数据和目标数据的公共子空间。为了保留情绪辨别特征,情感判别损失与MMD+GE+LDA+LSR相结合。SVM分类器作为迁移公共子空间的最终情感分类,IEMOCAP上的实验结果表明,此方法优于其他先进的跨语料库和双模态SER. 展开更多
关键词 跨语料库 情感识别 模态语音情感识别 迁移子空间学习 循环神经网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部