期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
67
篇文章
<
1
2
…
4
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
用于口型识别的实时唇定位方法
被引量:
10
1
作者
姚鸿勋
高文
+2 位作者
李静梅
吕雅娟
王瑞
《软件学报》
EI
CSCD
北大核心
2000年第8期1126-1132,共7页
在许多应用于有噪声环境下的语音识别系统中 ,唇读技术能有效地降低噪声的影响 ,通过视觉通道来补充仅取决于听觉通道的信息量 ,从而提高语音识别系统的识别率 .该文提出了一种有效和稳健的唇定位跟踪方法 ,以满足不用特殊标识物和规范...
在许多应用于有噪声环境下的语音识别系统中 ,唇读技术能有效地降低噪声的影响 ,通过视觉通道来补充仅取决于听觉通道的信息量 ,从而提高语音识别系统的识别率 .该文提出了一种有效和稳健的唇定位跟踪方法 ,以满足不用特殊标识物和规范性照明就能对信息进行有效提取的应用需求 .该方法首先用肤色模型查找脸 ;然后用迭代算法搜索脸部区域内的眼睛 ;再根据眼睛的位置来确定脸的大小和位置 ,并对脸的下半部分采用彩色坐标变换法将唇从肤色中明显地区分出来 ;最后 ,用可变模板将上下唇的内外轮廓描述出来 .
展开更多
关键词
口型识别
唇定位
语音识别系统
模式识别
下载PDF
职称材料
基于色度分析的唇动特征提取与识别
被引量:
9
2
作者
姚鸿勋
吕雅娟
高文
《电子学报》
EI
CAS
CSCD
北大核心
2002年第2期168-172,共5页
本文提出了一种基于色度滤波的唇动特征提取与识别方法 ,它通过唇的色度滤波 ,得到增强的唇动图像 ,再利用可变模板 ,描述口型轮廓并提取特征参数 ,并用HMM模型进行唇运动序列图像识别 .该方法鲁棒性强 ,对光照没有苛刻的要求 ,且针对...
本文提出了一种基于色度滤波的唇动特征提取与识别方法 ,它通过唇的色度滤波 ,得到增强的唇动图像 ,再利用可变模板 ,描述口型轮廓并提取特征参数 ,并用HMM模型进行唇运动序列图像识别 .该方法鲁棒性强 ,对光照没有苛刻的要求 ,且针对非特定人 ,适用于自然条件下的实用环境 ,解决了可变模板对目标边缘有较高分辨率的要求 ,使方法更实用化 .本文的实验是基于单纯的视觉信息 (没有声音信道的信息 )的唇动识别 ,不加语音信息 ,实验集合只限于单韵母 ,识别率可达 95 8% .
展开更多
关键词
色度分析
图像识别
唇动
特征提取
下载PDF
职称材料
非监督、多级嘴唇区域分割方法
被引量:
4
3
作者
王瑞
高文
《计算机工程与应用》
CSCD
北大核心
2003年第2期53-56,共4页
该文介绍了一个非监督、多级嘴唇区域分割检测方法。首先提出利用fisher变换增强嘴唇区域,然后利用嘴唇在人脸区域的分布面积比,提出利用统计阈值完成嘴唇的初步分割,最后利用嘴唇对称性和轮廓光滑性的先验知识,提出了基于局部阈值调整...
该文介绍了一个非监督、多级嘴唇区域分割检测方法。首先提出利用fisher变换增强嘴唇区域,然后利用嘴唇在人脸区域的分布面积比,提出利用统计阈值完成嘴唇的初步分割,最后利用嘴唇对称性和轮廓光滑性的先验知识,提出了基于局部阈值调整完成嘴唇的精细分割。实验证明该方法在不同光照条件下、对不同人、各种表情都能自动地、鲁棒地、精确地检测出嘴唇区域,并较准确提取初步的嘴唇几何参数。利用这些几何参数作为轮廓定位的初始化条件,可以大大提高变形模板和ASM模型等嘴唇轮廓定位算法的速度和准确度。
展开更多
关键词
多级嘴唇区域分割方法
嘴唇分割
唇动跟踪
图像分割
人脸检测系统
下载PDF
职称材料
基于PS-Level Set的嘴唇几何形状定位模型
被引量:
6
4
作者
奉小慧
贺前华
+1 位作者
王伟凝
严乐贫
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010年第2期121-125,共5页
针对面向唇读的水平集模型在嘴唇分割中存在边界过收敛和过早收敛的问题,文中提出了一种改进的基于先验知识的水平集模型(简称为PS-Level Set)来进行嘴唇几何形状的定位.PS-Level Set模型利用改进的差值能量函数引入嘴唇形状的先验信息...
针对面向唇读的水平集模型在嘴唇分割中存在边界过收敛和过早收敛的问题,文中提出了一种改进的基于先验知识的水平集模型(简称为PS-Level Set)来进行嘴唇几何形状的定位.PS-Level Set模型利用改进的差值能量函数引入嘴唇形状的先验信息.在曲线演化过程中,反复比较演化曲线和先验曲线的差距,使曲线的演化形状逐渐逼近先验模型形状,从而更精确地收敛于目标物体实际轮廓.实验表明,用PS-Level Set模型定位嘴唇几何形状的准确率比用水平集模型提高了8.38%.
展开更多
关键词
唇读
形状定位
水平集模型
曲线演化
下载PDF
职称材料
一种面向汉语语音识别的口形形状识别方法
被引量:
6
5
作者
钟晓
周昌乐
俞瑞钊
《软件学报》
EI
CSCD
北大核心
1999年第2期205-209,共5页
借助汉语发音口形的生理特点,在音素识别这一水平上进行汉语语音的辅助识别,具体给出了一种口形形状识别和灰度的统计方法及其具体实现.实验结果基本与理论估算相吻合,对5个元音的口形区别正确率在80%以上。
关键词
汉语语音识别
口语看话
模式识别
口形形状识别
下载PDF
职称材料
基于Lab色度空间a分量的唇部提取方法
被引量:
5
6
作者
梁亚玲
杜明辉
《计算机工程》
CAS
CSCD
北大核心
2011年第3期19-21,24,共4页
唇部提取是唇读系统和基于唇部的身份识别系统中的重要预处理过程,提取效果直接影响系统性能,现有的唇部提取方法对被提取人肤色有一定依赖性,且对带胡须和露齿图像的唇部提取效果较差。针对该问题,通过对常用色度空间各分量的可分离性...
唇部提取是唇读系统和基于唇部的身份识别系统中的重要预处理过程,提取效果直接影响系统性能,现有的唇部提取方法对被提取人肤色有一定依赖性,且对带胡须和露齿图像的唇部提取效果较差。针对该问题,通过对常用色度空间各分量的可分离性进行研究,提出基于Lab色度空间的a分量唇部提取方法。实验结果证明,该方法能实现唇部的自动分割和提取,具有较好的鲁棒性。
展开更多
关键词
唇部提取
Lab色度空间
唇读
排红法
色度分布差异
下载PDF
职称材料
听障大学生汉语唇读能力对阅读理解的影响
被引量:
4
7
作者
张奋
雷江华
+2 位作者
陈亮
王海凤
魏雪寒
《中国特殊教育》
CSSCI
北大核心
2023年第10期29-35,共7页
唇读解码在听障学生拼音文字阅读理解中发挥重要作用,但其在汉语阅读理解中的作用尚未可知。本研究选取154名听障大学生和97名健听大学生,采用汉语唇读测试与阅读理解能力测试,深入考察两类群体在阅读理解中汉语唇读解码的作用。结果显...
唇读解码在听障学生拼音文字阅读理解中发挥重要作用,但其在汉语阅读理解中的作用尚未可知。本研究选取154名听障大学生和97名健听大学生,采用汉语唇读测试与阅读理解能力测试,深入考察两类群体在阅读理解中汉语唇读解码的作用。结果显示,听障大学生阅读理解得分显著低于健听大学生;高唇读能力组听障大学生阅读理解得分显著高于低唇读能力组,但是在健听大学生中,三组之间无显著性差异。结果表明,与健听大学生相比,听障大学生汉语唇读能力影响阅读理解,汉语唇读能力高的听障大学生,其阅读理解能力较高。即在阅读理解中,高唇读能力组听障大学生解码能力较强。听障大学生在阅读理解加工过程中采用自下而上的策略,唇读内在强力支撑着听障大学生的汉语阅读理解,而健听大学生更多采用自动化加工策略。研究建议,在阅读理解中,要加强唇读口形、语音、语义与书面汉字字形、语音以及语义之间的关系,实现阅读理解活动中形、音、义的转换与联结。
展开更多
关键词
听障大学生
唇读
阅读理解
解码
原文传递
基于卷积神经网络的鸟类视频图像检索研究
被引量:
5
8
作者
张惠凡
罗泽
《科研信息化技术与应用》
2017年第5期50-57,共8页
本文介绍了在基于卷积神经网络的图像检索分析研究中,针对青海湖野鸟监控的视频关键帧图像数据,首先我们采用Vgg16神经网络的预训练模型来提取图像的特征,然后将特征向量作为图像的代表信息进行存储,构造图像的特征向量空间。之后对存...
本文介绍了在基于卷积神经网络的图像检索分析研究中,针对青海湖野鸟监控的视频关键帧图像数据,首先我们采用Vgg16神经网络的预训练模型来提取图像的特征,然后将特征向量作为图像的代表信息进行存储,构造图像的特征向量空间。之后对存储的高维特征向量进行降维处理,用主成分分析的方法将特征向量映射到低维的向量空间。最后应用余弦相似度算法对查询图像的特征向量与特征库中向量进行匹配,实现相似图像的检索。本文对提出的方法进行了实验,通过特征提取和恰当的特征降维,测试数据的检索准确率达到了89.82%。实验表明,本文提出的方法可以有效的实现鸟类图像的相似性检索。
展开更多
关键词
图像检索
特征向量
主成分分析
Vgg16
原文传递
解耦同类自知识蒸馏的轻量化唇语识别方法
被引量:
1
9
作者
马金林
刘宇灏
+2 位作者
马自萍
郭兆伟
吕鑫
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2024年第12期3709-3719,共11页
针对唇语识别模型因参数量和计算量较大而无法在移动终端和边缘设备上应用的问题,提出基于解耦同类自知识蒸馏和GhostNet-TSM的唇语识别方法。提出具有时序特征提取能力的GhostNet-TSM网络;将同类自知识蒸馏的特征解耦为目标类特征和非...
针对唇语识别模型因参数量和计算量较大而无法在移动终端和边缘设备上应用的问题,提出基于解耦同类自知识蒸馏和GhostNet-TSM的唇语识别方法。提出具有时序特征提取能力的GhostNet-TSM网络;将同类自知识蒸馏的特征解耦为目标类特征和非目标类特征,分别设置损失函数,以提高模型的识别精度;使用解耦同类自知识蒸馏方法在LRW和LIP350数据集上进行模型训练,并在OuluVS数据集上进行验证。实验结果表明:GhostNet-TSM网络在LRW数据集上达到了85.2%的识别准确率,超过了多数非轻量化模型,浮点数计算量和模型参数量降低至0.988 GFLOPs和20.310×10~6。
展开更多
关键词
唇语识别
知识蒸馏
轻量化
GhostNet
TSM模块
下载PDF
职称材料
大词汇量环境噪声下的多模态视听语音识别方法
被引量:
4
10
作者
吴兰
杨攀
+1 位作者
李斌全
王涵
《广西科学》
CAS
北大核心
2023年第1期52-60,共9页
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听...
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。
展开更多
关键词
注意力机制
多模态
视听语音识别
唇读
语音识别
下载PDF
职称材料
基于改进的snake模型的嘴唇轮廓提取
被引量:
4
11
作者
余健仪
郑胜林
+1 位作者
潘保昌
邱海枫
《计算机技术与发展》
2008年第8期95-97,100,共4页
为了更好地利用snake模型来提取彩色图像中的物体轮廓,提出一种改进的snake算法。此方法首先自动生成snake的初始模型,然后在GVF-snake的基础上重新设计了snake的外部能量函数,采用色彩聚类算法对原始图像进行分割,利用像素到聚类中心...
为了更好地利用snake模型来提取彩色图像中的物体轮廓,提出一种改进的snake算法。此方法首先自动生成snake的初始模型,然后在GVF-snake的基础上重新设计了snake的外部能量函数,采用色彩聚类算法对原始图像进行分割,利用像素到聚类中心的距离增强图像并进行差分运算,提取有意义区域的边缘梯度,对GVF向量场进行了归一化处理并改进了平滑因子。实验结果证明,改进后的算法,特别是在处理彩色图像时,大大优于原始方法,提高了轮廓提取的精度且有较好的鲁棒性。
展开更多
关键词
唇读识别
轮廓提取
SNAKE模型
GVF
能量涵数
下载PDF
职称材料
基于嘴部状态分类的内唇开度估计算法
被引量:
3
12
作者
黄秀清
黄巍
+2 位作者
高强
陆云
陈传波
《计算机科学》
CSCD
北大核心
2014年第5期296-298,303,共4页
为了准确地识别嘴部张合程度,提出了一种基于嘴部状态分类的内唇开度估计算法。将嘴部局部图像从RGB空间转化到YIQ空间,利用牙齿、嘴唇和舌头所对应的Q值的极值点数量和位置分布将嘴部状态分为3类,对每一类分别确定不同的一阶差分范围,...
为了准确地识别嘴部张合程度,提出了一种基于嘴部状态分类的内唇开度估计算法。将嘴部局部图像从RGB空间转化到YIQ空间,利用牙齿、嘴唇和舌头所对应的Q值的极值点数量和位置分布将嘴部状态分为3类,对每一类分别确定不同的一阶差分范围,使得能在有舌头、牙齿存在的情况下准确地定位出内唇边界点的位置,进而计算出内唇开度值。实验结果表明,基于嘴部状态分类的内唇开度估计算法计算出的内唇开度估计值与实际值之间的相关度达95%,比经典的Saha方法提高了5%。
展开更多
关键词
内唇开度
唇读
YIQ
嘴唇轮廓
ADABOOST
下载PDF
职称材料
唇读研究进展与展望
被引量:
4
13
作者
陈小鼎
盛常冲
+1 位作者
匡纲要
刘丽
《自动化学报》
EI
CSCD
北大核心
2020年第11期2275-2301,共27页
唇读,也称视觉语言识别,旨在通过说话者嘴唇运动的视觉信息,解码出其所说文本内容.唇读是计算机视觉和模式识别领域的一个重要问题,在公共安防、医疗、国防军事和影视娱乐等领域有着广泛的应用价值.近年来,深度学习技术极大地推动了唇...
唇读,也称视觉语言识别,旨在通过说话者嘴唇运动的视觉信息,解码出其所说文本内容.唇读是计算机视觉和模式识别领域的一个重要问题,在公共安防、医疗、国防军事和影视娱乐等领域有着广泛的应用价值.近年来,深度学习技术极大地推动了唇读研究进展.本文首先阐述了唇读研究的内容和意义,并深入剖析了唇读研究面临的难点与挑战;然后介绍了目前唇读研究的现状与发展水平,对近期主流唇读方法进行了梳理、归类和评述,包括传统方法和近期的基于深度学习的方法;最后,探讨唇读研究潜在的问题和可能的研究方向.以期引起大家对唇读问题的关注与兴趣,并推动与此相关问题的研究进展.
展开更多
关键词
唇读
视觉语言识别
时空特征提取
计算机视觉
深度学习
下载PDF
职称材料
唇语识别关键技术研究进展
被引量:
4
14
作者
荣传振
岳振军
+2 位作者
贾永兴
王渊
杨宇
《数据采集与处理》
CSCD
北大核心
2012年第S2期277-283,共7页
唇形及其动态特征在人类语言感知的过程中起着重要作用,通过分析唇形图像序列,根据口型特征向量和特定语音之间的对应关系,不仅可以帮助理解讲话内容,提高语音识别的识别率,而且还可以识别出话音语种和讲话人身份。本文从唇语识别系统...
唇形及其动态特征在人类语言感知的过程中起着重要作用,通过分析唇形图像序列,根据口型特征向量和特定语音之间的对应关系,不仅可以帮助理解讲话内容,提高语音识别的识别率,而且还可以识别出话音语种和讲话人身份。本文从唇语识别系统的各环节入手综述了该领域的最新研究进展,并讨论了现有方法的优缺点,最后提出了唇语识别新的应用领域和有待进一步研究的问题。
展开更多
关键词
唇语识别
特征提取
信息融合
语言模型
下载PDF
职称材料
HSKDLR:同类自知识蒸馏的轻量化唇语识别方法
被引量:
2
15
作者
马金林
刘宇灏
+2 位作者
马自萍
巩元文
朱艳彬
《计算机科学与探索》
CSCD
北大核心
2023年第11期2689-2702,共14页
针对唇语识别模型的识别率较低和计算量较大的问题,提出一种同类自知识蒸馏的轻量化唇语识别模型(HSKDLR)。首先,提出关注唇部图像空间特征的S-SE注意力模块,用其构建提取唇部图像通道特征和空间特征的i-Ghost Bottleneck模块,以提升唇...
针对唇语识别模型的识别率较低和计算量较大的问题,提出一种同类自知识蒸馏的轻量化唇语识别模型(HSKDLR)。首先,提出关注唇部图像空间特征的S-SE注意力模块,用其构建提取唇部图像通道特征和空间特征的i-Ghost Bottleneck模块,以提升唇语识别模型的准确率;其次,基于i-Ghost Bottleneck构建唇语识别模型,该模型通过优化瓶颈结构的组合方式降低模型计算量;然后,为提升模型准确率,减少模型运行时间,提出同类自知识蒸馏(HSKD)的模型训练方法;最后,使用同类自知识蒸馏方法训练唇语识别模型,并检验其识别性能。实验结果表明:与其他方法相比,HSKDLR具有更高的识别准确率和更低的计算量,在LRW数据集上的准确率达87.3%,浮点数运算量低至2.564 GFLOPs,参数量低至3.8723×107;同类自知识蒸馏可被应用于大多数唇语识别模型,帮助其有效提升识别准确率,减少训练时间。
展开更多
关键词
唇语识别
轻量化
知识蒸馏
自知识
Ghost
Bottleneck
下载PDF
职称材料
基于DCT和ONPP的唇部特征提取
被引量:
1
16
作者
梁亚玲
杜明辉
《计算机科学》
CSCD
北大核心
2011年第5期261-264,共4页
针对单视觉通道唇读系统中唇部特征的提取问题提出了基于DCT+ONPP的特征提取方法。相对于保持全局结构特性的PCA方法,ONPP是一种既保持局部邻域几何特性又兼顾全局的线性降维技术。实验证明提出的方法优于DCT+PCA的特征提取方法。另外...
针对单视觉通道唇读系统中唇部特征的提取问题提出了基于DCT+ONPP的特征提取方法。相对于保持全局结构特性的PCA方法,ONPP是一种既保持局部邻域几何特性又兼顾全局的线性降维技术。实验证明提出的方法优于DCT+PCA的特征提取方法。另外还对邻域点个数对系统性能的影响做了相应的研究,发现邻域点为3时该方法具有较好的识别效果。
展开更多
关键词
唇部特征提取
正交邻域保持方法
唇读
主成分分析
下载PDF
职称材料
基于中文发音视觉特点的唇语识别方法研究
被引量:
2
17
作者
何珊
袁家斌
陆要要
《计算机工程与应用》
CSCD
北大核心
2022年第4期157-162,共6页
随着深度学习的发展,唇语识别技术在英文方面取得了长足的进步,但针对中文无论是在数据集丰富性还是识别准确率上均存在一定的落差。通过分析中文发音的视觉特点,提出"视觉拼音",意图规避中文在视觉表达上的歧义性。为了验证...
随着深度学习的发展,唇语识别技术在英文方面取得了长足的进步,但针对中文无论是在数据集丰富性还是识别准确率上均存在一定的落差。通过分析中文发音的视觉特点,提出"视觉拼音",意图规避中文在视觉表达上的歧义性。为了验证视觉拼音的有效性,建立了中文句子级唇语识别模型CHSLR-VP。该模型是一个端到端结构,其中以视觉拼音为媒介,将视频帧序列转换成最终的汉字语句。通过实验得出,相比于其他唇语识别方法,基于视觉拼音建立的CHSLR-VP模型性能更优,证明了视觉拼音的参与可明显提高中文唇语识别的准确率,为将来的相关工作提供了基准。
展开更多
关键词
唇语识别
视觉拼音
深度学习
卷积神经网络(CNN)
序列到序列模型
注意机制
下载PDF
职称材料
基于DT-CWT和PCA的唇部特征提取方法
被引量:
1
18
作者
梁亚玲
杜明辉
《电视技术》
北大核心
2011年第3期93-96,共4页
针对单视觉唇读系统中唇部特征的提取问题,提出了基于双树复小波和PCA的唇部特征提取方法。利用双树复小波变换的近似平移不变性,通过将变换后的系数幅值重新排列,克服了感兴趣区域中唇部偏移的影响。与DCT相比,双树复小波变换既可反映...
针对单视觉唇读系统中唇部特征的提取问题,提出了基于双树复小波和PCA的唇部特征提取方法。利用双树复小波变换的近似平移不变性,通过将变换后的系数幅值重新排列,克服了感兴趣区域中唇部偏移的影响。与DCT相比,双树复小波变换既可反映输入信号的频域特性,又能反映其空间域特性,具有近似平移不变性,这些特性使得DT-CWT+PCA的方法优于DCT+PCA的特征提取方法。实验结果表明,该方法在识别率方面有较大的提高。
展开更多
关键词
唇部特征提取
双树复数小波变换
唇读
主成分分析
下载PDF
职称材料
基于Kinect的听障人士语言能力康复辅助系统
被引量:
1
19
作者
刘建通
《现代计算机》
2016年第5期92-95,共4页
近年来,唇读技术在科研和工业界得到广泛关注和研究。唇读能够应用于辅助语音识别、口型合成、聋人辅助教育等领域。Kinect是微软公司推出的体感设备,具有人脸追踪的功能,并能够完成唇读系统中的唇部检测和定位以及唇动特征提取的任务...
近年来,唇读技术在科研和工业界得到广泛关注和研究。唇读能够应用于辅助语音识别、口型合成、聋人辅助教育等领域。Kinect是微软公司推出的体感设备,具有人脸追踪的功能,并能够完成唇读系统中的唇部检测和定位以及唇动特征提取的任务。提出一种基于Kinect的听障人士语言能力康复辅助系统的设计方案。
展开更多
关键词
语言能力康复
唇读
唇语识别
KINECT
下载PDF
职称材料
基于发音轨迹的可视语音合成
被引量:
1
20
作者
郑红娜
白静
+1 位作者
王岚
朱云
《计算机应用与软件》
CSCD
北大核心
2013年第6期253-257,261,共6页
着眼于语音可视化。为呈现真实说话人各发音器官的运动,提出一种改进的CM协同发音模型,并采用该方法合成汉字的发音轨迹,进而以此驱动和控制虚拟3D音视频说话人头模型,直观呈现通常可见及不可见发音器官的发音运动。实验证明:由改进方...
着眼于语音可视化。为呈现真实说话人各发音器官的运动,提出一种改进的CM协同发音模型,并采用该方法合成汉字的发音轨迹,进而以此驱动和控制虚拟3D音视频说话人头模型,直观呈现通常可见及不可见发音器官的发音运动。实验证明:由改进方法获得的合成发音轨迹更逼近真实发音轨迹。同时,为了定量比较舌读和唇读在语音感知和识别中的作用,设计三组感知实验,实验结果显示:叠加了唇读信息的感知识别率较单纯的加噪语音的识别率提高了25.8%;而叠加了舌读信息的识别率较单纯听觉信息的识别率提高了26.7%。因此,当语音恶化时,舌读信息可提供大于唇读信息的补充作用,且舌读信息与唇读信息一样具有识别力。
展开更多
关键词
语音可视化
CM协同发音模型
改进的CM协同发音模型
舌读
唇读
下载PDF
职称材料
题名
用于口型识别的实时唇定位方法
被引量:
10
1
作者
姚鸿勋
高文
李静梅
吕雅娟
王瑞
机构
哈尔滨工业大学计算机科学与工程系
哈尔滨工程大学计算机科学与信息系
出处
《软件学报》
EI
CSCD
北大核心
2000年第8期1126-1132,共7页
基金
国家自然科学基金! (No.6 978930 1)
国家 86 3高科技项目基金! (No.86 3- 30 6 - ZT0 3- 0 1- 2 )资助
文摘
在许多应用于有噪声环境下的语音识别系统中 ,唇读技术能有效地降低噪声的影响 ,通过视觉通道来补充仅取决于听觉通道的信息量 ,从而提高语音识别系统的识别率 .该文提出了一种有效和稳健的唇定位跟踪方法 ,以满足不用特殊标识物和规范性照明就能对信息进行有效提取的应用需求 .该方法首先用肤色模型查找脸 ;然后用迭代算法搜索脸部区域内的眼睛 ;再根据眼睛的位置来确定脸的大小和位置 ,并对脸的下半部分采用彩色坐标变换法将唇从肤色中明显地区分出来 ;最后 ,用可变模板将上下唇的内外轮廓描述出来 .
关键词
口型识别
唇定位
语音识别系统
模式识别
Keywords
lip
reading
,
lip
movement,
skin
color
model,
optical
flow,
deformable
template.
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于色度分析的唇动特征提取与识别
被引量:
9
2
作者
姚鸿勋
吕雅娟
高文
机构
哈尔滨工业大学计算机科学与工程系
出处
《电子学报》
EI
CAS
CSCD
北大核心
2002年第2期168-172,共5页
基金
国家 8 63计划青年基金 (No .863 30 6 QN99 4)
国家 863计划项目 (No .863 30 6 ZT0 3 0 1 2 )
+1 种基金
国家自然科学基金重点项目 (No .6978930 1 )
中科院百人计划的资助
文摘
本文提出了一种基于色度滤波的唇动特征提取与识别方法 ,它通过唇的色度滤波 ,得到增强的唇动图像 ,再利用可变模板 ,描述口型轮廓并提取特征参数 ,并用HMM模型进行唇运动序列图像识别 .该方法鲁棒性强 ,对光照没有苛刻的要求 ,且针对非特定人 ,适用于自然条件下的实用环境 ,解决了可变模板对目标边缘有较高分辨率的要求 ,使方法更实用化 .本文的实验是基于单纯的视觉信息 (没有声音信道的信息 )的唇动识别 ,不加语音信息 ,实验集合只限于单韵母 ,识别率可达 95 8% .
关键词
色度分析
图像识别
唇动
特征提取
Keywords
lip
reading
lip
movement
chroma
deformable
template
HMM
model
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
非监督、多级嘴唇区域分割方法
被引量:
4
3
作者
王瑞
高文
机构
哈尔滨工业大学计算机科学与工程系
出处
《计算机工程与应用》
CSCD
北大核心
2003年第2期53-56,共4页
基金
国家重点自然科学基金(编号:69789301)
国家863多功能感知机项目基金资助
科学院百人工程
文摘
该文介绍了一个非监督、多级嘴唇区域分割检测方法。首先提出利用fisher变换增强嘴唇区域,然后利用嘴唇在人脸区域的分布面积比,提出利用统计阈值完成嘴唇的初步分割,最后利用嘴唇对称性和轮廓光滑性的先验知识,提出了基于局部阈值调整完成嘴唇的精细分割。实验证明该方法在不同光照条件下、对不同人、各种表情都能自动地、鲁棒地、精确地检测出嘴唇区域,并较准确提取初步的嘴唇几何参数。利用这些几何参数作为轮廓定位的初始化条件,可以大大提高变形模板和ASM模型等嘴唇轮廓定位算法的速度和准确度。
关键词
多级嘴唇区域分割方法
嘴唇分割
唇动跟踪
图像分割
人脸检测系统
Keywords
lip
Segment
ation,
lip
Tracking,
lip
reading
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于PS-Level Set的嘴唇几何形状定位模型
被引量:
6
4
作者
奉小慧
贺前华
王伟凝
严乐贫
机构
华南理工大学电子与信息学院
出处
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010年第2期121-125,共5页
基金
国家自然科学基金资助项目(60572141
60602014)
文摘
针对面向唇读的水平集模型在嘴唇分割中存在边界过收敛和过早收敛的问题,文中提出了一种改进的基于先验知识的水平集模型(简称为PS-Level Set)来进行嘴唇几何形状的定位.PS-Level Set模型利用改进的差值能量函数引入嘴唇形状的先验信息.在曲线演化过程中,反复比较演化曲线和先验曲线的差距,使曲线的演化形状逐渐逼近先验模型形状,从而更精确地收敛于目标物体实际轮廓.实验表明,用PS-Level Set模型定位嘴唇几何形状的准确率比用水平集模型提高了8.38%.
关键词
唇读
形状定位
水平集模型
曲线演化
Keywords
lip
reading
shape
detection
level
set
model
curve
evolution
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种面向汉语语音识别的口形形状识别方法
被引量:
6
5
作者
钟晓
周昌乐
俞瑞钊
机构
浙江大学计算机系智能软件实验室
杭州大学计算机系视听实验室
出处
《软件学报》
EI
CSCD
北大核心
1999年第2期205-209,共5页
基金
浙江省自然科学基金
北京大学视觉与听觉国家实验室基金
文摘
借助汉语发音口形的生理特点,在音素识别这一水平上进行汉语语音的辅助识别,具体给出了一种口形形状识别和灰度的统计方法及其具体实现.实验结果基本与理论估算相吻合,对5个元音的口形区别正确率在80%以上。
关键词
汉语语音识别
口语看话
模式识别
口形形状识别
Keywords
Chinese
speech
recognition,
mouth
shape
features
abstracting,
lip
reading
,
statistical
pattern
recognition.
分类号
TN912.34 [电子电信—通信与信息系统]
TP391.4 [电子电信—信息与通信工程]
下载PDF
职称材料
题名
基于Lab色度空间a分量的唇部提取方法
被引量:
5
6
作者
梁亚玲
杜明辉
机构
华南理工大学电子与信息学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第3期19-21,24,共4页
基金
国家自然科学基金资助项目(U0735004)
文摘
唇部提取是唇读系统和基于唇部的身份识别系统中的重要预处理过程,提取效果直接影响系统性能,现有的唇部提取方法对被提取人肤色有一定依赖性,且对带胡须和露齿图像的唇部提取效果较差。针对该问题,通过对常用色度空间各分量的可分离性进行研究,提出基于Lab色度空间的a分量唇部提取方法。实验结果证明,该方法能实现唇部的自动分割和提取,具有较好的鲁棒性。
关键词
唇部提取
Lab色度空间
唇读
排红法
色度分布差异
Keywords
lip
extraction
Lab
color
space
lip
reading
Red
Exclusion(RE)
Chroma
Distribution
Diversity(CDD)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
听障大学生汉语唇读能力对阅读理解的影响
被引量:
4
7
作者
张奋
雷江华
陈亮
王海凤
魏雪寒
机构
北京师范大学教育学部
华中师范大学教育学院
美国佐治亚大学科学传播与特殊教育学院
河南大学教育学部
郑州工程技术学院特殊教育学院
出处
《中国特殊教育》
CSSCI
北大核心
2023年第10期29-35,共7页
基金
全国教育科学“十四五”规划2023年度教育部重点课题“听障大学生同形态与跨形态语言加工的脑机制及其教育启示研究”(项目批准号:DBA230366)的阶段性成果。
文摘
唇读解码在听障学生拼音文字阅读理解中发挥重要作用,但其在汉语阅读理解中的作用尚未可知。本研究选取154名听障大学生和97名健听大学生,采用汉语唇读测试与阅读理解能力测试,深入考察两类群体在阅读理解中汉语唇读解码的作用。结果显示,听障大学生阅读理解得分显著低于健听大学生;高唇读能力组听障大学生阅读理解得分显著高于低唇读能力组,但是在健听大学生中,三组之间无显著性差异。结果表明,与健听大学生相比,听障大学生汉语唇读能力影响阅读理解,汉语唇读能力高的听障大学生,其阅读理解能力较高。即在阅读理解中,高唇读能力组听障大学生解码能力较强。听障大学生在阅读理解加工过程中采用自下而上的策略,唇读内在强力支撑着听障大学生的汉语阅读理解,而健听大学生更多采用自动化加工策略。研究建议,在阅读理解中,要加强唇读口形、语音、语义与书面汉字字形、语音以及语义之间的关系,实现阅读理解活动中形、音、义的转换与联结。
关键词
听障大学生
唇读
阅读理解
解码
Keywords
hearing-impaired
college
students
lip
reading
reading
comprehension
decoding
分类号
G762 [文化科学—特殊教育学]
原文传递
题名
基于卷积神经网络的鸟类视频图像检索研究
被引量:
5
8
作者
张惠凡
罗泽
机构
中国科学院计算机网络信息中心
中国科学院大学
出处
《科研信息化技术与应用》
2017年第5期50-57,共8页
文摘
本文介绍了在基于卷积神经网络的图像检索分析研究中,针对青海湖野鸟监控的视频关键帧图像数据,首先我们采用Vgg16神经网络的预训练模型来提取图像的特征,然后将特征向量作为图像的代表信息进行存储,构造图像的特征向量空间。之后对存储的高维特征向量进行降维处理,用主成分分析的方法将特征向量映射到低维的向量空间。最后应用余弦相似度算法对查询图像的特征向量与特征库中向量进行匹配,实现相似图像的检索。本文对提出的方法进行了实验,通过特征提取和恰当的特征降维,测试数据的检索准确率达到了89.82%。实验表明,本文提出的方法可以有效的实现鸟类图像的相似性检索。
关键词
图像检索
特征向量
主成分分析
Vgg16
Keywords
character
animation
lip
reading
interaction
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
原文传递
题名
解耦同类自知识蒸馏的轻量化唇语识别方法
被引量:
1
9
作者
马金林
刘宇灏
马自萍
郭兆伟
吕鑫
机构
北方民族大学计算机科学与工程学院
北方民族大学图像图形智能处理国家民委重点实验室
北方民族大学数学与信息科学学院
出处
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2024年第12期3709-3719,共11页
基金
宁夏自然科学基金(2022AAC03268)
北方民族大学中央高校基本科研业务费专项资金(2021KJCX09,FWNX21)
北方民族大学“计算机视觉与虚拟现实”创新团队项目。
文摘
针对唇语识别模型因参数量和计算量较大而无法在移动终端和边缘设备上应用的问题,提出基于解耦同类自知识蒸馏和GhostNet-TSM的唇语识别方法。提出具有时序特征提取能力的GhostNet-TSM网络;将同类自知识蒸馏的特征解耦为目标类特征和非目标类特征,分别设置损失函数,以提高模型的识别精度;使用解耦同类自知识蒸馏方法在LRW和LIP350数据集上进行模型训练,并在OuluVS数据集上进行验证。实验结果表明:GhostNet-TSM网络在LRW数据集上达到了85.2%的识别准确率,超过了多数非轻量化模型,浮点数计算量和模型参数量降低至0.988 GFLOPs和20.310×10~6。
关键词
唇语识别
知识蒸馏
轻量化
GhostNet
TSM模块
Keywords
lip
reading
knowledge
distillation
lightweight
GhostNet
TSM
module
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
大词汇量环境噪声下的多模态视听语音识别方法
被引量:
4
10
作者
吴兰
杨攀
李斌全
王涵
机构
河南工业大学电气工程学院
出处
《广西科学》
CAS
北大核心
2023年第1期52-60,共9页
基金
国家自然科学基金项目(61973103)
河南省自然科学基金项目(222300420039)
郑州市科技局自然科学项目(21ZZXTCX01)资助。
文摘
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。
关键词
注意力机制
多模态
视听语音识别
唇读
语音识别
Keywords
attention
mechanisms
multi-modality
audio
visual
speech
recognition
lip
reading
automatic
speech
recognition
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进的snake模型的嘴唇轮廓提取
被引量:
4
11
作者
余健仪
郑胜林
潘保昌
邱海枫
机构
广东工业大学信息学院数字图像技术研究所
出处
《计算机技术与发展》
2008年第8期95-97,100,共4页
基金
国家自然科学基金项目(60572078)
文摘
为了更好地利用snake模型来提取彩色图像中的物体轮廓,提出一种改进的snake算法。此方法首先自动生成snake的初始模型,然后在GVF-snake的基础上重新设计了snake的外部能量函数,采用色彩聚类算法对原始图像进行分割,利用像素到聚类中心的距离增强图像并进行差分运算,提取有意义区域的边缘梯度,对GVF向量场进行了归一化处理并改进了平滑因子。实验结果证明,改进后的算法,特别是在处理彩色图像时,大大优于原始方法,提高了轮廓提取的精度且有较好的鲁棒性。
关键词
唇读识别
轮廓提取
SNAKE模型
GVF
能量涵数
Keywords
lip
reading
contour
extracting
snake
model
GVF
energy
function
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于嘴部状态分类的内唇开度估计算法
被引量:
3
12
作者
黄秀清
黄巍
高强
陆云
陈传波
机构
武汉工程大学计算机科学与工程学院
华中科技大学软件学院
出处
《计算机科学》
CSCD
北大核心
2014年第5期296-298,303,共4页
基金
湖北省教育厅基金项目:多子模式非对称逆布局图像表示方法研究(Q20101502)资助
文摘
为了准确地识别嘴部张合程度,提出了一种基于嘴部状态分类的内唇开度估计算法。将嘴部局部图像从RGB空间转化到YIQ空间,利用牙齿、嘴唇和舌头所对应的Q值的极值点数量和位置分布将嘴部状态分为3类,对每一类分别确定不同的一阶差分范围,使得能在有舌头、牙齿存在的情况下准确地定位出内唇边界点的位置,进而计算出内唇开度值。实验结果表明,基于嘴部状态分类的内唇开度估计算法计算出的内唇开度估计值与实际值之间的相关度达95%,比经典的Saha方法提高了5%。
关键词
内唇开度
唇读
YIQ
嘴唇轮廓
ADABOOST
Keywords
Inner
lip
opening
distance
lip
reading
YIQ
lip
contour
Adaboost
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
唇读研究进展与展望
被引量:
4
13
作者
陈小鼎
盛常冲
匡纲要
刘丽
机构
国防科技大学电子科学学院
国防科技大学系统工程学院
出处
《自动化学报》
EI
CSCD
北大核心
2020年第11期2275-2301,共27页
基金
国家自然科学基金(61872379)资助。
文摘
唇读,也称视觉语言识别,旨在通过说话者嘴唇运动的视觉信息,解码出其所说文本内容.唇读是计算机视觉和模式识别领域的一个重要问题,在公共安防、医疗、国防军事和影视娱乐等领域有着广泛的应用价值.近年来,深度学习技术极大地推动了唇读研究进展.本文首先阐述了唇读研究的内容和意义,并深入剖析了唇读研究面临的难点与挑战;然后介绍了目前唇读研究的现状与发展水平,对近期主流唇读方法进行了梳理、归类和评述,包括传统方法和近期的基于深度学习的方法;最后,探讨唇读研究潜在的问题和可能的研究方向.以期引起大家对唇读问题的关注与兴趣,并推动与此相关问题的研究进展.
关键词
唇读
视觉语言识别
时空特征提取
计算机视觉
深度学习
Keywords
lip
reading
visual
speech
recognition
spatiotemporal
feature
extraction
computer
vision
deep
learning
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
TP18 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
唇语识别关键技术研究进展
被引量:
4
14
作者
荣传振
岳振军
贾永兴
王渊
杨宇
机构
解放军理工大学理学院
出处
《数据采集与处理》
CSCD
北大核心
2012年第S2期277-283,共7页
基金
解放军理工大学预研基金(20110504)资助项目
文摘
唇形及其动态特征在人类语言感知的过程中起着重要作用,通过分析唇形图像序列,根据口型特征向量和特定语音之间的对应关系,不仅可以帮助理解讲话内容,提高语音识别的识别率,而且还可以识别出话音语种和讲话人身份。本文从唇语识别系统的各环节入手综述了该领域的最新研究进展,并讨论了现有方法的优缺点,最后提出了唇语识别新的应用领域和有待进一步研究的问题。
关键词
唇语识别
特征提取
信息融合
语言模型
Keywords
lip
reading
feature
extraction
information
fusion
language
model
分类号
TP274.2 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
HSKDLR:同类自知识蒸馏的轻量化唇语识别方法
被引量:
2
15
作者
马金林
刘宇灏
马自萍
巩元文
朱艳彬
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
出处
《计算机科学与探索》
CSCD
北大核心
2023年第11期2689-2702,共14页
基金
宁夏自然科学基金(2022AAC03268,2020AAC3215)
北方民族大学中央高校基本科研业务费专项(2021KJCX09,FWNX21)
北方民族大学“计算机视觉与虚拟现实”创新团队项目。
文摘
针对唇语识别模型的识别率较低和计算量较大的问题,提出一种同类自知识蒸馏的轻量化唇语识别模型(HSKDLR)。首先,提出关注唇部图像空间特征的S-SE注意力模块,用其构建提取唇部图像通道特征和空间特征的i-Ghost Bottleneck模块,以提升唇语识别模型的准确率;其次,基于i-Ghost Bottleneck构建唇语识别模型,该模型通过优化瓶颈结构的组合方式降低模型计算量;然后,为提升模型准确率,减少模型运行时间,提出同类自知识蒸馏(HSKD)的模型训练方法;最后,使用同类自知识蒸馏方法训练唇语识别模型,并检验其识别性能。实验结果表明:与其他方法相比,HSKDLR具有更高的识别准确率和更低的计算量,在LRW数据集上的准确率达87.3%,浮点数运算量低至2.564 GFLOPs,参数量低至3.8723×107;同类自知识蒸馏可被应用于大多数唇语识别模型,帮助其有效提升识别准确率,减少训练时间。
关键词
唇语识别
轻量化
知识蒸馏
自知识
Ghost
Bottleneck
Keywords
lip
reading
lightweight
knowledge
distillation
self-knowledge
Ghost
Bottleneck
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于DCT和ONPP的唇部特征提取
被引量:
1
16
作者
梁亚玲
杜明辉
机构
华南理工大学电子与信息学院
出处
《计算机科学》
CSCD
北大核心
2011年第5期261-264,共4页
基金
国家自然科学基金(U0735004)资助
文摘
针对单视觉通道唇读系统中唇部特征的提取问题提出了基于DCT+ONPP的特征提取方法。相对于保持全局结构特性的PCA方法,ONPP是一种既保持局部邻域几何特性又兼顾全局的线性降维技术。实验证明提出的方法优于DCT+PCA的特征提取方法。另外还对邻域点个数对系统性能的影响做了相应的研究,发现邻域点为3时该方法具有较好的识别效果。
关键词
唇部特征提取
正交邻域保持方法
唇读
主成分分析
Keywords
lip
feature
extraction
ONPP
lip
reading
PCA
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于中文发音视觉特点的唇语识别方法研究
被引量:
2
17
作者
何珊
袁家斌
陆要要
机构
南京航空航天大学计算机科学与技术学院
南京航空航天大学信息化处
出处
《计算机工程与应用》
CSCD
北大核心
2022年第4期157-162,共6页
基金
南京市产学研合作后补助项目计划(201722025)。
文摘
随着深度学习的发展,唇语识别技术在英文方面取得了长足的进步,但针对中文无论是在数据集丰富性还是识别准确率上均存在一定的落差。通过分析中文发音的视觉特点,提出"视觉拼音",意图规避中文在视觉表达上的歧义性。为了验证视觉拼音的有效性,建立了中文句子级唇语识别模型CHSLR-VP。该模型是一个端到端结构,其中以视觉拼音为媒介,将视频帧序列转换成最终的汉字语句。通过实验得出,相比于其他唇语识别方法,基于视觉拼音建立的CHSLR-VP模型性能更优,证明了视觉拼音的参与可明显提高中文唇语识别的准确率,为将来的相关工作提供了基准。
关键词
唇语识别
视觉拼音
深度学习
卷积神经网络(CNN)
序列到序列模型
注意机制
Keywords
lip
reading
visual
pinyin
deep
learning
convolutional
neural
networks(CNN)
sequence-to-sequence
model
attention
mechanism
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于DT-CWT和PCA的唇部特征提取方法
被引量:
1
18
作者
梁亚玲
杜明辉
机构
华南理工大学电子与信息学院
出处
《电视技术》
北大核心
2011年第3期93-96,共4页
基金
国家自然科学基金项目(U0735004)
文摘
针对单视觉唇读系统中唇部特征的提取问题,提出了基于双树复小波和PCA的唇部特征提取方法。利用双树复小波变换的近似平移不变性,通过将变换后的系数幅值重新排列,克服了感兴趣区域中唇部偏移的影响。与DCT相比,双树复小波变换既可反映输入信号的频域特性,又能反映其空间域特性,具有近似平移不变性,这些特性使得DT-CWT+PCA的方法优于DCT+PCA的特征提取方法。实验结果表明,该方法在识别率方面有较大的提高。
关键词
唇部特征提取
双树复数小波变换
唇读
主成分分析
Keywords
lip
feature
extraction
DT-CWT
lip
reading
PCA
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Kinect的听障人士语言能力康复辅助系统
被引量:
1
19
作者
刘建通
机构
四川大学计算机学院
出处
《现代计算机》
2016年第5期92-95,共4页
文摘
近年来,唇读技术在科研和工业界得到广泛关注和研究。唇读能够应用于辅助语音识别、口型合成、聋人辅助教育等领域。Kinect是微软公司推出的体感设备,具有人脸追踪的功能,并能够完成唇读系统中的唇部检测和定位以及唇动特征提取的任务。提出一种基于Kinect的听障人士语言能力康复辅助系统的设计方案。
关键词
语言能力康复
唇读
唇语识别
KINECT
Keywords
Language
Ability
Rehabilitation
lip
reading
lip
Recognition
Kinect
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于发音轨迹的可视语音合成
被引量:
1
20
作者
郑红娜
白静
王岚
朱云
机构
太原理工大学信息工程学院山西太原
中国科学院深圳先进技术研究院广东深圳
出处
《计算机应用与软件》
CSCD
北大核心
2013年第6期253-257,261,共6页
文摘
着眼于语音可视化。为呈现真实说话人各发音器官的运动,提出一种改进的CM协同发音模型,并采用该方法合成汉字的发音轨迹,进而以此驱动和控制虚拟3D音视频说话人头模型,直观呈现通常可见及不可见发音器官的发音运动。实验证明:由改进方法获得的合成发音轨迹更逼近真实发音轨迹。同时,为了定量比较舌读和唇读在语音感知和识别中的作用,设计三组感知实验,实验结果显示:叠加了唇读信息的感知识别率较单纯的加噪语音的识别率提高了25.8%;而叠加了舌读信息的识别率较单纯听觉信息的识别率提高了26.7%。因此,当语音恶化时,舌读信息可提供大于唇读信息的补充作用,且舌读信息与唇读信息一样具有识别力。
关键词
语音可视化
CM协同发音模型
改进的CM协同发音模型
舌读
唇读
Keywords
Speech
visualisation
CM
co-articulation
model
Modified
CM
co-articulation
model
Tongue
reading
lip
reading
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
用于口型识别的实时唇定位方法
姚鸿勋
高文
李静梅
吕雅娟
王瑞
《软件学报》
EI
CSCD
北大核心
2000
10
下载PDF
职称材料
2
基于色度分析的唇动特征提取与识别
姚鸿勋
吕雅娟
高文
《电子学报》
EI
CAS
CSCD
北大核心
2002
9
下载PDF
职称材料
3
非监督、多级嘴唇区域分割方法
王瑞
高文
《计算机工程与应用》
CSCD
北大核心
2003
4
下载PDF
职称材料
4
基于PS-Level Set的嘴唇几何形状定位模型
奉小慧
贺前华
王伟凝
严乐贫
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010
6
下载PDF
职称材料
5
一种面向汉语语音识别的口形形状识别方法
钟晓
周昌乐
俞瑞钊
《软件学报》
EI
CSCD
北大核心
1999
6
下载PDF
职称材料
6
基于Lab色度空间a分量的唇部提取方法
梁亚玲
杜明辉
《计算机工程》
CAS
CSCD
北大核心
2011
5
下载PDF
职称材料
7
听障大学生汉语唇读能力对阅读理解的影响
张奋
雷江华
陈亮
王海凤
魏雪寒
《中国特殊教育》
CSSCI
北大核心
2023
4
原文传递
8
基于卷积神经网络的鸟类视频图像检索研究
张惠凡
罗泽
《科研信息化技术与应用》
2017
5
原文传递
9
解耦同类自知识蒸馏的轻量化唇语识别方法
马金林
刘宇灏
马自萍
郭兆伟
吕鑫
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2024
1
下载PDF
职称材料
10
大词汇量环境噪声下的多模态视听语音识别方法
吴兰
杨攀
李斌全
王涵
《广西科学》
CAS
北大核心
2023
4
下载PDF
职称材料
11
基于改进的snake模型的嘴唇轮廓提取
余健仪
郑胜林
潘保昌
邱海枫
《计算机技术与发展》
2008
4
下载PDF
职称材料
12
基于嘴部状态分类的内唇开度估计算法
黄秀清
黄巍
高强
陆云
陈传波
《计算机科学》
CSCD
北大核心
2014
3
下载PDF
职称材料
13
唇读研究进展与展望
陈小鼎
盛常冲
匡纲要
刘丽
《自动化学报》
EI
CSCD
北大核心
2020
4
下载PDF
职称材料
14
唇语识别关键技术研究进展
荣传振
岳振军
贾永兴
王渊
杨宇
《数据采集与处理》
CSCD
北大核心
2012
4
下载PDF
职称材料
15
HSKDLR:同类自知识蒸馏的轻量化唇语识别方法
马金林
刘宇灏
马自萍
巩元文
朱艳彬
《计算机科学与探索》
CSCD
北大核心
2023
2
下载PDF
职称材料
16
基于DCT和ONPP的唇部特征提取
梁亚玲
杜明辉
《计算机科学》
CSCD
北大核心
2011
1
下载PDF
职称材料
17
基于中文发音视觉特点的唇语识别方法研究
何珊
袁家斌
陆要要
《计算机工程与应用》
CSCD
北大核心
2022
2
下载PDF
职称材料
18
基于DT-CWT和PCA的唇部特征提取方法
梁亚玲
杜明辉
《电视技术》
北大核心
2011
1
下载PDF
职称材料
19
基于Kinect的听障人士语言能力康复辅助系统
刘建通
《现代计算机》
2016
1
下载PDF
职称材料
20
基于发音轨迹的可视语音合成
郑红娜
白静
王岚
朱云
《计算机应用与软件》
CSCD
北大核心
2013
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
4
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部