唇读研究进展与展望被引量：4

The State of the Art and Prospects of Lip Reading

下载PDF

导出

摘要唇读,也称视觉语言识别,旨在通过说话者嘴唇运动的视觉信息,解码出其所说文本内容.唇读是计算机视觉和模式识别领域的一个重要问题,在公共安防、医疗、国防军事和影视娱乐等领域有着广泛的应用价值.近年来,深度学习技术极大地推动了唇读研究进展.本文首先阐述了唇读研究的内容和意义,并深入剖析了唇读研究面临的难点与挑战;然后介绍了目前唇读研究的现状与发展水平,对近期主流唇读方法进行了梳理、归类和评述,包括传统方法和近期的基于深度学习的方法;最后,探讨唇读研究潜在的问题和可能的研究方向.以期引起大家对唇读问题的关注与兴趣,并推动与此相关问题的研究进展. Lip reading, also known as visual speech recognition, aims to infer the content of a speech through the motion of the speaker′s mouth. Lip reading is an important issue in the field of computer vision and pattern recognition. It has a wide range of applications in the fields of public security, medical, defense military and professional filming. In recent years, deep learning technology has greatly promoted the progress of lip reading research. Starting from the definition of lip reading problem, this paper first expounds the content and significance of lip reading research, and deeply analyzes the difficulties and challenges of lip reading research. Then, the recent achievements of lip reading research are introduced, and the current mainstream lip reading methods are combed, categorized and reviewed as well, including traditional methods and recent methods based on deep learning. Finally, the potential problems and possible research directions of lip reading research are discussed to arouse the attention and interest of this research, and promote the research progress of related issues.

作者陈小鼎盛常冲匡纲要刘丽 CHEN Xiao-Ding;SHENG Chang-Chong;KUANG Gang-Yao;LIU Li(College of Electronic Science,National University of Defense Technology,Changsha 410073;College of Systems Engineering,National University of Defense Technology,Changsha 410073)

机构地区国防科技大学电子科学学院国防科技大学系统工程学院

出处《自动化学报》 EI CSCD 北大核心 2020年第11期2275-2301,共27页 Acta Automatica Sinica

基金国家自然科学基金(61872379)资助。

关键词唇读视觉语言识别时空特征提取计算机视觉深度学习 Lip reading visual speech recognition spatiotemporal feature extraction computer vision deep learning

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献1

1姚鸿勋,高文,王瑞,郎咸波.视觉语言——唇读综述[J].电子学报,2001,29(2):239-246. 被引量：30

二级参考文献134

1王瑞.连续语音唇读识别的研究.哈尔滨工业大学计算机系博士论文开题报告[M].哈尔滨工业大学档案馆,1998.. 被引量：1
2徐彦君.中文双语料语音识别关键技术研究：博士论文[M].北京:中科院语音所,1998.. 被引量：1
3间濑健二.读唇[J].电子情报通信学会论文志,1990,73(6):796-803. 被引量：1
4Yao H，IEEE Fourth Int Conference on Signal Processing，1998年，912页被引量：1
5徐彦君，博士学位论文，1998年被引量：1
6王瑞，博士论文开题报告，1998年被引量：1
7Liu M B，计算机学报，1998年，21卷，6期，527页被引量：1
8Li N，http://www.cs.ucf.edu/～vision/papers/shah/97/NDS97 pdf，1997年被引量：1
9Chiou G I，IEEE Trans Image Processing，1997年，6卷，8期，1192页被引量：1
10Dai Y，Pattern Recognition，1996年，29卷，6期，1007页被引量：1

共引文献160

1李镇锋,陈晓荣,管婷欣,郭蓉蓉,王晓龙.基于机器视觉的断裂字符识别研究[J].电子测量技术,2020(10):131-134. 被引量：5
2荣传振,岳振军,贾永兴,王渊,杨宇.唇语识别关键技术研究进展[J].数据采集与处理,2012,27(S2):277-283. 被引量：4
3王志良,解仑,董平.情感计算数学模型的研究初探[J].计算机工程,2004,30(21):33-34. 被引量：7
4洪晓鹏,姚鸿勋,徐铭辉.基于句子级的唇读语料库及其切分算法[J].计算机工程与应用,2005,41(3):174-177. 被引量：7
5雷江华.看话训练在我国口语教学中的地位与作用[J].中国特殊教育,2005(4):36-41. 被引量：6
6鹿佳,姚鸿勋.改进AdaBoost对基于HMM的唇读系统识别率的提高[J].哈尔滨商业大学学报（自然科学版）,2005,21(5):604-607.
7刘庆辉,姚鸿勋.基于唇动的说话人识别技术[J].计算机工程与应用,2006,42(12):85-88.
8李刚,王蒙军,林凌.面向残疾人的汉语可视语音数据库[J].中国生物医学工程学报,2007,26(3):355-360. 被引量：3
9陈蓉,姚鸿勋,洪晓鹏,万玉奇.视觉单通道唇读系统的有效性[J].计算机工程与应用,2007,43(20):28-30. 被引量：2
10万玉奇,姚鸿勋,洪晓鹏.唇读中基于像素的特征提取方法的研究[J].计算机工程与应用,2007,43(20):197-199. 被引量：3

同被引文献6

1顾明亮,夏玉果,王劲松.噪声环境下的汉语声调识别[J].计算机技术与发展,2007,17(8):70-72. 被引量：2
2任玉强,田国栋,周祥东,吕江靖,周曦.高安全性人脸识别系统中的唇语识别算法研究[J].计算机应用研究,2017,34(4):1221-1225. 被引量：19
3柳叶潇,徐昱琳,赵翠莲.基于肌电信号分析研究柔性电极设计参数对电极性能的影响[J].中国医学物理学杂志,2019,36(7):830-835. 被引量：3
4马金林,陈德光,郭贝贝,周洁.唇语语料库综述[J].计算机工程与应用,2019,55(22):1-13. 被引量：6
5马金林,朱艳彬,马自萍,巩元文,陈德光,刘宇灏.唇语识别的深度学习方法综述[J].计算机工程与应用,2021,57(24):61-73. 被引量：4
6Amany M.Sarhan,Nada M.Elshennawy,Dina M.Ibrahim.HLR-Net: A Hybrid Lip-Reading Model Based on Deep Convolutional Neural Networks[J].Computers, Materials & Continua,2021(8):1531-1549. 被引量：2

引证文献4

1马金林,朱艳彬,马自萍,巩元文,陈德光,刘宇灏.唇语识别的深度学习方法综述[J].计算机工程与应用,2021,57(24):61-73. 被引量：4
2陈红顺,陈观明.基于深度学习的词语级中文唇语识别[J].电子技术应用,2022,48(12):54-58.
3杜月山,彭佩瑶,韦峻峰.基于表面肌电信号的汉语单元音声调识别[J].数字技术与应用,2023,41(8):1-4.
4刘丽,隋金坪,丁丁,赵凌君,匡纲要,盛常冲.深度视觉语音生成研究进展与展望[J].国防科技大学学报,2024,46(2):123-138.

二级引证文献4

1陈红顺,陈观明.基于深度学习的词语级中文唇语识别[J].电子技术应用,2022,48(12):54-58.
2刘欣易,孔家伟,陈果然,孟祥佳.基于VGG-Nets算法手势识别设计与实现[J].物联网技术,2023,13(5):35-38. 被引量：1
3刘培培,贾静平.基于时域卷积网络的中文句子级唇语识别算法[J].计算机应用研究,2023,40(9):2596-2602. 被引量：1
4马金林,刘宇灏,马自萍,巩元文,朱艳彬.HSKDLR:同类自知识蒸馏的轻量化唇语识别方法[J].计算机科学与探索,2023,17(11):2689-2702. 被引量：1

1美语口头禅(下)[J].英语角,2020(31):26-28.
2郭旦怀.人工智能是否会替代医生?[J].群言,2020(11):36-37.
3熊林.新课程改革下初中生德育工作面临的难点与对策[J].丝路视野,2019(22):91-91.
4李艳.基层事业单位会计核算工作存在的问题及对策分析[J].当代会计,2020(19):122-123. 被引量：3
5薛峰.包装设计的视觉信息传达浅论——基于平面设计[J].美术教育研究,2020(22):66-67. 被引量：1
6贾振堂.由嘴唇视频直接生成语音的研究[J].计算机应用研究,2020,37(6):1890-1894.
7史艳莉(摘译),张联(摘译).《小鼠听觉皮层的视觉刺激反应》摘译[J].听力学及言语疾病杂志,2020,28(6):732-733.
8周文娟.“宾阳炮龙节”节庆元素在旅游文创产品设计中的应用研究[J].视界观,2020(23):0110-0111.
9胡琳媛.论广告音乐在企业形象宣传中的成效[J].精品,2020(22):136-136.
10复旦大学微电子学院丁士进研究员课题组报道一种基于光谱投影的颜色感知器件[J].微纳电子与智能制造,2020,2(3):92-93.

自动化学报

2020年第11期

浏览历史

内容加载中请稍等...

唇读研究进展与展望被引量：4

参考文献1

二级参考文献134

共引文献160

同被引文献6

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

唇读研究进展与展望 被引量：4

参考文献1

二级参考文献134

共引文献160

同被引文献6

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

唇读研究进展与展望被引量：4