结合感受野增强和全卷积网络的场景文字检测方法被引量：4

Text Detection in Natural Scene Images Based on Enhanced Receptive Field and Fully Convolution Network

下载PDF

导出

摘要自然场景图像质量易受光照及采集设备的影响,且其背景复杂,图像中文字颜色、尺度、排列方向多变,因此,自然场景文字检测具有很大的挑战性.本文提出一种基于全卷积网络的端对端文字检测器,集中精力在网络结构和损失函数的设计,通过设计感受野模块并引入Focalloss、GIoUloss进行像素点分类和文字包围框回归,从而获得更加稳定且准确的多方向文字检测器.实验结果表明本文方法与现有先进方法相比,无论是在多方向场景文字数据集还是水平场景文字数据集均取得了具有可比性的成绩. The quality of natural scene images is influenced easily by the shooting environment and conditions,and scene image background is relatively complex and has a strong interference for detection,besides,text in scene images may have different colors,fonts,sizes,directions,languages and so on,all these situations make natural scene text detection be still a challenging research topic.This paper proposes an end-to-end text detector based on fully convolution network.We focus on the design of the network structure and the loss function,through adding the enhanced receptive field module and introducing Focalloss,GIoUloss for pixels classification and text boxes regression respectively,we gain a more stable accurate multi-oriented text detector.Our method provides promising performance compared to the recent state-of-the art methods on both the multi-oriented scene text dataset and horizontal text dataset.

作者李晓玉宋永红余涛 LI Xiao-Yu;SONG Yong-Hong;YU Tao(School of Software Engineering,Xi'an Jiaotong University,Xi'an 710049;College of Artificial Inteligence,Xi'an Jiao-tong University,Xi'an 710049)

机构地区西安交通大学软件学院西安交通大学人工智能学院

出处《自动化学报》 EI CAS CSCD 北大核心 2022年第3期797-807,共11页 Acta Automatica Sinica

基金陕西省自然科学基础研究计划(2018JM6104) 国家重点研究开发计划(017YFB1301101)资助。

关键词感受野增强 Focalloss GIo Uloss 全卷积网络 Receptive field enhanced module Focalloss GIoUloss full convolution network

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献3

1李文英,曹斌,曹春水,黄永祯.一种基于深度学习的青铜器铭文识别方法[J].自动化学报,2018,44(11):2023-2030. 被引量：22
2王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.自然场景图像中的文本检测综述[J].自动化学报,2018,44(12):2113-2141. 被引量：49
3金连文,钟卓耀,杨钊,杨维信,谢泽澄,孙俊.深度学习在手写汉字识别中的应用综述[J].自动化学报,2016,42(8):1125-1141. 被引量：108

二级参考文献155

1钱跃良,林守勋,刘群,刘洋,刘宏,谢萦.863计划中文信息处理与智能人机接口基础数据库的设计和实现[J].高技术通讯,2005,15(1):107-110. 被引量：4
2周新伦,李锋,华星城,韦剑.甲骨文计算机识别方法研究[J].复旦学报（自然科学版）,1996,35(5):481-486. 被引量：21
3王嘉梅,文永华,李燕青,高雅莉.基于图像分割的古彝文字识别系统研究[J].云南民族大学学报（自然科学版）,2008,17(1):76-79. 被引量：10
4Hildebrandt T H, Liu W T. Optical recognition of handwritten Chinese characters:advances since 1980. Pattern Recognition, 1993, 26(2):205-225. 被引量：1
5Suen C Y, Berthod M, Mori S. Automatic recognition of handprinted characters——the state of the art. Proceedings of the IEEE, 1980, 68(4):469-487. 被引量：1
6Tai J W. Some research achievements on Chinese character recognition in China. International Journal of Pattern Recognition and Artificial Intelligence, 1991, 5(01n02):199-206. 被引量：1
7Liu C L, Jaeger S, Nakagawa M. Online recognition of Chinese characters:the state-of-the-art. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(2):198-213. 被引量：1
8Cheriet M, Kharma N, Liu C L, Suen C Y. Character Recognition Systems:a Guide for Students and Practitioners. USA:John Wiley & Sons, 2007. 被引量：1
9Plamondon R, Srihari S N. Online and off-line handwriting recognition:a comprehensive survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(1):63-84. 被引量：1
10Dai R W, Liu C L, Xiao B H. Chinese character recognition:history, status and prospects. Frontiers of Computer Science in China, 2007, 1(2):126-136. 被引量：1

共引文献169

1尹萍,杨为进.加强创新意识,重视仪器研制工作[J].现代科学仪器,2000,17(1):3-4. 被引量：3
2王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.自然场景图像中的文本检测综述[J].自动化学报,2018,44(12):2113-2141. 被引量：49
3韩丰,龙明盛,李月安,薛峰,王建民.循环神经网络在雷达临近预报中的应用[J].应用气象学报,2019,30(1):61-69. 被引量：43
4潘浩,王昭.基于深度学习的肺癌细胞检测方法研究[J].自动化与仪器仪表,2017,0(3):196-197. 被引量：5
5索南尖措,关白,李雷,山发富.藏文联机手写识别的研究与实现[J].计算机时代,2017(7):10-12. 被引量：1
6董水龙,李海生,祝晓斌,蔡强.利用CNN特征和BoWs的三维模型检索算法[J].广西大学学报（自然科学版）,2017,42(5):1787-1792. 被引量：3
7周成伟.基于卷积神经网络的自然场景中数字识别[J].计算机技术与发展,2017,27(11):101-105. 被引量：16
8刘万军,梁雪剑,曲海成.自适应增强卷积神经网络图像识别[J].中国图象图形学报,2017,22(12):1723-1736. 被引量：27
9范道尔吉,高光来,武彗娟.基于字素分割的蒙古文手写识别研究[J].中文信息学报,2017,31(5):74-80. 被引量：1
10张帆,张良,刘星,张宇.基于深度残差网络的脱机手写汉字识别研究[J].计算机测量与控制,2017,25(12):259-262. 被引量：9

同被引文献21

1易尧华,何婧婧,卢利琼,汤梓伟.顾及目标关联的自然场景文本检测[J].中国图象图形学报,2020,0(1):126-135. 被引量：12
2李梦洁,董峦.基于PyTorch的机器翻译算法的实现[J].计算机技术与发展,2018,28(10):160-163. 被引量：15
3杨剑锋,王润民,何璇,李秀梅,钱盛友.基于FCN的多方向自然场景文字检测方法[J].计算机工程与应用,2020,56(2):164-170. 被引量：13
4Shuping Liu,Yantuan Xian,Huafeng Li,Zhengtao Yu.Text Detection in Natural Scene Images Using Morphological Component Analysis and Laplacian Dictionary[J].IEEE/CAA Journal of Automatica Sinica,2020,7(1):214-222. 被引量：7
5贾颖霞,郎丛妍,冯松鹤.基于类别相关的领域自适应交通图像语义分割方法[J].计算机研究与发展,2020,57(4):876-887. 被引量：8
6刘文祥,舒远仲,唐小敏,刘金梅.采用双注意力机制Deeplabv3+算法的遥感影像语义分割[J].热带地理,2020,40(2):303-313. 被引量：41
7耿艳磊,陶超,沈靖,邹峥嵘.高分辨率遥感影像语义分割的半监督全卷积网络法[J].测绘学报,2020,49(4):499-508. 被引量：20
8王建新,王子亚,田萱.基于深度学习的自然场景文本检测与识别综述[J].软件学报,2020,31(5):1465-1496. 被引量：40
9杨远航,张鑫,石恒初,张荣奎,孔德志.基于OCR技术的电网设备台账标签采集功能设计研究[J].电子设计工程,2021,29(13):155-159. 被引量：1
10刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良.自然场景文本检测与识别的深度学习方法[J].中国图象图形学报,2021,26(6):1330-1367. 被引量：26

引证文献4

1姬壮伟.轻量化双通道图像语义分割模型[J].山西大同大学学报（自然科学版）,2022,38(5):6-8.
2李雨,闫甜甜,周东生,魏小鹏.基于注意力机制与深度多尺度特征融合的自然场景文本检测[J].图学学报,2023,44(3):473-481. 被引量：2
3董晨,郑禄,于舒,饶白云.基于上下文感知与多尺度注意力的遥感变化检测[J].软件导刊,2023,22(11):65-70.
4刘彦希,吴浩,蔡源,唐丹,宋弘.基于改进EAST算法的电气设备铭牌文字检测[J].四川轻化工大学学报（自然科学版）,2024,37(3):42-50.

二级引证文献2

1连哲,殷雁君,云飞,智敏.基于深度学习的自然场景文本检测综述[J].计算机工程,2024,50(3):16-27.
2于晓,林世基.基于DBNet改进的检务场景文本检测算法研究[J].现代计算机,2024,30(6):26-31.

1李百军.以开局就是决战起步就是冲刺的胆识奋力开创高质量发展新局面[J].共产党人,2022(3):1-1.
2秦金锋,严伟,张先亮.音频信号采集设备的检测方法与应用[J].电子技术（上海）,2022,51(2):128-129. 被引量：1
3张滨宇,赵衍运,杜昀昊,万俊峰,佟知航.一种基于深度学习的PCB图像字符检测方法[J].北京邮电大学学报,2022,45(1):108-114.
4王欣,王美丽,边党伟.融合MobileNetv2和注意力机制的轻量级人像分割算法[J].计算机工程与应用,2022,58(7):220-228. 被引量：7
5马晓芳,周一青,马越.自治区党委和政府召开全区新材料产业高质量发展现场会心无旁鹜谋发展集中精力开新局埋头苦干求实效保持团结向上良好氛围迎接党的二十大胜利召开陈润儿讲话咸辉主持崔波出席[J].共产党人,2022(3):14-15.
6Ya Li,Duan-Bin Li,Li-Ding Zhao,Qing-Bo Lv,Yao Wang,Ya-Fei Ren,Wen-Bin Zhang.Effects of bilirubin on perioperative myocardial infarction and its long-term prognosis in patients undergoing percutaneous coronary intervention[J].World Journal of Clinical Cases,2022,10(6):1775-1786.
7Zhongbin Tian,Jian Liu,Jay Kumar,Wenqiang Li,Yisen Zhang,Ying Zhang,Kun Wang,Shengzhang Wang,Zeguang Ren,Xinjian Yang.Significant flow velocity reduction at the intracranial aneurysm neck after endovascular treatment leads to favourable angiographic outcome:a prospective study[J].Stroke & Vascular Neurology,2021,6(3):366-375. 被引量：3
8Shi-Ke Huang,Kevin D.Hyde,Ausana Mapook,Sajeewa S.N.Maharachchikumbura,Jayarama D.Bhat,Eric H.C.McKenzie,Rajesh Jeewon,Ting-Chi Wen.Taxonomic studies of some often over-looked Diaporthomycetidae and Sordariomycetidae[J].Fungal Diversity,2021(6):443-572. 被引量：1
9王红霞,何国昌,李玉强,陈德山.基于改进U⁃Net的低质量文本图像二值化[J].计算机工程,2022,48(4):231-239. 被引量：2
10Vetriselvan Subramaniyan,Shivkanya Fuloria,Hari Kumar Darnal,Dhanalekshmi Unnikrishnan Meenakshi,Mahendran Sekar,Rusli Bin Nordin,Srikumar Chakravarthi,Kathiresan V.Sathasivam,Shah Alam Khan,Yuan Seng Wu,Usha Kumari,Kalvatala Sudhakar,Rishabha Malviya,Vipin Kumar Sharma,Neeraj Kumar Fuloria.COVID-19-associated mucormycosis and treatments[J].Asian Pacific Journal of Tropical Medicine,2021,14(9):401-409. 被引量：2

自动化学报

2022年第3期

浏览历史

内容加载中请稍等...

结合感受野增强和全卷积网络的场景文字检测方法被引量：4

参考文献3

二级参考文献155

共引文献169

同被引文献21

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

结合感受野增强和全卷积网络的场景文字检测方法 被引量：4

参考文献3

二级参考文献155

共引文献169

同被引文献21

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

结合感受野增强和全卷积网络的场景文字检测方法被引量：4