基于双塔结构的场景文字检测模型被引量：2

Scene Text Detection Model Based on Double Tower Structure

下载PDF

导出

摘要当图像中文字区域形状复杂多变时,传统锚点方法难以精确定位文字,针对这一问题,提出一种具有双塔结构的文字分割检测算法。在网络中增加自下而上的特征增强路径以充分提炼语义信息,与上一级自上而下的结构形成双金字塔模型;接着新增一条路径缩短较底层与最顶层特征之间的距离,同时使用膨胀卷积,增大卷积核的感受野;在损失函数的设计中引入γ参数,改变图像中正负样本的权重分配,使网络更关注困难样本。在标准数据集ICDAR2015和ICDAR2017上进行评估,实验结果表明提出的双塔结构模型能有效提高网络对文字区域的检测准确度。 It is difficult for the traditional anchor method to accurately locate the text area since its shape is complex and variant severely.To tackle this problem,The text segmentation algorithm via a novel double-tower structure is proposed.This paper introduces a bottom-up path to enhance the feature map and fully refines the semantic information,therefore,a double-tower structure is formulated.Then a new route is presented to directly connect the lower and top feature layers,meanwhile,dilated convolution is utilized to increase the receptive field of the convolution kernel.Finally,theγparameter is introduced in the loss function to change the weight of positive and negative samples,so that the network will focus more on difficult samples.Evaluated on the benchmark data sets ICDAR2015 and ICDAR2017,the experimental results show that the double-tower structure proposed in this paper can effectively improve the accuracy of the text area detection.

作者施漪涵仝明磊张魁姚宏扬 SHI Yihan;TONG Minglei;ZHANG Kui;YAO Hongyang(School of Electronics and Information Engineering,Shanghai University of Electric Power,Shanghai 200090,China)

机构地区上海电力大学电子与信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2022年第3期242-248,共7页 Computer Engineering and Applications

基金上海市自然科学基金(16ZR1413300)。

关键词卷积神经网络特征融合文字检测图像分割 convolutional neural network feature fusion text detection image segmentation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献6

1张正夫..基于深度学习的场景文字检测与识别方法研究[D].中国科学院大学,2020:
2罗时婷,顾磊.基于深度神经网络损失函数融合的文本检测[J].计算机工程与应用,2020,56(16):90-96. 被引量：6
3杨宏志,庞宇,王慧倩.基于改进Faster R-CNN的自然场景文字检测算法[J].重庆邮电大学学报（自然科学版）,2019,31(6):876-884. 被引量：19
4杨剑锋,王润民,何璇,李秀梅,钱盛友.基于FCN的多方向自然场景文字检测方法[J].计算机工程与应用,2020,56(2):164-170. 被引量：13
5梁新宇,罗晨,权冀川,肖铠鸿,高伟嘉.基于深度学习的图像语义分割技术研究进展[J].计算机工程与应用,2020,56(2):18-28. 被引量：30
6张曼,夏战国,刘兵,周勇.全卷积神经网络的字符级文本分类方法[J].计算机工程与应用,2020,56(5):166-172. 被引量：11

二级参考文献24

1刘建伟,黎海恩,罗雄麟.概率图模型学习技术研究进展[J].自动化学报,2014,40(6):1025-1044. 被引量：23
2易尧华,申春辉,刘菊华,卢利琼.结合MSCRs与MSERs的自然场景文本检测[J].中国图象图形学报,2017,22(2):154-160. 被引量：18
3任智慧,徐浩煜,封松林,周晗,施俊.基于LSTM网络的序列标注中文分词法[J].计算机应用研究,2017,34(5):1321-1324. 被引量：69
4周成伟.基于卷积神经网络的自然场景中数字识别[J].计算机技术与发展,2017,27(11):101-105. 被引量：16
5杨家博,杨刚,杨猛.基于深度图像分割与物体跟踪的增强现实系统[J].系统仿真学报,2017,29(11):2788-2795. 被引量：6
6哈恩楠,吉立新,高超.基于对象建议算法的自然场景文本检测[J].计算机应用研究,2018,35(2):624-627. 被引量：6
7艾力·海如拉,吾守尔·斯拉木.基于wordem bedding和CNN的维吾尔语情感分类[J].电脑知识与技术,2018,14(4):180-181. 被引量：1
8代令令,蒋侃.基于fastText的中文文本分类[J].计算机与现代化,2018(5):35-40. 被引量：19
9陈天华,郑司群,于峻川.采用改进DeepLab网络的遥感图像分割[J].测控技术,2018,37(11):34-39. 被引量：27
10吴昊,平鹏,孙立博,秦文虎.基于改进LRCN模型的驾驶行为图像序列识别方法[J].江苏大学学报（自然科学版）,2018,39(3):303-308. 被引量：8

共引文献72

1吴一全,赵朗月,苑玉彬,杨洁.基于机器视觉的PCB缺陷检测算法研究现状及展望[J].仪器仪表学报,2022,43(8):1-17. 被引量：45
2田志新,廖薇,茅健,吴建民,袁泉,徐震.融合边缘监督的改进Deeplabv3+水下鱼类分割方法[J].电子测量与仪器学报,2022,36(10):208-216. 被引量：5
3陈欣.一种基于神经网络识别人脸进行内容审核的技术[J].电视技术,2021,45(10):139-148. 被引量：1
4赵敬伟,林珊玲,梅婷,林志贤,郭太良.基于YOLACT与Transformer相结合的实例分割算法研究[J].半导体光电,2023,44(1):134-140. 被引量：2
5尹萍,杨为进.加强创新意识,重视仪器研制工作[J].现代科学仪器,2000,17(1):3-4. 被引量：3
6裴志利,阿茹娜,姜明洋,卢奕南.基于卷积神经网络的文本分类研究综述[J].内蒙古民族大学学报（自然科学版）,2019,34(3):206-210. 被引量：6
7向涛,乔文昇,邓永兴,王延斌.基于逆注意力机制和像素相似度学习的图像分割[J].电讯技术,2020,60(8):902-909. 被引量：1
8罗晖,芦春雨.低照度边缘增强的语义分割模型研究[J].华东交通大学学报,2020,37(4):116-124. 被引量：1
9景庄伟,管海燕,彭代峰,于永涛.基于深度神经网络的图像语义分割研究综述[J].计算机工程,2020,46(10):1-17. 被引量：51
10胥智杰,杨小兵,何灵敏,潘承瑞.多尺度遥感语义分割网络[J].计算机工程与应用,2020,56(21):210-217. 被引量：10

同被引文献6

1JIA Chen,ZHANG Yao,SHI Fan,ZHAO Meng.Light field imaging based on a parallel SVM method for recognizing 2D fake pedestrians[J].Optoelectronics Letters,2022,18(1):48-53. 被引量：3
2杨飚,杜晓宇.基于改进EAST的自然场景文本定位算法[J].计算机工程与应用,2019,55(18):161-165. 被引量：5
3ZHANG Hong-ying,WANG Hui-san,HE Peng-yi.Correlation filter tracking based on superpixel and multifeature fusion[J].Optoelectronics Letters,2021,17(1):47-52. 被引量：3
4方承志,张子渊,李晨曦.基于感受野增强和改进型损失函数的文本检测[J].微电子学与计算机,2021,38(4):11-16. 被引量：4
5GU Qian-qian,LV Shan-shan,JIANG Ming-shun,ZHANG Lei,ZHANG Fa-ye,SUI Qing-mei,JIA Lei.Phase error correction method based on the Gaussian filtering algorithm and intensity variance[J].Optoelectronics Letters,2021,17(4):221-225. 被引量：4
6朱勇,谢勤岚.3D SE-ResNet:一种从CT图像中自动分割COVID-19肺部感染模型[J].中南民族大学学报（自然科学版）,2022,41(2):200-207. 被引量：4

引证文献2

1陈欣.基于注意力机制和空洞卷积的自然场景弯曲文本检测方法[J].微电子学与计算机,2023,40(8):10-18. 被引量：1
2于晓,高玲.基于边缘增强MSER的模糊检务文本检测[J].光电子．激光,2023,34(9):942-949.

二级引证文献1

1侯艳丽,盖锡林.基于注意力机制改进的DeepLabV3+遥感图像分割算法[J].微电子学与计算机,2024,41(8):53-61.

1金灵,张轶.基于RetinaNet的场景文字检测算法[J].计算机应用与软件,2022,39(2):201-207. 被引量：3
2焦凤梅,焦连志.高校党组织在办好思政课中的作用发挥现状及强化路径[J].上海党史与党建,2021(6):81-84. 被引量：3
3杨川源.主题类报道在新媒体端的有效传播[J].报林,2020(5):108-109. 被引量：1
4刘欢,宋晋,魏然.基于双塔结构的立式风洞流场校测架测控系统[J].兵工自动化,2022,41(1):53-56. 被引量：2
5张骥,陶忠,王军丛,陈蕾蒙.夹角45°L形结构隔震层顶板研究设计分析[J].工业安全与环保,2022,48(1):22-27.

计算机工程与应用

2022年第3期

浏览历史

内容加载中请稍等...

基于双塔结构的场景文字检测模型被引量：2

参考文献6

二级参考文献24

共引文献72

同被引文献6

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于双塔结构的场景文字检测模型 被引量：2

参考文献6

二级参考文献24

共引文献72

同被引文献6

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于双塔结构的场景文字检测模型被引量：2