基于自适应注意力的任意形状场景文本检测被引量：2

Detection of arbitrary shaped scene text based on adaptive attention

下载PDF

导出

摘要大量基于卷积神经网络的场景文本检测方法对于密集的长文本容易检测不全,且泛化能力较差。针对这些问题,提出一种面向自底向上的场景文本检测方法。使用自适应通道注意力机制(ACA),通过局部跨通道交互获得更具代表性的文本特征,提高深度卷积神经网络的性能;利用特征增强金字塔(FPEM)融合低层和高层信息进一步增强不同尺度的特征;为解决长文本尺度变化问题,提出一种加权感知损失(WAL),通过调整不同大小的文本实例的权重来增强鲁棒性。实验在CTW1500及MSRA-TD500标准数据集上验证了该方法的优越性。 A large number of scene text detection methods based on convolutional neural networks are prone to incomplete detection and poor generalization ability for dense long texts.Aiming at these problems,a bottom-up oriented scene text detection method was proposed.An adaptive channel attention mechanism(ACA)was used to obtain more representative textual features through local cross-channel interactions,improving the performance of deep convolutional neural networks.The feature enhancement pyramid module(FPEM)was used to fuse low-level and high-level information to further enhance features at different scales.To address the scale variation problem of long texts,a weighted aware loss(WAL)was proposed to enhance robustness by adjusting the weights of text instances of different sizes.The experiments verify the superiority of the method on CTW1500 and MSRA-TD500 standard datasets.

作者刘倩杨鹏毛红梅 LIU Qian;YANG Peng;MAO Hong-mei(School of Information Engineering,Nanjing Audit University,Nanjing 211815,China;School of Information Engineering,Nanchang Hangkong University,Nanchang 330063,China)

机构地区南京审计大学信息工程学院南昌航空大学信息工程学院

出处《计算机工程与设计》北大核心 2023年第3期901-907,共7页 Computer Engineering and Design

基金国家自然科学基金项目(62172229) 江苏省自然科学基金项目(SBK2021020091) 江苏省研究生培养创新工程基金项目(KYCX21_1950)。

关键词场景文本检测自底向上自适应注意力特征增强金字塔加权感知损失任意形状长文本 scene text detection bottom-up adaptive attention feature enhancement pyramid weighted aware loss arbitrary shape long text

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献10

1胡蝶,侯俊,张全年,何金亭,王宗宜.基于卷积神经网络的生产日期识别[J].电子测量技术,2020,43(1):152-156. 被引量：6
2邓阿琴,胡平霞.基于改进卷积神经网络的食品异物自动识别方法[J].食品与机械,2022,38(7):133-137. 被引量：3
3寇文博,屈八一,李智奇.一种改进Transformer的仪表字符识别算法[J].自动化与仪器仪表,2022(7):284-288. 被引量：3
4宫鹏涵.基于YOLOv5算法的钢印字符识别方法[J].兵器装备工程学报,2022,43(8):101-105. 被引量：6
5周冲浩,顾勇翔,彭程.基于多尺度特征融合的自然场景文本检测[J].计算机应用,2022,42(S02):31-35. 被引量：2
6赵景波,邱腾飞,朱敬旭辉,刘信潮.基于RP-ResNet网络的抓取检测方法[J].计算机应用与软件,2023,40(3):210-216. 被引量：1
7张桢,梁军,贾海鹏,张云泉,李青.基于RISC-V的FFmpeg多媒体算法库优化策略[J].计算机工程,2023,49(4):159-165. 被引量：3
8李雨,闫甜甜,周东生,魏小鹏.基于注意力机制与深度多尺度特征融合的自然场景文本检测[J].图学学报,2023,44(3):473-481. 被引量：3
9段仁翀,段湘煜.基于适应性训练与丢弃机制的神经机器翻译[J].计算机工程,2023,49(10):120-126. 被引量：2
10魏哲亮,李岳阳,罗海驰.多尺度池化和双向特征融合的场景文本检测[J].计算机工程与应用,2024,60(2):154-161. 被引量：2

引证文献2

1连哲,殷雁君,云飞,智敏.基于深度学习的自然场景文本检测综述[J].计算机工程,2024,50(3):16-27. 被引量：1
2沈世玉,杨超宇.基于边界学习的食用油桶日期检测[J].上海工程技术大学学报,2024,38(2):205-211.

二级引证文献1

1连哲,殷雁君,智敏,徐巧枝.自然场景文本检测中可微分二值化技术综述[J].计算机科学与探索,2024,18(9):2239-2260.

1周训勤.公路路基沉陷注浆施工技术及应用研究[J].现代物业（中旬刊）,2023(4):193-195.
2邓健志,支佩佩,张峰铭,徐国增,田佳.结合拆分注意力特征融合的病理图像分割网络[J].科学技术与工程,2023,23(7):2922-2931. 被引量：4
3杜晓凤,傅莘莘,朱祎.基于多特征融合和通道注意力的深度学习云层检测方法[J].遥感信息,2023,38(1):121-129.
4付佳洁,谢雨辰,张德林,张鹏,张海瑜.冷鲜羊肉品质检测知识图谱构建及可视化研究[J].农产品加工,2023(5):65-69. 被引量：1
5张曌,李昱辰,易茜,罗文波.情绪和时间辨别任务中视听整合与预先准备效应[J].心理科学,2023,46(1):3-10.
6梁文瑜,高根琳.血液透析患者残余肾功能与血压的相关性分析[J].中文科技期刊数据库（引文版）医药卫生,2022(2):232-234.
7孙沐霖,赵春晓.个人快速交通系统智能协同控制与优化[J].北京师范大学学报（自然科学版）,2022,58(6):830-837.
8王鲁,刘晴,曹月,郝霞.基于改进Cascade Mask R-CNN与协同注意力机制的群猪姿态识别[J].农业工程学报,2023,39(4):144-153. 被引量：8
9王同罕,吴通,贾惠珍,李沛钊,谢婷,舒华忠.基于跨尺度边缘增强深度卷积神经网络的低剂量CT图像去噪[J].东南大学学报（自然科学版）,2023,53(2):363-369. 被引量：3
10雷小唐,胡靖.文本中心像素重建实现任意形状的文本检测[J].计算机工程与应用,2023,59(8):148-156.

计算机工程与设计

2023年第3期

浏览历史

内容加载中请稍等...

基于自适应注意力的任意形状场景文本检测被引量：2

同被引文献10

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于自适应注意力的任意形状场景文本检测 被引量：2

同被引文献10

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于自适应注意力的任意形状场景文本检测被引量：2