期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
基于深度学习的自然场景文本检测与识别综述 被引量:42
1
作者 王建新 王子亚 田萱 《软件学报》 EI CSCD 北大核心 2020年第5期1465-1496,共32页
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别... 自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势. 展开更多
关键词 深度学习 自然场景 文本检测 文本识别 端到端
下载PDF
基于深度学习的场景文字检测与识别 被引量:35
2
作者 白翔 杨明锟 +1 位作者 石葆光 廖明辉 《中国科学:信息科学》 CSCD 北大核心 2018年第5期531-544,共14页
场景文字检测与识别是一种通用文字识别技术,已成为近年来计算机视觉与文档分析领域的热点研究方向.其被广泛应用于地理定位、车牌识别、无人驾驶等领域.相对于传统的文档文字检测和识别,场景文字在字体、尺度、排布、背景等方面变化更... 场景文字检测与识别是一种通用文字识别技术,已成为近年来计算机视觉与文档分析领域的热点研究方向.其被广泛应用于地理定位、车牌识别、无人驾驶等领域.相对于传统的文档文字检测和识别,场景文字在字体、尺度、排布、背景等方面变化更加剧烈,深度学习技术也由于卓越的性能成为该领域的主流方法.本文主要回顾了作者基于深度学习在此领域取得的代表性成果,并对此领域未来研究趋势进行了展望. 展开更多
关键词 深度学习 场景文字 文字检测 文字识别 计算机视觉
原文传递
场景文字识别技术研究综述 被引量:18
3
作者 王德青 吾守尔·斯拉木 许苗苗 《计算机工程与应用》 CSCD 北大核心 2020年第18期1-15,共15页
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网... 对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。 展开更多
关键词 场景文字检测 文本识别 深度学习 端到端检测识别
下载PDF
深度学习在场景文字识别技术中的应用综述 被引量:14
4
作者 刘艳菊 伊鑫海 +2 位作者 李炎阁 张惠玉 刘彦忠 《计算机工程与应用》 CSCD 北大核心 2022年第4期52-63,共12页
随着深度学习技术在计算机视觉领域的发展,场景文本检测与文字识别技术也有了突破性的进展。受到自然场景下极端光照、遮挡、模糊、多方向多尺度等情况的影响,无约束的场景文本检测与识别仍然面临着巨大的挑战。从深度学习的角度对场景... 随着深度学习技术在计算机视觉领域的发展,场景文本检测与文字识别技术也有了突破性的进展。受到自然场景下极端光照、遮挡、模糊、多方向多尺度等情况的影响,无约束的场景文本检测与识别仍然面临着巨大的挑战。从深度学习的角度对场景文本检测和文字识别技术进行深入研究,总结出在文本检测技术中将基于分割的方法与回归的方法优势相结合,可以解决小文本区域的召回率较低的问题,同时适应多尺度文本;在文本识别方法中将CTC机制与Attention机制相结合,可以相互监督以提升识别性能,降低长文本识别的出错率。 展开更多
关键词 深度学习 计算机视觉 自然场景 文本检测 文字识别
下载PDF
自然场景图像中的文字检测综述 被引量:12
5
作者 杨飞 《电子设计工程》 2016年第24期165-168,共4页
近年来自然场景图像中的文字检测与识别越来越得到人们的关注,主要是因为图像中的文字检测与识别对于理解图片内容、建立图像索引具有重要的意义。本文针对图像文字检测与识别这一领域的核心的问题即文字检测与定位,首先通过介绍了图像... 近年来自然场景图像中的文字检测与识别越来越得到人们的关注,主要是因为图像中的文字检测与识别对于理解图片内容、建立图像索引具有重要的意义。本文针对图像文字检测与识别这一领域的核心的问题即文字检测与定位,首先通过介绍了图像中的文字检测的基本概念,然后通过介绍和对比各种图像文字检测的方法的优缺点,我们可以得出这样一个结论即结合深度学习方法和大数据来进行自然场景图像文字检测与识别已经成为一个趋势和热点,文章最后总结了该领域的挑战和最新的发展趋势。 展开更多
关键词 自然场景文字检测 文字识别 深度学习方法
下载PDF
基于深度学习的任意形状场景文字识别 被引量:11
6
作者 徐富勇 余谅 盛钟松 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期255-263,共9页
场景文字识别的一个具有挑战性的方面是处理具有扭曲或不规则布局的文字.尤其是侧视文字和曲线文字在自然场景中较为常见,且难以识别.本文提出了一个带有灵活矫正功能的注意力增强网络,将其用于任意形状场景文字识别.此网络由基于卷积... 场景文字识别的一个具有挑战性的方面是处理具有扭曲或不规则布局的文字.尤其是侧视文字和曲线文字在自然场景中较为常见,且难以识别.本文提出了一个带有灵活矫正功能的注意力增强网络,将其用于任意形状场景文字识别.此网络由基于卷积神经网络的文字矫正网络和基于注意力增强的识别网络两部分组成.矫正网络自适应地将输入图像中的文字进行矫正,降低识别难度,使基于注意力增强的序列识别网络直接根据矫正后的图像预测字符序列.整个模型可以进行端到端的训练,训练只需要图像和相应的文字真实标签.在各种公开数据集上进行了广泛的实验,包括SVT、ICDAR 2003和CUTE80等数据集,验证了此网络具有优异的性能. 展开更多
关键词 深度学习 场景文字识别 神经网络 注意力机制
下载PDF
基于DenseNet自然场景文本检测 被引量:9
7
作者 刘会江 曾浩 陈阳 《计算机工程与设计》 北大核心 2020年第8期2201-2206,共6页
针对自然场景文本图片背景的多样性、多变性、复杂性等问题,提出一种基于密集连接网络(DenseNet)的DenseText模型。使用改进的DenseNet网络进行提取特征;为更好适应文本图片字体较长的特点,采用长方形卷积核代替传统网络的正方形卷卷积... 针对自然场景文本图片背景的多样性、多变性、复杂性等问题,提出一种基于密集连接网络(DenseNet)的DenseText模型。使用改进的DenseNet网络进行提取特征;为更好适应文本图片字体较长的特点,采用长方形卷积核代替传统网络的正方形卷卷积核;区别于传统的NMS后处理算法,使用Soft-NMS算法进行优化。识别框架上,采用CRNN网络进行识别,形成一个端到端的自然场景文本检测与识别的一体化网络框架。实验结果表明,该网络模型在ICDAR13数据集上取得了令人信服的结果,提高了检测结果的准确率,降低了假阳性,recall达到0.85,F为0.88。 展开更多
关键词 自然场景 文本检测 文本识别 长卷积核 密集连接网络 软非极大值抑制
下载PDF
基于MSER和Tesseract的自然场景图像文字识别 被引量:9
8
作者 蒋弘毅 朱丽平 欧樟鹏 《电脑知识与技术》 2017年第11X期213-216,共4页
针对传统OCR技术对自然场景下的图像文本识别率低的问题,设计和实现了自然场景的图像文字自动识别系统。该系统主要采用了改进的MSER场景文本定位算法,利用Tesseract对图像文字样本进行训练,然后进行场景图像文字识别,并在MFC环境下实... 针对传统OCR技术对自然场景下的图像文本识别率低的问题,设计和实现了自然场景的图像文字自动识别系统。该系统主要采用了改进的MSER场景文本定位算法,利用Tesseract对图像文字样本进行训练,然后进行场景图像文字识别,并在MFC环境下实现。实验结果表明,训练后的Tesseract库对场景图像文字识别有显著提升。 展开更多
关键词 场景图像 二值化 MSER Tesseract 文字识别
下载PDF
基于模糊模式感知模块的场景文本图像超分辨率算法
9
作者 张密 余海洋 《计算机系统应用》 2024年第4期103-112,共10页
现有的场景文本识别器容易受到模糊文本图像的困扰,导致在实际应用中性能较差.因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器,以提高输入图像的质量.然而,用于场景文本图像超分辨率任务的真实世界... 现有的场景文本识别器容易受到模糊文本图像的困扰,导致在实际应用中性能较差.因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器,以提高输入图像的质量.然而,用于场景文本图像超分辨率任务的真实世界训练样本很难收集;此外,现有的场景文本图像超分辨率模型只学习将低分辨率(LR)文本图像转换为高分辨率(HR)文本图像,而忽略了从HR到LR图像的模糊模式.本文提出了模糊模式感知模块,该模块从现有的真实世界HR-LR文本图像对中学习模糊模式,并将其转移到其他HR图像中,以生成具有不同退化程度的LR图像.本文所提出的模糊模式感知模块可以为场景文本图像超分辨率模型生成大量的HR-LR图像对,以弥补训练数据的不足,从而显著提高性能.实验结果表明,当配备提出的模糊模式感知模块时,场景文本图像超分辨率方法的性能可以进一步提高,例如,SOTA方法TG在使用CRNN文本识别器进行评估时,识别准确率提高了5.8%. 展开更多
关键词 场景文本图像超分辨率 场景文本识别 图像模糊模式 条件生成对抗网络 深度学习
下载PDF
场景图像弯曲文本检测与识别
10
作者 刘航源 《计算机与数字工程》 2024年第6期1848-1853,共6页
随着深度学习技术的发展,场景文本检测与识别在近几年取得了巨大的进步,场景文本检测与识别的实现方式也越来越具有多样性。然而,场景文本的表示方式仍然以矩形和旋转矩形居多,该类文本表示方式难以精准表示弯曲的文本实例。为了解决弯... 随着深度学习技术的发展,场景文本检测与识别在近几年取得了巨大的进步,场景文本检测与识别的实现方式也越来越具有多样性。然而,场景文本的表示方式仍然以矩形和旋转矩形居多,该类文本表示方式难以精准表示弯曲的文本实例。为了解决弯曲文本的表示问题,论文提出了一种参数化的弯曲文本表示法,并且基于参数化表示法设计了弯曲文本纠正算法,实现了弯曲文本的形态纠正,降低了识别的难度。通过引入该方法,实现了功能完善的场景文本检测与识别系统。实验结果表明,此方法可以有效完成场景文本的检测与识别任务。 展开更多
关键词 场景文本检测 文本识别 弯曲文本 形态纠正
下载PDF
基于改进MTSv2的场景文本检测和识别算法研究
11
作者 王艳媛 茅正冲 杨雨涵 《计算机测量与控制》 2024年第9期256-261,共6页
在自然场景图像中,丰富的文本内容对于全面理解场景非常重要。针对自然场景文本图像存在背景复杂、文本粘连、文本多角度等问题,提出一种基于改进MTSv2的文本检测和识别算法;检测算法以MTSv2为基础网络,采用CBAM注意力机制增大特征图中... 在自然场景图像中,丰富的文本内容对于全面理解场景非常重要。针对自然场景文本图像存在背景复杂、文本粘连、文本多角度等问题,提出一种基于改进MTSv2的文本检测和识别算法;检测算法以MTSv2为基础网络,采用CBAM注意力机制增大特征图中的小型文本的权重,更好捕捉图像中的关键特征;融合CE-FPN结构,减轻多尺度融合产生的特征混叠问题;引入focal loss函数,减少正负样本分布不均衡对识别准确率的影响,使网络更加关注难以分类的样本,改善模型的泛化能力;通过多个文本数据集进行训练,并在ICDAR2015数据集上进行验证,改进后模型对场景文本检测和识别的准确率达到了89.3%,召回率达到了87.6%,F_(1)值达到了88.5%,相比于原模型都有一定程度的提高。 展开更多
关键词 场景文本 文本检测 文本识别 CBAM CE-FPN 注意力机制
下载PDF
消除背景噪声增强字符形状特征的场景文字识别
12
作者 唐善成 梁少君 +3 位作者 鲁彪 张莹 金子成 逯建辉 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第6期875-883,共9页
为了解决现有方法未有效地消除背景噪声和字符自身噪声干扰的问题,提出一种包含3个模块的消除背景噪声增强字符形状特征(EBEC)的文字识别模型.空间注意力机制增强的EBEC网络只关注字符区域特征,以消除背景噪声,迫使网络仅学习字符形状特... 为了解决现有方法未有效地消除背景噪声和字符自身噪声干扰的问题,提出一种包含3个模块的消除背景噪声增强字符形状特征(EBEC)的文字识别模型.空间注意力机制增强的EBEC网络只关注字符区域特征,以消除背景噪声,迫使网络仅学习字符形状特征,增强字符形状特征;特征提取模块采用EfficientNet-B3作为主干网络提取特征图;基元表征学习模块学习特征图得到视觉文字表征,通过对视觉文字表征解码得到识别结果.实验结果表明,与经典模型相比,所提模型在合成场景数据集上识别准确率提高9.76个百分点,在公开数据集IIIT5K,ICDAR-2003,ICDAR-2015,CUTE80上识别准确率平均提高2.91个百分点;该模型可有效地消除背景噪声和字符自身噪声,提高识别性能. 展开更多
关键词 场景文字识别 空间注意力机制 背景噪声 字符自身噪声
下载PDF
基于多模态迭代及修正的文本识别算法
13
作者 强观臣 张丽真 +2 位作者 杨茜 熊炜 李利荣 《光电子.激光》 CAS CSCD 北大核心 2024年第5期525-535,共11页
针对场景文本识别在长距离建模时容易产生信息丢失和对低分辨率文本图像表征能力较弱的问题,提出了一种基于多模态迭代及修正的文本识别算法。本文算法的视觉模型(vision model)是由CoTNet(contextual transformer networks for visual ... 针对场景文本识别在长距离建模时容易产生信息丢失和对低分辨率文本图像表征能力较弱的问题,提出了一种基于多模态迭代及修正的文本识别算法。本文算法的视觉模型(vision model)是由CoTNet(contextual transformer networks for visual recognition)、动态卷积注意力模块(dynamic convolution attention module,DCAM)、EA-Encoder(external attention encoder)和位置注意力机制组合而成的。其中CoTNet可以有效起到缓解长距离建模产生的信息丢失问题;DCAM在增强表征能力、专注于重要特征的同时,将重要的特征传给EA-Encoder,进而提高CoTNet和EA-Encoder之间的联系;EA-Encoder可以学习整个数据集上最优区分度的特征,捕获最有语义信息的部分,进而增强表征能力。经过视觉模型后,再经过文本修正模块(text correction model)和融合模块(fusion model)得到最终的识别结果。实验数据显示,本文所提出的算法在多个公共场景文本数据集上表现良好,尤其是在不规则数据集ICDAR2015上准确率高达85.9%。 展开更多
关键词 场景文本识别 动态卷积 注意力模块 外部注意力机制 编码器
原文传递
无人机输电线路巡检照片号牌文字识别方法
14
作者 李有春 汤春俊 +3 位作者 梁加凯 林龙旭 徐敏 谢敏 《无线电工程》 2024年第6期1560-1568,共9页
针对无人机巡检拍摄的高像素电力杆塔照片中杆塔号牌文字识别成功率低的问题,提出了一种改进连接文本区域网络(Connectionist Text Proposal Network,CTPN)算法。利用二维重叠滑动切割方法对输入图像进行切割,将主干网络Vgg16改为Mobile... 针对无人机巡检拍摄的高像素电力杆塔照片中杆塔号牌文字识别成功率低的问题,提出了一种改进连接文本区域网络(Connectionist Text Proposal Network,CTPN)算法。利用二维重叠滑动切割方法对输入图像进行切割,将主干网络Vgg16改为MobilenetV2对切割后图片进行卷积处理,同时在其中加入深度适配网络(Deep Adaptation Network,DAN)的注意力机制得到特征图;将卷积得到的特征图转化成序列输入至双向长短期记忆神经(Bi-directional Long Short-Term Memory,Bi-LSTM)网络学习序列特征,并通过全连接层得到建议框;加入重映射方法将建议框映射回原图,筛选整合映射到原图的建议框后,得到号牌文本框。将得到的文本框内的图像截取输入到卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)进行文字识别。实验结果表明,当切割框为456 pixel×256 pixel、横向重叠率为9%、纵向重叠率为8%时,识别精度可以达到87%。 展开更多
关键词 深度学习 高像素 场景文字识别 小目标
下载PDF
基于层次自注意力的高效场景文本识别 被引量:5
15
作者 陈瑛 陈平平 林志坚 《无线电工程》 北大核心 2022年第1期70-75,共6页
在深度学习技术的发展驱动下,智慧应用场景对文本识别任务提出了更高的要求。现有方法更加侧重构建强大的视觉特征提取网络,忽略了文本序列特征的提取能力。针对该问题,提出了一种基于层次自注意力的场景文本识别网络。通过融合卷积和... 在深度学习技术的发展驱动下,智慧应用场景对文本识别任务提出了更高的要求。现有方法更加侧重构建强大的视觉特征提取网络,忽略了文本序列特征的提取能力。针对该问题,提出了一种基于层次自注意力的场景文本识别网络。通过融合卷积和自注意力可以建立并增强文本序列信息与视觉感知信息间的联系。由于视觉特征和序列特征在全局空间中的充分交互,有效地减小了复杂背景噪声对识别精度的影响,实现了对规则和不规则场景文本的鲁棒性预测。实验结果表明,所提方法在各数据集上均表现出竞争力。尤其是在CUTE数据集上可以实现81.4%,6.24 ms的最佳精度和速度,具备一定的应用潜力。 展开更多
关键词 深度学习 场景文本识别 卷积神经网络 自注意力
下载PDF
改进的Gabor小波变换特征提取方法 被引量:5
16
作者 尹芳 陈德运 吴锐 《计算机工程》 CAS CSCD 2012年第15期145-147,共3页
针对自然场景中文本存在图像背景复杂、颜色多变、噪声强烈,图像存在变形、残缺、模糊、断裂等问题,提出一种基于方向预分类的Gabor小波变换特征提取方法。利用Gabor函数良好的频率选择性和方向选择性,同时考虑到笔划相对位置的偏移,方... 针对自然场景中文本存在图像背景复杂、颜色多变、噪声强烈,图像存在变形、残缺、模糊、断裂等问题,提出一种基于方向预分类的Gabor小波变换特征提取方法。利用Gabor函数良好的频率选择性和方向选择性,同时考虑到笔划相对位置的偏移,方向预分类使得滤波器对笔划方向的选择更有针对性。实验结果证明,该特征提取方法对笔划变形和低分辨率字符具有较好的适应性,能有效解决低质量场景文本的识别问题。 展开更多
关键词 GABOR小波特征 方向预分类 模糊笔划方向 特征提取 场景文本 文本识别
下载PDF
自然场景中特定文字图像优化识别研究与仿真 被引量:5
17
作者 李月洁 《计算机仿真》 CSCD 北大核心 2016年第11期357-360,共4页
对自然场景中的特定文字图像进行准确识别,可准确定位到所需的文字图像,提高图像检索的效率。进行特定文字图像识别过程中,需要区分文字图像和非文字图像,然后提取自然场景中特定文字图像纹理特征与边缘信息特征,传统方法不能构建文字... 对自然场景中的特定文字图像进行准确识别,可准确定位到所需的文字图像,提高图像检索的效率。进行特定文字图像识别过程中,需要区分文字图像和非文字图像,然后提取自然场景中特定文字图像纹理特征与边缘信息特征,传统方法不能构建文字图像识别器,难以较好地区分文字/非文字区域,降低了文字图像识别精度。提出一种深度学习的自然场景中特定文字图像优化识别模型。上述模型先融合自然场景图像的纹理特征与边缘信息特征来获得自然场景文本图像候选区,得到场景图像局部区域潜在语义识别挖掘,利用深度学习模型来表述自然场景图像中底层语义识别特征与高层语义识别之间的关系,提取不同自然场景下的语义特征,并对不同特征进行分类,利用其分类的结果组建基于深度学习的文字图像优化识别模型,利用上述模型完成对自然场景中特定文字图像优化识别。仿真结果表明,所提模型可以有效地完成自然场景中特定文字图像优化识别,具有较高的识别效率和精度。 展开更多
关键词 深度学习模型 自然场景 文字识别
下载PDF
一种用于自然场景文本识别的多路并行位置关联网络 被引量:1
18
作者 陈敏 叶东毅 陈羽中 《小型微型计算机系统》 CSCD 北大核心 2023年第4期699-705,共7页
自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出... 自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network,MPLAN)的自然场景文本识别方法.首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像.其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度.此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置.在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能. 展开更多
关键词 深度学习 场景文本识别 注意力机制 端到端
下载PDF
基于改进DAN的自然场景下越南文字的识别
19
作者 王利兵 俸亚特 文益民 《数据采集与处理》 CSCD 北大核心 2023年第5期1058-1068,共11页
越南语字符由拉丁字符结合变音符号组成,由于变音符号的存在易导致注意力漂移,并且越南语文字字符类别较多,字符间差异性较小,部分字符仅为变音符号的差异,使得越南文字的识别具有挑战性。本文在解耦注意力网络(Decoupled attention net... 越南语字符由拉丁字符结合变音符号组成,由于变音符号的存在易导致注意力漂移,并且越南语文字字符类别较多,字符间差异性较小,部分字符仅为变音符号的差异,使得越南文字的识别具有挑战性。本文在解耦注意力网络(Decoupled attention network, DAN)的基础上,设计了视觉特征与序列特征融合模块(Visual feature and sequence feature fusion module, VSFM),分别利用双向门控循环单元(Bidirectional gated recurrent unit, Bi-GRU)在水平方向和竖直方向进行序列建模,进一步缓解注意力漂移,增强变音符号与拉丁字符间的关联性。然后设计了增强型解耦文本解码器模块(Enhanced decoupled text decoder module, ETDM),在解码器中分类时结合了更多的特征信息,可以更加有效地识别相似字符。一系列的实验验证了本文提出方法的有效性。 展开更多
关键词 声调语言文字 越南语文字 变音符号 注意力漂移 场景文本识别
下载PDF
视觉注意与语义感知联合推理实现场景文本识别
20
作者 佟国香 董田荣 胡珩彰 《数据采集与处理》 CSCD 北大核心 2023年第3期665-675,共11页
场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。... 场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。 展开更多
关键词 场景文本识别 不规则文本 视觉注意模块 语义感知模块 多模态
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部