期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
文档图像识别技术回顾与展望 被引量:6
1
作者 刘成林 《数据与计算发展前沿》 2019年第2期17-25,共9页
【目的】文档图像是一类广泛存在且具有重要应用价值的数据。从文档图像中检测文字并转化为计算机内码(电子文本)是文档识别的主要目标。自上世纪50年代以来,文档识别(又称文字识别,OCR)的研究和应用取得了巨大的进展。本文为科研人员... 【目的】文档图像是一类广泛存在且具有重要应用价值的数据。从文档图像中检测文字并转化为计算机内码(电子文本)是文档识别的主要目标。自上世纪50年代以来,文档识别(又称文字识别,OCR)的研究和应用取得了巨大的进展。本文为科研人员和工程人员提供一个比较全面的文档图像识别技术总体介绍,便于大家开展技术创新和技术应用。【方法】本文在介绍文档识别应用背景的基础上,对该领域历史上主要方法进行回顾,对当前技术状况和研究动态进行分析,并展望未来发展趋势。【结果】1950年代到2000年代,在统计模式识别、特征提取、结构分析、字符切分、字符串识别和版面分析等方面积累了大量有效方法。【结论】近年来深度学习(深度神经网络)逐渐成为主导性的方法,使文字检测和识别的性能得到明显提升,但在复杂版面分析能力、文字识别的可靠性、泛化性等方面仍然存在不足。 展开更多
关键词 文档识别 版面分析 文本检测 深度学习 字符识别 文本行识别
下载PDF
Attention机制在脱机中文手写体文本行识别中的应用 被引量:6
2
作者 王馨悦 董兰芳 《小型微型计算机系统》 CSCD 北大核心 2019年第9期1876-1880,共5页
脱机中文手写体识别技术可以将人工书写在纸上的汉字转换为电子文档中可编辑的中文格式.由于每个人的书写习惯不同,所以手写体随意性较大、字符之间可能存在粘连,给字符分割增加了难度.为了避免单个字符的分割,本文采用基于Attention的... 脱机中文手写体识别技术可以将人工书写在纸上的汉字转换为电子文档中可编辑的中文格式.由于每个人的书写习惯不同,所以手写体随意性较大、字符之间可能存在粘连,给字符分割增加了难度.为了避免单个字符的分割,本文采用基于Attention的方法实现脱机中文手写体文本行的识别.该方法基于encoder-decoder框架,首先用CNN提取特征,然后通过BLSTM进行编码,最后将BLSTM的输出结果再结合Attention,输入到LSTM进行解码.该方法在针对具有语义信息的CASIA-HWDB2. 0-2. 2数据集上字符准确率达到了95. 76%,比传统的encoder-decoder框架提升了12. 83%. 展开更多
关键词 文本行识别 脱机中文手写体 Attention机制 LSTM
下载PDF
基于多信息融合的自然书写脱机中文文本行识别 被引量:1
3
作者 李南希 金连文 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第12期45-49,共5页
自然书写的脱机中文文本行识别是当今字符识别领域的一个难题.为降低文本行识别中负样本的干扰,文中提出了一个概率模型,将负样本作为一种信息来源,与单字符的识别信息、文本行的几何信息等进行融合.简单地使用两个分类器,就可以实现上... 自然书写的脱机中文文本行识别是当今字符识别领域的一个难题.为降低文本行识别中负样本的干扰,文中提出了一个概率模型,将负样本作为一种信息来源,与单字符的识别信息、文本行的几何信息等进行融合.简单地使用两个分类器,就可以实现上述概率模型.在多人手写真实文本数据库中进行的实验表明,当无语言模型和使用二元语言模型时,文中所提方法的正确识别率分别达到61.29%和72.73%,体现了该方法的有效性. 展开更多
关键词 字符识别 中文文本行识别 多信息融合 概率模型 负样本
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部