期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于OCR及组合标签索引模板的电力铭牌信息提取方法
1
作者 习毅聪 孙坳 +2 位作者 石凯丞 胡亮 刘浩 《电脑知识与技术》 2024年第31期109-111,124,共4页
电力设备铭牌结构复杂、传统OCR难以有效地结构化提取铭牌信息,而传统的模板匹配方法存在模板管理困难等问题,针对该问题,提出了一种基于OCR及组合标签索引模板的电力铭牌信息结构化提取方法。该方法首先依据铭牌文本结构特性,将其分为... 电力设备铭牌结构复杂、传统OCR难以有效地结构化提取铭牌信息,而传统的模板匹配方法存在模板管理困难等问题,针对该问题,提出了一种基于OCR及组合标签索引模板的电力铭牌信息结构化提取方法。该方法首先依据铭牌文本结构特性,将其分为常规型与特殊型两类。对于特殊型铭牌,构建模板库并为所有模板注明标签。利用标签检索对应模板进行匹配,从而提取结构化信息。对于常规型铭牌,则采用内置结构化信息处理规则的OCR引擎直接提取结构化信息。实验结果表明,该方法能够准确高效地提取常规型与特殊型铭牌的结构化数据,有效提高了电力铭牌信息提取的效率。 展开更多
关键词 电力铭牌识别 OCR识别 结构化信息提取 模板匹配 模板检索
下载PDF
自动提取布局结构相似网页的结构化信息 被引量:1
2
作者 赵靖 王侨文 +1 位作者 管马周 单传佳 《安徽科技学院学报》 2010年第6期37-42,共6页
数据库驱动的Web站点根据查询产生的Web页结构布局都是极其相似的;现有的Web提取方法忽视或者忽略了这种相似性,因而在提取效率性能和通用性上都有较大的限制。本文提出一种基于标签树相似度的模板自动学习方法;进而根据模板来提取这类... 数据库驱动的Web站点根据查询产生的Web页结构布局都是极其相似的;现有的Web提取方法忽视或者忽略了这种相似性,因而在提取效率性能和通用性上都有较大的限制。本文提出一种基于标签树相似度的模板自动学习方法;进而根据模板来提取这类网页的数据;并利用Eclipse和开源HTML Parser对算法进行了实现;实验结果表明该算法具有较快的提取速度和较好的准确率。 展开更多
关键词 深层Web 标签树-相似度模型 结构化信息提取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部