期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于分层密度特征的文档图像检索 被引量:6
1
作者 胡芝兰 林行刚 严洪 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第7期1231-1234,共4页
为克服基于版面重建的文档图像检索方法对图像质量要求高,且局限于部分文种,以及基于版面分割的文档图像检索方法受限于版面分割技术等问题,提出了一种基于二值文档图像分层密度特征的检索方法。该方法通过倾斜校正、去除黑边等预处理... 为克服基于版面重建的文档图像检索方法对图像质量要求高,且局限于部分文种,以及基于版面分割的文档图像检索方法受限于版面分割技术等问题,提出了一种基于二值文档图像分层密度特征的检索方法。该方法通过倾斜校正、去除黑边等预处理得到有效文本区域,提取有效文本区域的长宽比和分层密度特征,通过特征比对进行检索。实验表明:该方法对不同分辨率以及不同的输入设备具有自适应能力,对复杂版面和批注等噪声鲁棒性好,漏检率为2%,是一种简单有效的文档图像检索方法。 展开更多
关键词 文档图像 图像检索 倾斜校正 分层密度特征
原文传递
改进SURF特征的维吾尔文复杂文档图像匹配检索 被引量:3
2
作者 阿丽亚·巴吐尔 努尔毕亚·亚地卡尔 +2 位作者 吾尔尼沙·买买提 阿力木江·艾沙 库尔班·吾布力 《智能系统学报》 CSCD 北大核心 2019年第2期296-305,共10页
针对图像局部特征的词袋模型(Bag-of-Word, BOW)检索研究中聚类中心的不确定性和计算复杂性问题,提出一种由不同种类的距离进行相似程度测量的检索和由匹配点数来检索的方法。这种方法首先需要改进文档图像的SURF特征,有效降低特征提取... 针对图像局部特征的词袋模型(Bag-of-Word, BOW)检索研究中聚类中心的不确定性和计算复杂性问题,提出一种由不同种类的距离进行相似程度测量的检索和由匹配点数来检索的方法。这种方法首先需要改进文档图像的SURF特征,有效降低特征提取复杂度;其次,对FAST+SURF特征实现FLANN双向匹配与KD-Tree+BBF匹配,在不同变换条件下验证特征鲁棒性;最后,基于这两种检索方法对已收集整理好的各类维吾尔文文档图像数据库进行检索。实验结果表明:基于距离的相似性度量复杂度次于基于匹配数目的检索,而且两种检索策略都能满足快速、精确查找需求。 展开更多
关键词 复杂文档 维吾尔文档图像 文档图像分割 特征提取 SURF特征 FLANN双向匹配 KD-Tree+BBF匹配 图像检索
下载PDF
一种基于关键词的中文文档图像检索方法 被引量:5
3
作者 黄祥林 高芸 +1 位作者 杨丽芳 王鹏鹏 《中文信息学报》 CSCD 北大核心 2007年第4期61-64,72,共5页
本文提出了一种基于关键词的中文文档图像检索方法,能在不经OCR(Optical Character Recognition)识别的情况下,直接利用中文字符的图像特征进行关键词检索。首先将文档图像分割成单个中文字符图像,接着对字符图像进行汉字笔画的特征数... 本文提出了一种基于关键词的中文文档图像检索方法,能在不经OCR(Optical Character Recognition)识别的情况下,直接利用中文字符的图像特征进行关键词检索。首先将文档图像分割成单个中文字符图像,接着对字符图像进行汉字笔画的特征数据提取,然后在特征数据间进行基于WMHD(Weighted Modified Hausdorff Dis-tance)的相似性测量。该方法不受字号的影响,也有一定的抗字体能力,实验证明其具有较高的检索效果。 展开更多
关键词 计算机应用 中文信息处理 中文文档图像 关键词检索 加权的修正Hausdorff距离(WMHD)
下载PDF
综合文字和非文字区域特征的文档图像检索 被引量:4
4
作者 张田 《计算机工程与应用》 CSCD 北大核心 2010年第12期5-8,共4页
提出一种改进的自适应文字区域提取算法,将文档图像分割成文字区域和非文字区域。对文字区域提取连通字符间空白、连通字符高度和宽度等局部特征,以及书写样式、段落特征等全局特征;对非文字区域,提取关键块特征。然后利用检索算法将文... 提出一种改进的自适应文字区域提取算法,将文档图像分割成文字区域和非文字区域。对文字区域提取连通字符间空白、连通字符高度和宽度等局部特征,以及书写样式、段落特征等全局特征;对非文字区域,提取关键块特征。然后利用检索算法将文字区域特征和非文字区域特征结合起来,提高检索的准确性。同时,在检索算法中引入多维数据检索结构,有效地提高检索速度。通过对大规模文档数据库(包含12024个文档)的检索,表明该算法具有较高的效率,优于现有的一般文档图像检索算法。 展开更多
关键词 文档图像检索 文字区域提取 段落特征 多维数据检索结构
下载PDF
基于层级匹配的维吾尔文关键词文档图像检索 被引量:4
5
作者 李静静 木特力甫·马木提 +2 位作者 吾尔尼沙·买买提 阿力木江·艾沙 库尔班·吾布力 《计算机工程与设计》 北大核心 2020年第4期1062-1069,共8页
为实现基于关键词的维吾尔文文档图像检索,提出一种基于由粗到细层级匹配的关键词文档图像检索方法。使用改进的投影切分法将经过预处理的文档图像切分成单词图像库,使用模板匹配对关键词进行粗匹配;在粗匹配的基础上,提取单词图像的方... 为实现基于关键词的维吾尔文文档图像检索,提出一种基于由粗到细层级匹配的关键词文档图像检索方法。使用改进的投影切分法将经过预处理的文档图像切分成单词图像库,使用模板匹配对关键词进行粗匹配;在粗匹配的基础上,提取单词图像的方向梯度直方图(HOG)特征向量;通过支持向量机(SVM)分类器学习特征向量,实现关键词图像检索。在包含108张文档图像的数据库中进行实验,实验结果表明,检索准确率平均值为91.14%,召回率平均值为79.31%,该方法能有效实现基于关键词的维吾尔文文档图像检索。 展开更多
关键词 文档图像检索 层级匹配 模板匹配 HOG特征 支持向量机
下载PDF
基于Office OCR组件的文档图象检索研究 被引量:3
6
作者 范兵 吉立新 于洪涛 《通信技术》 2009年第6期138-140,共3页
文档图像的检索主要用于对文档图像进行管理。文章对文档检索技术进行了研究,提出了使用微软office内嵌的光学字符识别(OCR)组件对文档图像进行识别,获得了一种快速对文档图像检索的方法;另外,对类似发票图样的文档图像提出了定位识别... 文档图像的检索主要用于对文档图像进行管理。文章对文档检索技术进行了研究,提出了使用微软office内嵌的光学字符识别(OCR)组件对文档图像进行识别,获得了一种快速对文档图像检索的方法;另外,对类似发票图样的文档图像提出了定位识别的方法。实验证明,这些方法对文档图像的检索是有效的。 展开更多
关键词 文档图像 OCR 检索 定位识别
原文传递
图像中多语种文本提取的高斯混合建模方法 被引量:2
7
作者 付慧 刘峡壁 贾云得 《计算机研究与发展》 EI CSCD 北大核心 2007年第11期1920-1926,共7页
建立了相邻字符区域的高斯混合模型,用于区分字符与非字符.在此基础上,提出了一种从图像中提取多语种文本的方法.首先对输入图像进行二值化,并执行形态学闭运算,使二值图像中每个字符成为一个单独的连通成分.然后根据各连通成分重心的Vo... 建立了相邻字符区域的高斯混合模型,用于区分字符与非字符.在此基础上,提出了一种从图像中提取多语种文本的方法.首先对输入图像进行二值化,并执行形态学闭运算,使二值图像中每个字符成为一个单独的连通成分.然后根据各连通成分重心的Voronoi区域,形成连通成分之间的邻接关系;最后在贝叶斯框架下,基于相邻字符区域的高斯混合模型计算相应的伪概率,以此为判据将每个连通成分标注为字符或非字符.利用所提出的文本提取方法,进行了复杂中英文文本的提取实验,获得大于97%的准确率和大于80%的召回率,证实了方法的有效性. 展开更多
关键词 高斯混合模型 文本提取 二值图像 多语种 建模方法 Voronoi区域 字符区域 连通成分
下载PDF
一种基于版面结构距离的文档图像检索算法 被引量:1
8
作者 赵慧 王希常 刘江 《微型机与应用》 2010年第21期42-44,48,共4页
介绍了一种基于版面结构距离的文档图像检索算法,使用版面特征作为文档图像的特征检索图像。先将文档图像进行梯度和最大梯度差(MGD)计算,然后使用MGD值作为一个窗口对文本区域进行融合,将文档图像以行线的形式标示出来。同时给出了检... 介绍了一种基于版面结构距离的文档图像检索算法,使用版面特征作为文档图像的特征检索图像。先将文档图像进行梯度和最大梯度差(MGD)计算,然后使用MGD值作为一个窗口对文本区域进行融合,将文档图像以行线的形式标示出来。同时给出了检索的匹配方法,并对匹配方法进行了实验。实验结果表明,该检索方法具有较高的查准率,具有很好的抗倾斜和抗缩放效果。 展开更多
关键词 文档图像 版面分析 文档图像检索 图像匹配
下载PDF
基于特征的文档图像检索 被引量:2
9
作者 张田 王希常 尘昌华 《计算机工程》 CAS CSCD 北大核心 2009年第22期176-178,共3页
提出一种综合利用文档图像的段落特征和局部像素分布相对差特征进行文档图像检索的方法。给出段落特征和局部像素分布相对差特征的定义、提取方法以及基于这2个特征结合使用的检索方法。段落特征这一全局特征以及局部像素分布相对差特... 提出一种综合利用文档图像的段落特征和局部像素分布相对差特征进行文档图像检索的方法。给出段落特征和局部像素分布相对差特征的定义、提取方法以及基于这2个特征结合使用的检索方法。段落特征这一全局特征以及局部像素分布相对差特征这一局部特征相结合能够较好地表征和区分文档图像,检索方法将两者充分结合取得较好的效果。 展开更多
关键词 文档图像检索 全局特征 段落特征 局部特征 局部像素分布相对差
下载PDF
一种基于数据分析的字符切分方法
10
作者 钟辉 刘辉 姜小帅 《沈阳建筑大学学报(自然科学版)》 CAS 2006年第1期158-162,共5页
目的将数据分析技术应用到字符图像的切分中,有效地提高字符切分的正确率.方法通过分析文本行高、文本行间距、字符单元间距和字符单元宽度等数据,发现异常数据(噪声),分析产生异常的原因.通过拆分、合并区域消除异常来达到准确切分字... 目的将数据分析技术应用到字符图像的切分中,有效地提高字符切分的正确率.方法通过分析文本行高、文本行间距、字符单元间距和字符单元宽度等数据,发现异常数据(噪声),分析产生异常的原因.通过拆分、合并区域消除异常来达到准确切分字符的目的.结果对大量的普通文本图像的试验,结果表明该方法是有效的.结论该方法能处理决大多数情况及一些特殊的情况,如一行文本被错误的切分为两行,字符图像在预处理过程中的断裂及粘连,等等,提高字符图像的切分正确率. 展开更多
关键词 字符切分 数据分析 数据挖掘 文本图像检索
下载PDF
Document image retrieval based on multi-density features
11
作者 HU Zhilan LIN Xinggang YAN Hong 《Frontiers of Electrical and Electronic Engineering in China》 CSCD 2007年第2期172-175,共4页
The development of document image databases is becoming a challenge for document image retrieval tech-niques.Traditional layout-reconstructed-based methods rely on high quality document images as well as an optical ch... The development of document image databases is becoming a challenge for document image retrieval tech-niques.Traditional layout-reconstructed-based methods rely on high quality document images as well as an optical char-acter recognition(OCR)precision,and can only deal with several widely used languages.The complexity of document layouts greatly hinders layout analysis-based approaches.This paper describes a multi-density feature based algorithm for binary document images,which is independent of OCR or layout analyses.The text area was extracted after prepro-cessing such as skew correction and marginal noise removal.Then the aspect ratio and multi-density features were extract-ed from the text area to select the best candidates from the document image database.Experimental results show that this approach is simple with loss rates less than 3%and can efficiently analyze images with different resolutions and dif-ferent input systems.The system is also robust to noise due to its notes and complex layouts,etc. 展开更多
关键词 document image image retrieval skew correc-tion multi-density features
原文传递
电子档案在电子政务中应用
12
作者 于洪臻 周东超 《网络安全技术与应用》 2010年第5期51-52,40,共3页
本文在已建立的机构电子档案信息库基础上,为行政机关内部工作人员和其它查询群体提供档案查询服务,通过Intranet/Internet并行地对档案进行查询及打印操作,使得机构电子档案得到合理利用。
关键词 电子档案 图像处理 海量存储 快速检索
原文传递
基于纹理谱描述子的文档图像检索算法 被引量:3
13
作者 马磊 刘江 《计算机应用》 CSCD 北大核心 2010年第11期2980-2982,共3页
新算法首先根据文档图像的特点分割图像文本区域,并将文档图像中字符的边缘信息使用纹理谱进行描述,计算纹理谱图像的直方图。相对于直接使用灰度直方图进行图像检索,该算法具有更好的区分度。实验结果表明,该方法具有很高的查准率,并... 新算法首先根据文档图像的特点分割图像文本区域,并将文档图像中字符的边缘信息使用纹理谱进行描述,计算纹理谱图像的直方图。相对于直接使用灰度直方图进行图像检索,该算法具有更好的区分度。实验结果表明,该方法具有很高的查准率,并对剪切、旋转操作表现出很好的稳定性,适合文档图像检索。 展开更多
关键词 文档图像 图像分割 图像纹理 基于内容的图像检索 图像匹配
下载PDF
专利文献计算机检索技术的最新发展 被引量:3
14
作者 周胜生 王扬平 《图书情报工作》 CSSCI 北大核心 2010年第18期81-84,共4页
通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结,从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。机器翻译技术和多边共同分类体系的完善有助于提... 通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结,从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍,而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现。 展开更多
关键词 专利文献 计算机检索 语义检索 图像检索
原文传递
基于Word Spotting技术的蒙古文古籍图像检索中的特征选择 被引量:2
15
作者 魏宏喜 高光来 《计算机应用》 CSCD 北大核心 2011年第11期3038-3041,共4页
设计了一个基于word spotting技术的蒙古文《甘珠尔经》图像检索的系统框架。在充分分析了蒙古文《甘珠尔经》中手写单词图像特点的基础上,提出了采用轮廓特征、投影特征和笔划穿越数目来表示单词图像。在由5500个单词图像构成的数据集... 设计了一个基于word spotting技术的蒙古文《甘珠尔经》图像检索的系统框架。在充分分析了蒙古文《甘珠尔经》中手写单词图像特点的基础上,提出了采用轮廓特征、投影特征和笔划穿越数目来表示单词图像。在由5500个单词图像构成的数据集上进行对比实验,确定了最佳的特征组合,平均准确率(MAP)能达到78.79%,R-Precision能达到73.01%。实验结果表明,所选择的特征是合理的、有效的。 展开更多
关键词 蒙古文古籍图像 甘珠尔经 WORDS POTTING 文档图像检索 轮廓特征 动态时间弯曲
下载PDF
面向近重复文本图像检索的三分支孪生网络 被引量:2
16
作者 许柏祥 刘丽 邱桃荣 《智能系统学报》 CSCD 北大核心 2022年第3期515-522,共8页
针对传统近重复文本图像检索方法需人工事先确定近重复文本图像之间存在的变换类型,易受到人主观性影响这一问题,提出一个面向近重复文本图像检索的三分支孪生网络,能自动学习图像之间存在的各种变换。该网络输入为三元组,包括查询图像... 针对传统近重复文本图像检索方法需人工事先确定近重复文本图像之间存在的变换类型,易受到人主观性影响这一问题,提出一个面向近重复文本图像检索的三分支孪生网络,能自动学习图像之间存在的各种变换。该网络输入为三元组,包括查询图像、查询图像的近重复图像以及其非近重复图像,训练时采用三元损失使得查询图像和近重复图像之间的距离小于查询图像与非近重复图像之间的距离。提出的方法在两个数据集上的mAP(mean average precision)分别达到98.76%和96.50%,优于目前已有方法。 展开更多
关键词 近重复文本图像 图像检索 三分支孪生网络 三元损失函数 图像变换 三元组 特征提取 鲁棒性
下载PDF
基于索引的快速手写中文文档关键词检索 被引量:2
17
作者 喻庚 殷飞 +1 位作者 陈友斌 刘成林 《模式识别与人工智能》 EI CSCD 北大核心 2015年第11期1033-1040,共8页
手写文档检索很难同时保证较高的检索精度和速度.基于上述原因,文中提出快速手写中文文档关键词检索方法,大幅提高检索速度并保持检索精度.该方法基于文本行识别的候选切分-识别网格预先生成压缩的索引文件,然后在索引上快速检索关键词... 手写文档检索很难同时保证较高的检索精度和速度.基于上述原因,文中提出快速手写中文文档关键词检索方法,大幅提高检索速度并保持检索精度.该方法基于文本行识别的候选切分-识别网格预先生成压缩的索引文件,然后在索引上快速检索关键词.在手写中文文档数据库CASIA-HWDB上的实验证明文中方法的有效性,该方法不但压缩索引大小,而且缩短词检索的耗时. 展开更多
关键词 手写中文文档图像 关键词检索 索引压缩 快速检索
下载PDF
GLOBAL MEASURE ON IMAGE CONTENT
18
作者 李介谷 《Journal of Shanghai Jiaotong university(Science)》 EI 2000年第2期108-111,共4页
This paper investigated approaches to supporting effective and efficient retrieval of image based on principle component analysis. First, it extracted the image content, texture and color. Gabor wavelet transforms wer... This paper investigated approaches to supporting effective and efficient retrieval of image based on principle component analysis. First, it extracted the image content, texture and color. Gabor wavelet transforms were used to extract texture feature of the image and the average color was used to extract the color features. The principle component of the feature vector of image can be constructed. Content based image retrieval was performed by comparing the feature vector of the query image with the projection feature vector of the image database on the principle component space of the query image. By this technique, it can reduce the dimensionality of feature vector, which in turn reduce the searching time. 展开更多
关键词 content based image retrieval PRINCIPLE component analysis AVERAGE color texture GABOR WAVELET TRANSFORM document code:A
下载PDF
基于特征的文档子图像检索及其相关反馈
19
作者 范红梅 王希常 于建伟 《信息技术与信息化》 2009年第5期33-35,共3页
探讨纯文本图像的子图像检索问题。提取其层次结构特征进行匹配,同时为了提高检索精度,又提出了一种适合文档子图像检索的相关反馈算法。实验采用6千幅英文手写体纯文本图像作为样本集,每次迭代返回给用户12幅图像,结果表明每次迭代用时... 探讨纯文本图像的子图像检索问题。提取其层次结构特征进行匹配,同时为了提高检索精度,又提出了一种适合文档子图像检索的相关反馈算法。实验采用6千幅英文手写体纯文本图像作为样本集,每次迭代返回给用户12幅图像,结果表明每次迭代用时约4秒,6次迭代后召回率基本稳定在83%。 展开更多
关键词 文档图像检索 层次树匹配 相关反馈 Rocchio算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部