期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
XML搜索引擎研究 被引量:40
1
作者 王海波 姜吉发 +2 位作者 耿晖 白硕 祝明发 《计算机应用研究》 CSCD 北大核心 2001年第4期68-71,共4页
WWW上大量信息的涌现,对信息的查询提出了严峻的挑战.XML作为一种扩展标记语言,具有许多HTML所不具备的优点,使得开展WWW上的深层应用成为可能.对基于XML的搜索引擎中涉及的关键技术进行了研究,并提出了对XML... WWW上大量信息的涌现,对信息的查询提出了严峻的挑战.XML作为一种扩展标记语言,具有许多HTML所不具备的优点,使得开展WWW上的深层应用成为可能.对基于XML的搜索引擎中涉及的关键技术进行了研究,并提出了对XML这种半结构化文档建立索引和查询时采用的数据结构和算法.它在不丢失文档中结构信息的情况下,充分利用XML的标签所带来的上下文信息,能够大幅度提高查询的准确率. 展开更多
关键词 XML 搜索引擎 信息检索 WWW INTERNET
下载PDF
基于单汉字索引的全文检索系统的优化研究 被引量:11
2
作者 余海燕 张仲义 《中文信息学报》 CSCD 北大核心 2001年第4期14-19,27,共7页
对于按照单汉字建立倒排索引的全文检索系统 ,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法 :一是利用参数化的Golomb编码对倒排文件进行压缩 ;二是对求集合交集的逻辑乘算法进行改进 ;三是运用... 对于按照单汉字建立倒排索引的全文检索系统 ,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法 :一是利用参数化的Golomb编码对倒排文件进行压缩 ;二是对求集合交集的逻辑乘算法进行改进 ;三是运用并行计算和双缓冲技术。实验结果表明 ,经过优化后的单汉字全文检索系统已达到实用化的程度。 展开更多
关键词 单汉字标引 倒排文件 Golomb编码 全文检索系统 倒排索引 单汉字索引
下载PDF
全文索引技术时空效率分析 被引量:17
3
作者 刘小珠 彭智勇 《软件学报》 EI CSCD 北大核心 2009年第7期1768-1784,共17页
全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从... 全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从上述分类角度综述了全文索引时空效率方法中具有代表性的一些方法和技术:倒排文件、签名文件、后缀树与后缀数组、基于这3种索引的压缩技术、基于倒排文件的自索引与基于后缀数组的自索引的基本原理、所面临的问题及进展,并对这些技术的时空性能进行了详细的分析和比较,分析了各种技术的适应环境及优劣.最后总结了上述技术的特点,指出了存在的问题以及未来的研究方向. 展开更多
关键词 倒排文件 签名文件 后缀树 后缀数组 自索引 压缩 时空效率
下载PDF
搜索引擎倒排文件的一种分块组织技术 被引量:9
4
作者 彭波 李晓明 《电子学报》 EI CAS CSCD 北大核心 2005年第2期358-362,共5页
检索效率对大规模信息检索系统至关重要 .本文基于Web搜索应用背景 ,针对用户查询的统计特性 ,提出了一种分块组织倒排文件的方法 .通过建立检索性能模型 ,进行分析和仿真实验 ,结果表明这一方法下的检索算法可以有效的减少检索执行时... 检索效率对大规模信息检索系统至关重要 .本文基于Web搜索应用背景 ,针对用户查询的统计特性 ,提出了一种分块组织倒排文件的方法 .通过建立检索性能模型 ,进行分析和仿真实验 ,结果表明这一方法下的检索算法可以有效的减少检索执行时间 ,并得到这一组织方式中分块参数的优化选择方法 . 展开更多
关键词 搜索引擎 信息检索 倒排文件 检索效率
下载PDF
高效的随机访问分块倒排文件自索引技术 被引量:14
5
作者 刘小珠 彭智勇 陈旭 《计算机学报》 EI CSCD 北大核心 2010年第6期977-987,共11页
针对倒排索引空间开销大、查询时间效率低以及难以同时支持连接布尔查询和排序查询的问题,提出了一种同时提高空间效率与查询时间效率的高效随机访问分块倒排文件自索引RABIF.为了在降低空间消耗的同时支持连接布尔查询与排序查询,RABI... 针对倒排索引空间开销大、查询时间效率低以及难以同时支持连接布尔查询和排序查询的问题,提出了一种同时提高空间效率与查询时间效率的高效随机访问分块倒排文件自索引RABIF.为了在降低空间消耗的同时支持连接布尔查询与排序查询,RABIF将倒排列表进行合理地分块,然后对每个子块的不同部分采用相应的压缩方式,在不需要插入任何附加辅助信息的前提下实现压缩索引的快速定位与随机访问.理论分析及实验结果表明,与忽略倒排文件自索引SIF相比,提出的RABIF空间开销平均减少5.3%,布尔查询时间平均减少17.8%;对于0.2%与1%排序查询,查询时间分别平均减少34.4%与27.5%. 展开更多
关键词 倒排文件 自索引 时间效率 空间效率 随机访问
下载PDF
基于邻接矩阵的全文索引模型(英文) 被引量:10
6
作者 周水庚 胡运发 关佶红 《软件学报》 EI CSCD 北大核心 2002年第10期1933-1942,共10页
文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不... 文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不同的方式实现文本串邻接矩阵,导出了两种基于邻接矩阵的新型全文索引模型,即基于邻接矩阵的倒排文件和基于邻接矩阵的PAT数组.给出了基于新模型的文本查询算法;分析了新模型的存储空间和查询时间的开销,并分别与两种传统索引模型进行了比较.对实际文本库进行了测试以证实新模型的效能.新模型能够以相对于原文较小的空间代价获得较大幅度的查询效率的提高,因此适合于在大规模文本检索系统中应用. 展开更多
关键词 邻接矩阵 全文索引模型 倒排文 PAT数组 信息检索系统
下载PDF
一种新的基于XML的索引机制 被引量:5
7
作者 姚全珠 丁晓剑 +1 位作者 任雪利 张志锋 《计算机工程》 CAS CSCD 北大核心 2006年第15期90-92,共3页
当前基于Web的半结构化数据越来越受到重视。该文分析了当前对XML数据检索的相关工作,提出了一种路径索引技术,并将之无缝结合了基于文本的倒排索引文档,以实现XML文档的内容和结构的双重检索。该方法只需要对文档库扫描一次,可以大幅... 当前基于Web的半结构化数据越来越受到重视。该文分析了当前对XML数据检索的相关工作,提出了一种路径索引技术,并将之无缝结合了基于文本的倒排索引文档,以实现XML文档的内容和结构的双重检索。该方法只需要对文档库扫描一次,可以大幅度降低用户查询时间。 展开更多
关键词 XML 信息检索 索引 倒排文档
下载PDF
基于压缩后缀数组技术的搜索引擎 被引量:2
8
作者 姚全珠 张楠 +1 位作者 杨增辉 田元 《计算机工程》 CAS CSCD 北大核心 2008年第10期83-85,88,共4页
目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低。该文引入后缀数组技术进行全文索引,为克服全文索引时占用空间大的缺点,研究了压缩后缀数组技术,把后缀数组索引的大小压缩到了O(n)位,并给出应用压缩后缀... 目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低。该文引入后缀数组技术进行全文索引,为克服全文索引时占用空间大的缺点,研究了压缩后缀数组技术,把后缀数组索引的大小压缩到了O(n)位,并给出应用压缩后缀数组索引的步骤和核心操作伪代码。对比实验表明,基于压缩后缀数组的索引比传统倒排文件索引的短语查准率提高了近20%。 展开更多
关键词 压缩后缀数组 倒排文件 后缀数组 搜索引擎
下载PDF
基于Berkeley DB的文献检索设计与实现 被引量:1
9
作者 孙哲 张铭 唐世渭 《计算机工程与应用》 CSCD 北大核心 2003年第13期200-203,220,共5页
该文基于开放源码的BerkeleyDB嵌入式数据库,采用不支持事务的BerkeleyDBConcurrentDataStore配置,实现了科学文献的全文检索和组合字段检索功能。该检索系统有着低开销,高效率的优点。为了进一步进行比较,文章还设计实现了基于Oracle... 该文基于开放源码的BerkeleyDB嵌入式数据库,采用不支持事务的BerkeleyDBConcurrentDataStore配置,实现了科学文献的全文检索和组合字段检索功能。该检索系统有着低开销,高效率的优点。为了进一步进行比较,文章还设计实现了基于Oracle数据库的检索方案。从实验结果来看,前者无论在开销还是检索效率上都远远优于后者,完全可适用于中大规模的各种检索应用。 展开更多
关键词 全文检索 科学文献导航 倒排文件 嵌入式数据库
下载PDF
直方图的优化存储和快速检索 被引量:2
10
作者 罗迒哉 薛向阳 +1 位作者 朱兴全 吴立德 《计算机学报》 EI CSCD 北大核心 1999年第12期1328-1331,共4页
直方图是一种非常重要的图像特征,常用于基于内容的图像检索系统中,例如,用颜色直方图可以检索到相似颜色的图像.但是,目前使用的颜色直方图比较小、维数最多是3,因而检索效果不令人满意.该文提出用倒排文件解决高维巨型直方图... 直方图是一种非常重要的图像特征,常用于基于内容的图像检索系统中,例如,用颜色直方图可以检索到相似颜色的图像.但是,目前使用的颜色直方图比较小、维数最多是3,因而检索效果不令人满意.该文提出用倒排文件解决高维巨型直方图存储和快速检索问题。 展开更多
关键词 图像处理 文件存储 直方图 倒排文件 图像检索
下载PDF
利用关键词倒排表实时检索中文网页 被引量:4
11
作者 王远定 梁久祯 《计算机工程与应用》 CSCD 北大核心 2010年第28期135-137,159,共4页
研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根... 研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根据关键词在所有网页中出现的频率统计生成关键词倒排文件。实验中,通过对比访问网页库、特征表和倒排文件三种不同的数据来源,分别实现了中文网页的关键词检索,比较了三种数据源检索的实时性。实验表明,基于关键词的倒排表检索算法大大优于其他两种方法,具有很好的实时性。 展开更多
关键词 检索 网页特征表 倒排文件 实时性
下载PDF
用后缀树构造XML路径字典加快路径查询评价速度
12
作者 成杰峰 王国仁 于戈 《小型微型计算机系统》 CSCD 北大核心 2004年第4期607-612,共6页
后缀树的重要性可以为多年来学术界对它总是有新的发现而印证 .它的结构简单 ,但可以在线性的时间里解决许多复杂的问题 ,被大量的使用在字符串及树的模式匹配中 .对于 XML标准 ,有很多基于关系库和对象库的索引技术和查询方案被提出来 ... 后缀树的重要性可以为多年来学术界对它总是有新的发现而印证 .它的结构简单 ,但可以在线性的时间里解决许多复杂的问题 ,被大量的使用在字符串及树的模式匹配中 .对于 XML标准 ,有很多基于关系库和对象库的索引技术和查询方案被提出来 ,我们试图给出一种基于后缀树进行路径导航的查询机制 :用后缀树构造 XML 路径字典加速路径查询评价速度 .我们提出可以在线地建立一个 trie树的后缀树 .讨论了 XML路径字典中的后缀树建树算法 ,阐述了整个索引方案和查询机制 ,并探讨了包括 RPE在内的它所支持的各种查询操作 .XML 展开更多
关键词 XML 查询处理 倒排文件 后缀树
下载PDF
基于隐私保护的关联规则挖掘算法 被引量:3
13
作者 欧阳金亮 陆黎明 《计算机与数字工程》 2010年第8期55-57,61,共4页
基于隐私保护的关联规则挖掘在挖掘项集之间的相关联系的同时,可以保护数据提供者的隐私。基于数据变换法,提出使用高效数据结构即倒排文件的隐私保护关联规则挖掘算法IFB-PPARM。针对特定的敏感规则以及给定的最小支持度和置信度,得到... 基于隐私保护的关联规则挖掘在挖掘项集之间的相关联系的同时,可以保护数据提供者的隐私。基于数据变换法,提出使用高效数据结构即倒排文件的隐私保护关联规则挖掘算法IFB-PPARM。针对特定的敏感规则以及给定的最小支持度和置信度,得到所需要修改的敏感事务并对其做适当的处理。算法只需对事务数据库做一次扫描,并且所有对事务的处理操作都在事务数据库映射成的倒排文件中进行。分析表明,该算法具有较好的隐私性和高效性。 展开更多
关键词 隐私保护 关联规则 倒排文件 敏感规则
下载PDF
农业搜索引擎倒排索引缓冲机制研究 被引量:2
14
作者 薛煜阳 张太红 +4 位作者 张晓明 冯向萍 陈燕红 白涛 马健 《新疆农业大学学报》 CAS 北大核心 2011年第2期161-164,共4页
为了解决ASPSeek倒排索引直接采用操作系统文件缓冲访问机制带来的效率问题,本研究以125万张中文农业网页为样本,采用块大小可变的倒排索引存储结构,设计了基于LRU、MRU、LFU、MFU、Clock、Random、FPA替代策略的专用缓冲管理机制。对这... 为了解决ASPSeek倒排索引直接采用操作系统文件缓冲访问机制带来的效率问题,本研究以125万张中文农业网页为样本,采用块大小可变的倒排索引存储结构,设计了基于LRU、MRU、LFU、MFU、Clock、Random、FPA替代策略的专用缓冲管理机制。对这7种替代策略的缓冲命中率及查询访问时间对比测试表明,当所有词条以相同的概率进行检索时,Clock算法为较好的缓冲替代策略,当词条以特定差别概率进行检索时,本研究提出的FPA算法为较好的缓冲替代策略。 展开更多
关键词 农业搜索引擎 倒排索引 缓冲替换策略
下载PDF
基于贪心策略的最近邻Top-k偏好查询方法 被引量:2
15
作者 蔡盼 李昕 +1 位作者 孟祥福 褚治广 《计算机工程与应用》 CSCD 北大核心 2020年第16期55-61,共7页
传统Top-k空间关键字查询忽略了兴趣对象周围的基础设施属性对于用户偏好的影响,针对该问题,研究了基于影响区域约束关系的Top-k空间关键字偏好查询问题,设计了一种基于贪心策略的最近邻算法GS-NNA(Greedy Strategy based Nearest Neigh... 传统Top-k空间关键字查询忽略了兴趣对象周围的基础设施属性对于用户偏好的影响,针对该问题,研究了基于影响区域约束关系的Top-k空间关键字偏好查询问题,设计了一种基于贪心策略的最近邻算法GS-NNA(Greedy Strategy based Nearest Neighbor Algorithm)。该算法采用R^*-tree和倒排文件两种索引结构,结合贪心思想和最近邻算法,每次选择分值最高的兴趣对象作为候选结果集,并利用阈值判定条件对R^*-tree进行剪枝。实验结果表明,GS-NNA算法与现有相关算法相比,有效提高了查询效率。 展开更多
关键词 Top-k空间关键字偏好查询 R^*-tree 倒排文件
下载PDF
倒排文件页式存储方法 被引量:1
16
作者 时亚南 束文杰 于国欣 《计算机系统应用》 2015年第5期253-256,共4页
页是磁盘与内存进行数据交换的基本单位,它在操作系统、数据库管理系统以及倒排文件的数据组织中占据十分重要的地位.为减少倒排索引的磁盘I/O读写开销,提出了一种倒排文件按页存储的构建方法,实现了按页读写文件.该方法主要包括磁盘I/... 页是磁盘与内存进行数据交换的基本单位,它在操作系统、数据库管理系统以及倒排文件的数据组织中占据十分重要的地位.为减少倒排索引的磁盘I/O读写开销,提出了一种倒排文件按页存储的构建方法,实现了按页读写文件.该方法主要包括磁盘I/O层设计、页管理器设计以及堆文件管理器设计三个部分,实现了页大小可变的分块式数据文件管理,支持页内定长记录、变长记录的组装以及超长数据记录的跨页存储.经实验测试,结果表明该方法是行之有效的,可以将其应用到实际的垂直搜索引擎中. 展开更多
关键词 倒排文件 按页存储 磁盘I/O层 堆文件管理器 记录
下载PDF
基于倒排文件的布尔规则隐藏算法 被引量:1
17
作者 张伟 陈芸 +1 位作者 邹汉斌 周霆 《计算机工程》 EI CAS CSCD 北大核心 2005年第14期97-98,218,共3页
介绍了关联规则方法的研究概况,提出了利用基于倒排文件的比特向量操作实现布尔规则隐藏算法,以及对实验结果的评估分析,并对未来数据挖掘领域中涉及的信息隐藏研究进行了展望。
关键词 敏感规则 隐藏 倒排文件 比特向量
下载PDF
基于压缩后缀数组的搜索引擎技术
18
作者 张志锋 刘育熙 +1 位作者 邓璐娟 梁树军 《电脑开发与应用》 2007年第3期30-31,34,共3页
搜索引擎(Search Eng ine)技术是在网络数据成指数级增加的情况下出现的新技术。然而现在的搜索引擎在检索时都采用的是倒排文件,从后缀数据技术出发探讨了压缩后缀数组(Com pressed Su ffix A rray)技术在搜索引擎技术中的应用,从而大... 搜索引擎(Search Eng ine)技术是在网络数据成指数级增加的情况下出现的新技术。然而现在的搜索引擎在检索时都采用的是倒排文件,从后缀数据技术出发探讨了压缩后缀数组(Com pressed Su ffix A rray)技术在搜索引擎技术中的应用,从而大大提高了搜索引擎的性能。 展开更多
关键词 压缩后缀数组 倒排文件 后缀数组 搜索引擎
下载PDF
基于XML的藏文图书检索系统的设计与研究 被引量:1
19
作者 泽仁哈姆 《西北民族大学学报(自然科学版)》 2005年第4期53-58,共6页
通过设计一个藏文图书查询系统,并给出该系统的总体结构图,对基于XML的搜索引擎中涉及的关键技术进行了研究,提出对XML这种半结构化文档建立索引和查询时采用的数据结构和算法.它在不丢失文档中结构信息的情况下,能充分利用XML的标签所... 通过设计一个藏文图书查询系统,并给出该系统的总体结构图,对基于XML的搜索引擎中涉及的关键技术进行了研究,提出对XML这种半结构化文档建立索引和查询时采用的数据结构和算法.它在不丢失文档中结构信息的情况下,能充分利用XML的标签所带来的上下文信息,能够大幅度提高查询的准确率. 展开更多
关键词 XML 检索系统 总体结构图 倒排表
下载PDF
基于倒排文件中一种性能模型的研究
20
作者 陈浩 《计算技术与自动化》 2012年第3期120-123,共4页
倒排文件作为现代大规模搜索引擎工作的一个核心技术,其原理简单,具备灵活高效的特点,具体体现在其根据需要可做到适当的变通。本文通过在给定搜索引擎系统内部参数的前提下对其吞吐率的研究,建立一种倒排文件性能模型,该模型有效地提... 倒排文件作为现代大规模搜索引擎工作的一个核心技术,其原理简单,具备灵活高效的特点,具体体现在其根据需要可做到适当的变通。本文通过在给定搜索引擎系统内部参数的前提下对其吞吐率的研究,建立一种倒排文件性能模型,该模型有效地提高了倒排文件的运行效率。 展开更多
关键词 倒排文件 搜索引擎 性能模型 信息检索
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部