期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
一种全新的全文索引模型——后继数组模型 被引量:11
1
作者 刘学文 陶晓鹏 +1 位作者 于玉 胡运发 《软件学报》 EI CSCD 北大核心 2002年第1期150-158,共9页
提出了一种新的全文索引模型——后继数组模型,它结合了目前多个主流全文检索模型(倒排表模型、Pat数组模型等)的优点,提高了空间效率和时间效率,并得到了理论和实验的证明.
关键词 全文索引模型 后继数组模型 文本数据库 数据模型
下载PDF
一种基于XML的索引查询方法 被引量:1
2
作者 原庆能 唐培和 《广西工学院学报》 CAS 2004年第1期19-22,26,共5页
针对XML文件的特点,提出一种对XML文件建立索引的方法。该方法所采用的数据结构和算法,在充分利用XML文件的标记所隐含的上下文信息提高查询准确率的同时,有较小的索引冗余和较快的查询速度。
关键词 XML 索引查询方法 倒排表 数据结构 查询速度 界面设计
下载PDF
基于动态文档集的索引技术 被引量:1
3
作者 潘隆禧 孙乐 《计算机应用研究》 CSCD 北大核心 2009年第1期15-18,共4页
倒排文件是全文检索中广泛使用的索引结构,对静态文档集合建立倒排索引的研究已有较长时间。随着计算机技术的发展,需要存储的数据越来越大。同时特定的应用领域如新闻搜索、桌面搜索等对实时更新性能要求较高,这需要使用有效的索引更... 倒排文件是全文检索中广泛使用的索引结构,对静态文档集合建立倒排索引的研究已有较长时间。随着计算机技术的发展,需要存储的数据越来越大。同时特定的应用领域如新闻搜索、桌面搜索等对实时更新性能要求较高,这需要使用有效的索引更新策略,也称动态索引。描述了常用的动态索引技术,并详细分析了其使用代价。 展开更多
关键词 倒排表 索引的建立 索引更新
下载PDF
大数据环境下Lucene性能优化方法研究 被引量:2
4
作者 马旸 蔡冰 《南京理工大学学报》 EI CAS CSCD 北大核心 2015年第3期260-265,共6页
为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索... 为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索引结构中,从而提升倒排索引的写入性能。通过整合磁盘和内存的多分块倒排结构,为用户提供高效的数据查询分析结果。实验结果表明:在大数据环境下,RFDirectory方法的索引构建时间缩短为磁盘索引(FSDirectory)、内存索引(RAMDirectory)方法索引构建时间的50%,返回1个关键字的检索结果耗时缩短了近15%。 展开更多
关键词 大数据 LUCENE 内存计算 批量更新 倒排索引 倒排表 缓存 内存索引 磁盘索引 多分块倒排结构
下载PDF
基于倒排列表的网流索引检索与压缩方法 被引量:2
5
作者 陈震 刘洪健 《信息网络安全》 2014年第4期25-30,共6页
随着计算机的广泛应用以及互联网的飞速发展,互联网流量呈现爆炸式增长的态势。为了应对日益严重的网络滥用以及网络安全事件,出于安全取证的需要,必须对互联网流量进行收集、存储和分析。互联网流量的监控需要及时统计网络流量的源地... 随着计算机的广泛应用以及互联网的飞速发展,互联网流量呈现爆炸式增长的态势。为了应对日益严重的网络滥用以及网络安全事件,出于安全取证的需要,必须对互联网流量进行收集、存储和分析。互联网流量的监控需要及时统计网络流量的源地址、目的地址、源端口、目的端口、协议、时间戳等信息,以便进行流量统计和综合分析。但是网络流量信息是海量的,如何快速检索相关流量是一个挑战性问题。在搜索引擎中,为了处理海量数据检索,倒排索引是快速搜索技术的关键方法。文章把搜索引擎中的倒排索引方法和索引压缩算法应用到互联网网流信息检索中。通过实验测试和验证,在网流信息检索中,倒排索引以及索引压缩算法能够有效提高检索速度。 展开更多
关键词 计算机网络 搜索引擎 网流信息检索 索引压缩 倒排列表
下载PDF
一种基于可排序视图的RDF模式匹配算法 被引量:2
6
作者 熊政 王金明 +3 位作者 郑海雁 李昆明 徐立臻 崇志宏 《计算机工程与应用》 CSCD 北大核心 2016年第8期62-69,共8页
随着语义网络中数据量的激增,在RDF数据集中高效查询数据已成为一个亟待解决的问题。传统的基于物化视图的RDF模式匹配方法虽然能降低表的自连接操作次数,加快查询模式重写过程,但在视图集中检索模式匹配的视图等价于子图同构这一NP-har... 随着语义网络中数据量的激增,在RDF数据集中高效查询数据已成为一个亟待解决的问题。传统的基于物化视图的RDF模式匹配方法虽然能降低表的自连接操作次数,加快查询模式重写过程,但在视图集中检索模式匹配的视图等价于子图同构这一NP-hard问题。为了减小查询模式重写代价,提高RDF模式匹配过程效率,引入可排序视图概念,设计包含映射发现算法contain及其扩展算法contain+,简化等长度模式间包含映射发现过程,同时保证模式间的匹配代价与输入数据的规模线性相关。此外,提出基于倒排表/Map Reduce检索候选可排序视图的方法,实现RDF模式重写算法rewrite,用以处理不同规模数据集上的模式匹配问题。理论分析及实验证明,基于可排序视图的RDF模式匹配算法能有效地兼顾算法效率及算法可扩展性。 展开更多
关键词 可排序视图 倒排表 MAPREDUCE 模式重写
下载PDF
基于最小支持度阈值动态调整策略的最频繁项集挖掘算法 被引量:1
7
作者 陈超 刘才铭 《兰州理工大学学报》 CAS 北大核心 2012年第4期85-88,共4页
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能.针对当前在最频繁项集挖掘方面的不足,改进传统的倒排表,并结合最小支持度阈值动态调整策略,提出一个新的基于改进的倒排表和集合理论的最频... 最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能.针对当前在最频繁项集挖掘方面的不足,改进传统的倒排表,并结合最小支持度阈值动态调整策略,提出一个新的基于改进的倒排表和集合理论的最频繁项集挖掘算法.另外,给出几个命题和推论,并把它们用于本文算法以提高性能,最后对所提算法进行实验验证.实验结果表明,该算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法(NApriori算法,IntvMatrix算法)都好. 展开更多
关键词 频繁项集 关联规则 倒排表 集合理论
下载PDF
基于iMeMex数据模型的数据空间索引方法研究 被引量:1
8
作者 王红滨 周连科 +1 位作者 王念滨 邓胜春 《计算机科学与探索》 CSCD 2014年第1期61-72,共12页
目前,个人和组织的信息呈现急剧增长趋势,且非结构化数据所占比重在不断增加,这些属于某个主体的海量、分布、异构和共存的数据构成了一个异构数据空间,如何为用户提供高效、便捷和多样化的搜索查询服务是数据空间面临的巨大挑战,为数... 目前,个人和组织的信息呈现急剧增长趋势,且非结构化数据所占比重在不断增加,这些属于某个主体的海量、分布、异构和共存的数据构成了一个异构数据空间,如何为用户提供高效、便捷和多样化的搜索查询服务是数据空间面临的巨大挑战,为数据空间中异构数据构建高效的索引方法是解决这一问题的基础。对iMeMex数据模型的特点和数据空间中查询方法进行了分析,在此基础上通过扩展倒排列表方法,提出了一种基于iMeMex数据模型的索引方法,来提高对数据空间中异构数据的搜索查询效率。新的索引方法通过扩展倒排列表的关键字列和链表节点信息索引资源视图,来支持和提高关键字查询、谓词查询和路径查询的处理效率。实验结果表明,该索引方法能够有效、可行地解决数据空间中异构数据索引和查询效率问题。 展开更多
关键词 数据空间 索引 iMeMex数据模型 倒排列表
下载PDF
基于多数据源的XQuery查询重写优化技术
9
作者 周正 万常选 《科技广场》 2006年第7期7-9,共3页
本文主要阐述了XQuery对XML查询优化的相关内容,主要涉及的技术包括最小化、XML代数、索引技术、倒排列表、选择估计、重写机制等。本文阐述了其中基于多数据源的重写算法的具体思想和核心算法。
关键词 XQUERY 冗余 代数 索引 倒排列表 选择估计 重写
下载PDF
基于改进倒排表和集合的最频繁项集挖掘算法 被引量:1
10
作者 陈小玉 杨艳燕 +1 位作者 刘克成 朱颢东 《计算机应用研究》 CSCD 北大核心 2012年第6期2135-2137,共3页
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能。针对当前在最频繁项集挖掘方面的不足,将集合论引入倒排表以对其进行改进,然后以此为基础提出了几个命题和推论,并结合最小支持度阈值动态调... 最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能。针对当前在最频繁项集挖掘方面的不足,将集合论引入倒排表以对其进行改进,然后以此为基础提出了几个命题和推论,并结合最小支持度阈值动态调整策略,提出了一个基于改进的倒排表和集合理论的最频繁项集挖掘算法,最后对所提算法进行验证。实验结果表明,所提算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法,即NApriori和IntvMatrix算法都好。 展开更多
关键词 最频繁项集 文本关联规则 倒排表 集合理论
下载PDF
倒排文件的组织与最佳归并分析
11
作者 赵长林 《西南民族学院学报(自然科学版)》 1995年第4期484-488,共5页
对倒排文件的组织与最佳归并进行较系统的分析,提出了倒排文件的存储结构与实现的方法,倒排文件上的算法分析,最佳归并顺序的分析与论证。
关键词 倒排文件 倒排表 最佳归并 程序设计
下载PDF
基于倒排表的图书馆参考咨询问答系统的设计与实现
12
作者 柴源 《微型电脑应用》 2021年第9期172-175,共4页
参考咨询是高校图书馆的一项重要工作,为了提高参考咨询问答系统的效率,在分析传统参考咨询问答系统的不足及倒排表的优势的基础上,构建了基于倒排表的图书馆知识问答系统,并以西安航空学院图书馆参考咨询为例,进行了实证研究。
关键词 倒排表 图书馆 参考咨询 问答系统
下载PDF
关于Top-N最频繁项集挖掘的研究
13
作者 朱颢东 李红婵 《电子科技大学学报》 EI CAS CSCD 北大核心 2010年第5期757-761,773,共6页
最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的T... 最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的Top-N最频繁项集挖掘算法。同样,给出了几个命题和推论,并把它们用于该文算法以提高性能,实验结果表明,所提算法的规则有效率和时间性能优于NApriori算法和IntvMatrix算法。 展开更多
关键词 关联规则 倒排表 频繁项集 集合理论 支持度
下载PDF
一种基于编码压缩的数据广播关键字索引方法
14
作者 张健 孙未未 《计算机工程》 CAS CSCD 北大核心 2015年第1期75-81,共7页
无线环境的特殊性导致传统的关键字检索方法不能很好地用于周期数据广播之中。倒排表是全文检索中广泛使用的一种索引技术,但倒排表索引和基于哈希的数据索引无法解决索引结构过大的问题。为此,在周期数据广播环境下,提出一种新型的关... 无线环境的特殊性导致传统的关键字检索方法不能很好地用于周期数据广播之中。倒排表是全文检索中广泛使用的一种索引技术,但倒排表索引和基于哈希的数据索引无法解决索引结构过大的问题。为此,在周期数据广播环境下,提出一种新型的关键字索引结构,对倒排表进行编码压缩,缩减索引结构来减少访问时间和调谐时间。同时,与编码压缩索引相结合,设计一种周期数据广播下的文档调度方法。在真实数据集上进行的实验结果表明,该方法可缩减索引结构的规模,降低访问延迟和能耗。 展开更多
关键词 无线环境 数据广播 关键字检索 索引 编码压缩 倒排表
下载PDF
一种带有长度和位置约束的字符串索引方法
15
作者 于长永 高明 +1 位作者 柏禄一 赵宇海 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第7期959-963,共5页
提出了一种基于BWT(Burrows-wheeler-transform)的字符串集合的索引方法,以解决带有匹配字符串长度和匹配子串位置约束的子串确切匹配查找问题.讨论了BWT和基于BWT索引进行确切子串查找的基本原理.分析了字符串集合、匹配字符串长度和... 提出了一种基于BWT(Burrows-wheeler-transform)的字符串集合的索引方法,以解决带有匹配字符串长度和匹配子串位置约束的子串确切匹配查找问题.讨论了BWT和基于BWT索引进行确切子串查找的基本原理.分析了字符串集合、匹配字符串长度和匹配子串位置约束对原BWT索引的影响.重点解决了快速地从匹配后缀位置到字符串ID和匹配子串位置的计算问题.在3个真实的数据集上进行了比对实验,结果表明:所提出的基于BWT索引方法在没有增加原索引大小的情况下,大大提升了带有匹配字符串长度和匹配位置约束的确切子串的查找的性能,因此该算法更加适用于大规模的字符串集合的索引进行近似字符串匹配和连接. 展开更多
关键词 BWT 字符串索引 倒排链表 字符串近似匹配 序列比对
下载PDF
一种基于XML文档关键字检索的结构索引 被引量:5
16
作者 娄颖 李战怀 +2 位作者 郭文琪 陈群 韩萌 《计算机科学》 CSCD 北大核心 2010年第12期120-124,共5页
XML数据索引对其检索效率有较大的影响。在深入分析现有XML结构索引之后,结合XML文档特点,提出了一种基于关键字检索的结构索引——LSS(Level Structure Summary)。LSS采用了把具有相同标签路径的结点进行合并的策略,具有高效判断结点... XML数据索引对其检索效率有较大的影响。在深入分析现有XML结构索引之后,结合XML文档特点,提出了一种基于关键字检索的结构索引——LSS(Level Structure Summary)。LSS采用了把具有相同标签路径的结点进行合并的策略,具有高效判断结点之间同构异构关系的能力。实现了LSS索引生成算法CSCAN,并在LSS索引的基础上设计了XML关键字检索算法LSSearch。该算法依据LSS索引,将各个关键字的原始倒排表集合分拆成不同类型的子集合,最后在所有子集合上进行查询。实验结果表明,LSS可以帮助减少XML文档中关键字倒排表的规模,提高检索效率。 展开更多
关键词 XML 关键字检索 索引 倒排表
下载PDF
一种基于跳表和等间距偏移值的倒排表快速合并方法 被引量:2
17
作者 鲁娇龙 《数字技术与应用》 2019年第1期50-51,共2页
信息检索旨在通过一系列的计算过程达到处理用户的查询请求,并返回相关的文档列表以满足其信息需求的目的。检索任务依赖于具体的模型,检索系统主要基于布尔、向量空间、概率等模型。本文在传统跳表基础上结合等间距偏移值策略提出了一... 信息检索旨在通过一系列的计算过程达到处理用户的查询请求,并返回相关的文档列表以满足其信息需求的目的。检索任务依赖于具体的模型,检索系统主要基于布尔、向量空间、概率等模型。本文在传统跳表基础上结合等间距偏移值策略提出了一种新的倒排表合并方法。这种方法对于倒排表中记录分布较离散的情况具有很好的性能。 展开更多
关键词 布尔检索 倒排记录表 集合交集 跳表
下载PDF
基于文档重排的索引压缩技术 被引量:1
18
作者 纪蕾 陈英 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1828-1832,共5页
对于提高网络搜索引擎系统的性能而言,有效的存取倒排索引表和快速的响应搜索操作起着关键的作用,故提出了一种能够有效提高索引压缩率的文档重排算法——S tar-Scan算法。该算法是利用聚类算法将相似的文档排列到一起,从而减少编码文... 对于提高网络搜索引擎系统的性能而言,有效的存取倒排索引表和快速的响应搜索操作起着关键的作用,故提出了一种能够有效提高索引压缩率的文档重排算法——S tar-Scan算法。该算法是利用聚类算法将相似的文档排列到一起,从而减少编码文档编号(D ocID)之间的差值所需要的字节数,达到提高索引压缩率的效果。在TREC 12数据集上进行的多个实验表明,与随机排列相比,通过S tar-Scan算法重新排列后的倒排表在D e lta编码方式上压缩率平均提高了大约30.22%,从而有效地提高了搜索引擎的效率。 展开更多
关键词 倒排索引表 倒排表 聚类 索引压缩 网络搜索引擎
原文传递
基于过滤的并行字符串相似性连接方法 被引量:1
19
作者 杜明 夏龙雷 朱斌 《计算机工程与设计》 北大核心 2017年第2期389-394,共6页
对现有的PP-Join相似连接方法进行研究,提出一种处理字符串相似连接方法 TriP-Join,采用并行处理。对字符串集合中记录进行分段处理,依此求出记录的前缀长度;在候选阶段动态地建立反向索引表,根据反向索引表筛选出每个记录的候选集;并... 对现有的PP-Join相似连接方法进行研究,提出一种处理字符串相似连接方法 TriP-Join,采用并行处理。对字符串集合中记录进行分段处理,依此求出记录的前缀长度;在候选阶段动态地建立反向索引表,根据反向索引表筛选出每个记录的候选集;并行地对每个记录候选集进行验证。实验结果表明,在双核处理器环境下,相似连接方法节省时间在20%~25%,相似连接时间随着阈值减小和数据量增大急剧降低。对PP-Join处理方式进行优化,减少对相同字符串的重复处理,使其并行效果更优,进一步降低字符串相似连接时间。 展开更多
关键词 字符串相似连接 候选集 反向索引表 过滤 并行
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部