期刊文献+
共找到252篇文章
< 1 2 13 >
每页显示 20 50 100
基于倒排索引的文本相似搜索 被引量:4
1
作者 杨建武 陈晓鸥 《计算机工程》 CAS CSCD 北大核心 2005年第5期1-3,共3页
根据文本向量的维分布的稀疏性,提出了基于倒排索引的文本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量文本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。
关键词 相似搜索 倒排索引 多维索引 文本相似搜索
下载PDF
网络舆情中的信息预处理与自动摘要算法 被引量:8
2
作者 廉捷 刘云 《北京交通大学学报》 CAS CSCD 北大核心 2010年第5期94-99,共6页
提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准... 提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法. 展开更多
关键词 自动摘要 网页预处理 信息抽取 倒排索引 网络舆情
下载PDF
基于文档重排的索引压缩技术 被引量:1
3
作者 纪蕾 陈英 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1828-1832,共5页
对于提高网络搜索引擎系统的性能而言,有效的存取倒排索引表和快速的响应搜索操作起着关键的作用,故提出了一种能够有效提高索引压缩率的文档重排算法——S tar-Scan算法。该算法是利用聚类算法将相似的文档排列到一起,从而减少编码文... 对于提高网络搜索引擎系统的性能而言,有效的存取倒排索引表和快速的响应搜索操作起着关键的作用,故提出了一种能够有效提高索引压缩率的文档重排算法——S tar-Scan算法。该算法是利用聚类算法将相似的文档排列到一起,从而减少编码文档编号(D ocID)之间的差值所需要的字节数,达到提高索引压缩率的效果。在TREC 12数据集上进行的多个实验表明,与随机排列相比,通过S tar-Scan算法重新排列后的倒排表在D e lta编码方式上压缩率平均提高了大约30.22%,从而有效地提高了搜索引擎的效率。 展开更多
关键词 倒排索引表 倒排表 聚类 索引压缩 网络搜索引擎
原文传递
关于卫星机器人地面装配的目标快速识别方法 被引量:1
4
作者 白丰 张明路 +1 位作者 张小俊 史延雷 《系统工程与电子技术》 EI CSCD 北大核心 2017年第5期1160-1168,共9页
针对在卫星机器人地面装配领域,基于尺度不变特征变换的目标识别方法存在实时性能缺陷的问题,提出结合标量量化描述和倒排文件索引的典型目标快速识别方法,以满足卫星装配过程中准确高效识别工件和装配体的需求。在初始检测、定位和描... 针对在卫星机器人地面装配领域,基于尺度不变特征变换的目标识别方法存在实时性能缺陷的问题,提出结合标量量化描述和倒排文件索引的典型目标快速识别方法,以满足卫星装配过程中准确高效识别工件和装配体的需求。在初始检测、定位和描述特征点的基础上,通过中值划分和遮蔽掩模方式完成浮点型描述向量的标量量化;利用倒排文件结构的查询策略快速搜索近邻特征点;依据距离比率准则和随机采样原则筛选稳定匹配点;通过仿射变换求解出矩形框中心坐标和边界宽度识别目标。实验结果表明,所提识别算法的平均正确率均值曲线图包围面积平均达到尺度不变特征变换的90.12%,能够正确匹配特征点并框选有效目标,具备相似的区分性能优势;同时匹配阶段执行时间只有尺度不变特征变换的19.54%,总体执行时间也只有49.84%,具有实时性能方面的优势。 展开更多
关键词 卫星装配 目标识别 标量量化 倒排文件索引
下载PDF
基于MapReduce和双层倒排网格索引的kNN算法 被引量:1
5
作者 赵敏超 杜震洪 +2 位作者 张丰 刘仁义 李荣亚 《浙江大学学报(理学版)》 CAS CSCD 2014年第6期703-708,共6页
随着卫星定位技术和移动互联网技术的飞速发展,地理空间数据来源变得更加多源异构.面对海量地理空间数据,如何快速有效地找到目标周围的兴趣点变得异常重要.依据空间k近邻(kNN)查询算法,提高效率的关键在数据索引和数据块存储结构设计,... 随着卫星定位技术和移动互联网技术的飞速发展,地理空间数据来源变得更加多源异构.面对海量地理空间数据,如何快速有效地找到目标周围的兴趣点变得异常重要.依据空间k近邻(kNN)查询算法,提高效率的关键在数据索引和数据块存储结构设计,通过引入云计算的MapReduce编程模型,设计了一种面向MapReduce的地理空间数据双层倒排网格索引,利用CircularTrip算法实现了目标点近邻查询计算,最终获得距离目标点最邻近的数据点集.实验结果表明,该索引方法较单层倒排网格索引下的kNN查询效率有明显提高,且数据量越大效率提升越明显,此法适合大规模并行计算. 展开更多
关键词 双层倒排网格索引 k最邻近结点算法 云计算 MAPREDUCE CircularTrip
下载PDF
一类海量数据倒排文件的组织
6
作者 鲁声清 《天津大学学报》 EI CAS CSCD 1999年第5期657-659,共3页
探讨了一类海量数据的倒排文件组织的理论和技术,以一部1100余万字的巨著的数据组织为例,阐述了主索引文件的生成、变长记录的处理、记录排序方法及检纠错技术等.
关键词 文件组织 数据处理 倒排文件 索引 计算机
下载PDF
可扩展性桌面搜索引擎的设计与实现
7
作者 张剑明 周荣辉 《成都信息工程学院学报》 2012年第1期49-54,共6页
为了使桌面搜索引擎具有良好的可扩展性和执行效率,满足用户对信息的全文检索要求,在研究桌面搜索引擎基本构件的基础上,架构出可扩展性桌面搜索引擎的系统体系结构,探讨了在Visual C++环境中如何基于组件编程的方法设计各关键构件、采... 为了使桌面搜索引擎具有良好的可扩展性和执行效率,满足用户对信息的全文检索要求,在研究桌面搜索引擎基本构件的基础上,架构出可扩展性桌面搜索引擎的系统体系结构,探讨了在Visual C++环境中如何基于组件编程的方法设计各关键构件、采用倒排索引和多线程处理等关键技术。结果表明该桌面搜索引擎可扩展性强并具有良好的效率和效果。 展开更多
关键词 计算机软件与理论 桌面搜索 倒排索引 组件编程 多线程处理
下载PDF
一种轻量级中文搜索引擎模型的设计与实现
8
作者 黄宇达 魏霞 王迤冉 《计算机技术与发展》 2012年第9期201-204,209,共5页
首先详细介绍了一种建构在PC Windows平台上的轻量级中文搜索引擎系统模型的总体设计,然后采用基于多线程技术的广度优先遍历法及最大匹配法和最小匹配法相结合的中文分词法等技术进行了各个主要功能模块的具体设计和实现,对模型进行了... 首先详细介绍了一种建构在PC Windows平台上的轻量级中文搜索引擎系统模型的总体设计,然后采用基于多线程技术的广度优先遍历法及最大匹配法和最小匹配法相结合的中文分词法等技术进行了各个主要功能模块的具体设计和实现,对模型进行了基于多线程的网络爬虫、用户接口等测试。测试实验结果表明:构建并实现的轻量级中文搜索引擎系统模型能较好地实现一个简单中文搜索引擎所具有的基本功能,系统界面简单实用,具有较高的资源检索率并能够保证检索结果的准确性。 展开更多
关键词 网络爬虫 URL库 中文分词 倒排文件索引 多线程
下载PDF
移动云计算环境下的双色反近邻查询算法
9
作者 季长清 余胜 +3 位作者 王宝凤 陶帅 汪祖民 王润方 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2016年第7期1330-1337,共8页
研究在移动云计算环境下的最大双色反最近邻查询优化问题,设计新的高效的双色反最近邻查询算法——SILM算法.SILM算法是基于MapReduce框架下的倒排网格索引结构,在Map函数中对分片数据区域使用PCT轮圈算法.对包含在圆区域内或与圆相交... 研究在移动云计算环境下的最大双色反最近邻查询优化问题,设计新的高效的双色反最近邻查询算法——SILM算法.SILM算法是基于MapReduce框架下的倒排网格索引结构,在Map函数中对分片数据区域使用PCT轮圈算法.对包含在圆区域内或与圆相交的网格的权值记为1,在Reduce函数中使用网格处理算法对分片数据区域进行扫描及合并,对重叠的网格的权值进行累加,输出网格空间中权值最大的网格区域.SILM算法可以在多计算节点上进行分布式计算,更适合于在移动云计算环境下处理大规模并行查询请求.通过实验对SILM算法的效率进行验证.实验结果表明,当数据量较大(数据点个数大于2.0×10~6)时,SILM算法的查询效率是目前解决最优选址问题最佳算法的2倍. 展开更多
关键词 最大双色反最近邻查询 倒排网格索引 移动云计算
下载PDF
IPI:灵活高效的对象代理数据库索引结构
10
作者 李宇珺 彭智勇 +2 位作者 吴瑕 兰海 彭煜玮 《计算机科学与探索》 CSCD 北大核心 2018年第8期1191-1201,共11页
目前对象代理数据库中路径表达式计算的索引结构都存在一个严重问题:缺乏灵活性。针对该问题提出了一种索引结构——倒排路径索引(inverted path index,IPI),包括Inverted-Object-Index和PredicateIndex。前者利用倒排索引存储对象间的... 目前对象代理数据库中路径表达式计算的索引结构都存在一个严重问题:缺乏灵活性。针对该问题提出了一种索引结构——倒排路径索引(inverted path index,IPI),包括Inverted-Object-Index和PredicateIndex。前者利用倒排索引存储对象间的代理关系,后者则辅助进行对象关联检索,不仅能灵活用于任意路径表达式,还能有效减少计算开销。基于IPI索引结构设计实现了计算路径表达式的IPI索引方法。通过实验分析了影响路径表达式计算效率的各种因素,实验结果表明,IPI索引方法能高效地计算路径表达式,且灵活性在多数情况要优于现有方法。 展开更多
关键词 对象代理数据库 倒排路径索引 路径表达式 查询优化 灵活性
下载PDF
句子相似模型和最相似句子查找算法 被引量:68
11
作者 吕学强 任飞亮 +1 位作者 黄志丹 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第6期531-534,共4页
提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·... 提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·提出一种基于单词倒排索引和句子长度索引的最相似句子查找算法·实验结果表明该查找算法不仅高效,而且平均查找时间受语料库规模影响很小· 展开更多
关键词 自然语言处理 基于实例 机器翻译 句子相似度 倒排索引 语料库
下载PDF
基于Lucene的中文倒排索引技术的研究 被引量:50
12
作者 郑榕增 林世平 《计算机技术与发展》 2010年第3期80-83,共4页
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引... 索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。 展开更多
关键词 全文检索 倒排索引 索引压缩Lucene
下载PDF
基于NoSQL数据库的大数据查询技术的研究与应用 被引量:28
13
作者 朱建生 汪健雄 张军锋 《中国铁道科学》 EI CAS CSCD 北大核心 2014年第1期135-141,共7页
基于NoSQL数据库理论,根据应用场景的不同,将NoSQL数据库分为面向高性能读写、面向文档和面向分布式计算的3种类型。对比分析这3种类型数据库的6种代表产品的优缺点,结合铁路客票实名制售票信息综合分析系统中的大数据操作的需求,选用No... 基于NoSQL数据库理论,根据应用场景的不同,将NoSQL数据库分为面向高性能读写、面向文档和面向分布式计算的3种类型。对比分析这3种类型数据库的6种代表产品的优缺点,结合铁路客票实名制售票信息综合分析系统中的大数据操作的需求,选用NoSQL数据库中的面向分布式计算的Cassandra数据库。基于Cassandra数据库,提出铁路客票实名制信息综合分析系统的技术架构,并设计反向索引以构建客票实名制乘车信息的查询策略和查询流程。通过性能测试,验证了NoSQL数据库技术在处理大数据查询和分析中的高可用性,可突破传统关系型数据库和数据仓库在应用中所遇到的查询性能、扩展性以及投资成本的瓶颈。 展开更多
关键词 NOSQL数据库 Cassandra数据库 大数据处理 反向索引 数据查询
下载PDF
基于Lucene的搜索引擎设计与实现 被引量:26
14
作者 赵珂 逯鹏 李永强 《计算机工程》 CAS CSCD 北大核心 2011年第16期39-41,共3页
针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,... 针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保证检索结果的准确性。 展开更多
关键词 FTP搜索引擎 Lucene框架 模型-视图-控制器 有限状态自动机 倒排索引
下载PDF
一种高效的倒排索引存储结构 被引量:22
15
作者 邓攀 刘功申 《计算机工程与应用》 CSCD 北大核心 2008年第31期149-152,共4页
倒排索引是信息检索系统的核心部分,其存储结构对检索的效率和效果起着至关重要的作用,根据汉语词汇的频率分布情况和当前的软硬件环境,提出一种高效的倒排索引结构,在一定程度上能够节省磁盘空间,提高检索效率,并且支持增量更新和删除。
关键词 倒排索引 词典 容量 追加块
下载PDF
一种支持高效检索的即时更新倒排索引方法 被引量:10
16
作者 贾崇 陆玉昌 鲁明羽 《计算机工程与应用》 CSCD 北大核心 2003年第29期198-201,共4页
随着万维网的快速发展,产生了一种全新概念的高效文档索引技术,文章实现了一种支持高效检索及即时更新的倒排索引,它是WebME(WebMiningEnvironment)原型系统的一部分,这部分用来对特定的查询进行高效的检索,并支持即时增量索引,即对新... 随着万维网的快速发展,产生了一种全新概念的高效文档索引技术,文章实现了一种支持高效检索及即时更新的倒排索引,它是WebME(WebMiningEnvironment)原型系统的一部分,这部分用来对特定的查询进行高效的检索,并支持即时增量索引,即对新加入的文档可以立即加入索引,且不用重新对原内容进行重索引,并且在更新索引时不会影响查询的进行。 展开更多
关键词 倒排索引 搜索引擎 即时更新
下载PDF
基于多级信息网格的海量遥感数据存储管理研究 被引量:15
17
作者 李爽 程承旗 +2 位作者 童晓冲 陈波 翟卫欣 《测绘学报》 EI CSCD 北大核心 2016年第B12期106-114,共9页
随着遥感探测技术的高速发展,空间信息呈爆炸式增长。针对目前现有遥感数据存储管理系统数据量大、数据来源丰富、查询检索慢等问题,本文提出了一种基于GeoSOT网格的遥感数据组织方案,并首次在关系型数据库中增加数组数据类型的剖分网... 随着遥感探测技术的高速发展,空间信息呈爆炸式增长。针对目前现有遥感数据存储管理系统数据量大、数据来源丰富、查询检索慢等问题,本文提出了一种基于GeoSOT网格的遥感数据组织方案,并首次在关系型数据库中增加数组数据类型的剖分网格编码列,来存储遥感影像元数据中空间信息,对数据进行逻辑剖分索引,从而实现影像数据的统一存储与空间区域检索。试验选择Kingbase关系型数据库作为测试平台,通过模拟全球范围的影像数据,与Oracle平台进行对比试验。结果表明本文的检索效率具有明显优势,可有效提高遥感数据整合、检索效率,为现有遥感数据存储中心或管理系统提供了一种高效、可行的方案。 展开更多
关键词 GeoSOT网格 遥感影像 元数据 数组数据结构 倒排索引
下载PDF
基于Lucene的索引系统的设计与实现 被引量:11
18
作者 黄少林 王华 +1 位作者 张玉红 蒋一峰 《现代情报》 2009年第7期169-171,共3页
索引系统是搜索引擎的数据大本营,在搜索引擎发展早期,能够索引的网页数量代表了整个行业的技术发展水平。Lucene全文检索技术是信息检索领域广泛使用的基本技术,它是一个优秀的开源全文本搜索技术框架,本文详细分析了索引系统相关技术... 索引系统是搜索引擎的数据大本营,在搜索引擎发展早期,能够索引的网页数量代表了整个行业的技术发展水平。Lucene全文检索技术是信息检索领域广泛使用的基本技术,它是一个优秀的开源全文本搜索技术框架,本文详细分析了索引系统相关技术和Lucene的索引系统结构。 展开更多
关键词 搜索引擎 索引 LUCENE 倒排索引
下载PDF
关系型数据库中数值数据的密文检索模型研究 被引量:14
19
作者 王小英 刘庆杰 +1 位作者 陈丹琪 白灵 《计算机仿真》 CSCD 北大核心 2013年第11期409-411,425,共4页
研究关系数据库密文检索优化问题。对于加密后的关系数据库,由于密文数据不再保持原有明文的顺序性,查询操作带来了极大的困难。传统的密文检索模型,无法全面分析加密后的密文数据的排名大小以及概率值大小,获取的密文检索在语义上具有... 研究关系数据库密文检索优化问题。对于加密后的关系数据库,由于密文数据不再保持原有明文的顺序性,查询操作带来了极大的困难。传统的密文检索模型,无法全面分析加密后的密文数据的排名大小以及概率值大小,获取的密文检索在语义上具有歧义性,出现不同的检索结果,导致算法的实用性很低。提出了一种新的关系型数据库中数值数据的密文检索方案,对数值型数据进行聚类分析,过滤无价值数据,对数据库进行加密和解密分析,采用P-kRanks算法实现数值型数据密文的精确检索,获取最佳的密文检索结果。实验结果说明,提出的密文检索模型获取密钥的时间开销是传统模型的一半,数据获取者得到会话密钥的效率提高了50%,具有较高的应用价值。 展开更多
关键词 密文数据库 倒排索引 密文检索 隐私保护
下载PDF
一种基于可扩展散列表的倒排索引更新策略 被引量:6
20
作者 吴恒山 刘兴宇 左琼 《计算机工程》 CAS CSCD 北大核心 2004年第8期83-84,F003,共3页
该文提出一种新的基于可扩展散列表的倒排索引更新策略,使倒排索引具有良好的可扩展性。它既支持文档的插入、删除操作,又具有较高的查询效率和空间利用率。并在它的基础上,实现了倒排索引的增量更新和实时更新。
关键词 全文检索 倒排索引 增量更新 可扩展散列表
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部