期刊文献+
共找到231篇文章
< 1 2 12 >
每页显示 20 50 100
使用倒排索引优化面向组合的语义服务发现 被引量:24
1
作者 邝砾 邓水光 +2 位作者 李莹 吴健 吴朝晖 《软件学报》 EI CSCD 北大核心 2007年第8期1911-1921,共11页
提出为服务库中所有注册服务的输出建立倒排索引,以快速、准确、高效地发现目标服务.即为每个输出维护一个服务列表,用于记录在该服务库中所有能够产生该输出的服务.基于倒排索引机制,提出面向组合的服务发现算法.该方法利用倒排索引的... 提出为服务库中所有注册服务的输出建立倒排索引,以快速、准确、高效地发现目标服务.即为每个输出维护一个服务列表,用于记录在该服务库中所有能够产生该输出的服务.基于倒排索引机制,提出面向组合的服务发现算法.该方法利用倒排索引的优势,极大地减少了搜索空间,并通过挖掘服务组合提高服务发现的查全率.仿真实验表明,该方法能够在大规模服务库中快速、全面地响应用户请求. 展开更多
关键词 WEB服务 服务发现 服务组合 倒排索引 语义相似度
下载PDF
基于乘积量化的近似最近邻算法 被引量:3
2
作者 陶津 王晓东 姚宇 《计算机应用》 CSCD 北大核心 2018年第A02期128-131,共4页
多媒体数据平台难以应付海量数据高效索引和搜索数据的问题,提出了一种解决近似最近邻问题的乘积量化算法。首先,根据海量数据索引和搜索问题的特性,采用近似最近邻思想建立数学模型;然后通过将数据的高维特征分段进行单独k最近邻编码... 多媒体数据平台难以应付海量数据高效索引和搜索数据的问题,提出了一种解决近似最近邻问题的乘积量化算法。首先,根据海量数据索引和搜索问题的特性,采用近似最近邻思想建立数学模型;然后通过将数据的高维特征分段进行单独k最近邻编码得到数据的压缩编码;其次,根据编码方式建立解码器使得压缩编码可以近似地还原成原始特征。最后利用非对称距离计算的方式,计算出原始向量与压缩编码的距离,根据该距离来判断数据之间的相似程度达到搜索的目的。理论分析表明,与传统的基于局部哈希敏感的数据搜索算法相比,采用非对称距离计算的乘积量化算法在同等时间和召回率的条件下,搜索速度提高了约1 000倍。 展开更多
关键词 乘积量化 机器学习 近似最近邻算法 聚类算法 非对称距离计算 倒排索引
下载PDF
基于映射/归约的分布式并行索引方法的研究与改进 被引量:1
3
作者 孙淑娴 杨峰 陈君龙 《山东师范大学学报(自然科学版)》 CAS 2017年第3期34-39,共6页
在信息爆炸的时代,全文搜索引擎必须尽快索引大量数据,以提供最佳的检索服务.本文首先分析传统独立索引的问题,以及如何通过分布式和并行索引解决这些问题.然后提出了基于映射/归约的分布式索引算法,改变了映射节点的中间数据的结构,并... 在信息爆炸的时代,全文搜索引擎必须尽快索引大量数据,以提供最佳的检索服务.本文首先分析传统独立索引的问题,以及如何通过分布式和并行索引解决这些问题.然后提出了基于映射/归约的分布式索引算法,改变了映射节点的中间数据的结构,并使用映射/归约的第二个排序函数.最后,通过实验验证了其时间和空间效率. 展开更多
关键词 分布 地图/减少 反向索引
下载PDF
一种面向搜索引擎的基于集合模型的搜索算法
4
作者 王路芳 张虎 《山西农业大学学报(自然科学版)》 CAS 2009年第6期529-532,共4页
现代搜索引擎中的搜索算法已经成为影响搜索引擎效率的一个关键,通过对现有搜索引擎中搜索算法的研究分析,提出了一种面向搜索引擎的基于集合模型的搜索算法,该方法利用集合运算方便并、交运算的特点,把检索问题转化为集合运算问题,这... 现代搜索引擎中的搜索算法已经成为影响搜索引擎效率的一个关键,通过对现有搜索引擎中搜索算法的研究分析,提出了一种面向搜索引擎的基于集合模型的搜索算法,该方法利用集合运算方便并、交运算的特点,把检索问题转化为集合运算问题,这使得建立索引的过程和检索的过程简单化。实验表明,该方法能够有效的提高搜索引擎的搜索效率。 展开更多
关键词 搜索引擎 倒排索引 关键词
下载PDF
句子相似模型和最相似句子查找算法 被引量:68
5
作者 吕学强 任飞亮 +1 位作者 黄志丹 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第6期531-534,共4页
提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·... 提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·提出一种基于单词倒排索引和句子长度索引的最相似句子查找算法·实验结果表明该查找算法不仅高效,而且平均查找时间受语料库规模影响很小· 展开更多
关键词 自然语言处理 基于实例 机器翻译 句子相似度 倒排索引 语料库
下载PDF
基于Lucene的中文倒排索引技术的研究 被引量:50
6
作者 郑榕增 林世平 《计算机技术与发展》 2010年第3期80-83,共4页
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引... 索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。 展开更多
关键词 全文检索 倒排索引 索引压缩Lucene
下载PDF
基于NoSQL数据库的大数据查询技术的研究与应用 被引量:28
7
作者 朱建生 汪健雄 张军锋 《中国铁道科学》 EI CAS CSCD 北大核心 2014年第1期135-141,共7页
基于NoSQL数据库理论,根据应用场景的不同,将NoSQL数据库分为面向高性能读写、面向文档和面向分布式计算的3种类型。对比分析这3种类型数据库的6种代表产品的优缺点,结合铁路客票实名制售票信息综合分析系统中的大数据操作的需求,选用No... 基于NoSQL数据库理论,根据应用场景的不同,将NoSQL数据库分为面向高性能读写、面向文档和面向分布式计算的3种类型。对比分析这3种类型数据库的6种代表产品的优缺点,结合铁路客票实名制售票信息综合分析系统中的大数据操作的需求,选用NoSQL数据库中的面向分布式计算的Cassandra数据库。基于Cassandra数据库,提出铁路客票实名制信息综合分析系统的技术架构,并设计反向索引以构建客票实名制乘车信息的查询策略和查询流程。通过性能测试,验证了NoSQL数据库技术在处理大数据查询和分析中的高可用性,可突破传统关系型数据库和数据仓库在应用中所遇到的查询性能、扩展性以及投资成本的瓶颈。 展开更多
关键词 NOSQL数据库 Cassandra数据库 大数据处理 反向索引 数据查询
下载PDF
基于Lucene的搜索引擎设计与实现 被引量:26
8
作者 赵珂 逯鹏 李永强 《计算机工程》 CAS CSCD 北大核心 2011年第16期39-41,共3页
针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,... 针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保证检索结果的准确性。 展开更多
关键词 FTP搜索引擎 Lucene框架 模型-视图-控制器 有限状态自动机 倒排索引
下载PDF
一种高效的倒排索引存储结构 被引量:22
9
作者 邓攀 刘功申 《计算机工程与应用》 CSCD 北大核心 2008年第31期149-152,共4页
倒排索引是信息检索系统的核心部分,其存储结构对检索的效率和效果起着至关重要的作用,根据汉语词汇的频率分布情况和当前的软硬件环境,提出一种高效的倒排索引结构,在一定程度上能够节省磁盘空间,提高检索效率,并且支持增量更新和删除。
关键词 倒排索引 词典 容量 追加块
下载PDF
基于多级信息网格的海量遥感数据存储管理研究 被引量:15
10
作者 李爽 程承旗 +2 位作者 童晓冲 陈波 翟卫欣 《测绘学报》 EI CSCD 北大核心 2016年第B12期106-114,共9页
随着遥感探测技术的高速发展,空间信息呈爆炸式增长。针对目前现有遥感数据存储管理系统数据量大、数据来源丰富、查询检索慢等问题,本文提出了一种基于GeoSOT网格的遥感数据组织方案,并首次在关系型数据库中增加数组数据类型的剖分网... 随着遥感探测技术的高速发展,空间信息呈爆炸式增长。针对目前现有遥感数据存储管理系统数据量大、数据来源丰富、查询检索慢等问题,本文提出了一种基于GeoSOT网格的遥感数据组织方案,并首次在关系型数据库中增加数组数据类型的剖分网格编码列,来存储遥感影像元数据中空间信息,对数据进行逻辑剖分索引,从而实现影像数据的统一存储与空间区域检索。试验选择Kingbase关系型数据库作为测试平台,通过模拟全球范围的影像数据,与Oracle平台进行对比试验。结果表明本文的检索效率具有明显优势,可有效提高遥感数据整合、检索效率,为现有遥感数据存储中心或管理系统提供了一种高效、可行的方案。 展开更多
关键词 GeoSOT网格 遥感影像 元数据 数组数据结构 倒排索引
下载PDF
关系型数据库中数值数据的密文检索模型研究 被引量:14
11
作者 王小英 刘庆杰 +1 位作者 陈丹琪 白灵 《计算机仿真》 CSCD 北大核心 2013年第11期409-411,425,共4页
研究关系数据库密文检索优化问题。对于加密后的关系数据库,由于密文数据不再保持原有明文的顺序性,查询操作带来了极大的困难。传统的密文检索模型,无法全面分析加密后的密文数据的排名大小以及概率值大小,获取的密文检索在语义上具有... 研究关系数据库密文检索优化问题。对于加密后的关系数据库,由于密文数据不再保持原有明文的顺序性,查询操作带来了极大的困难。传统的密文检索模型,无法全面分析加密后的密文数据的排名大小以及概率值大小,获取的密文检索在语义上具有歧义性,出现不同的检索结果,导致算法的实用性很低。提出了一种新的关系型数据库中数值数据的密文检索方案,对数值型数据进行聚类分析,过滤无价值数据,对数据库进行加密和解密分析,采用P-kRanks算法实现数值型数据密文的精确检索,获取最佳的密文检索结果。实验结果说明,提出的密文检索模型获取密钥的时间开销是传统模型的一半,数据获取者得到会话密钥的效率提高了50%,具有较高的应用价值。 展开更多
关键词 密文数据库 倒排索引 密文检索 隐私保护
下载PDF
一种基于可扩展散列表的倒排索引更新策略 被引量:6
12
作者 吴恒山 刘兴宇 左琼 《计算机工程》 CAS CSCD 北大核心 2004年第8期83-84,F003,共3页
该文提出一种新的基于可扩展散列表的倒排索引更新策略,使倒排索引具有良好的可扩展性。它既支持文档的插入、删除操作,又具有较高的查询效率和空间利用率。并在它的基础上,实现了倒排索引的增量更新和实时更新。
关键词 全文检索 倒排索引 增量更新 可扩展散列表
下载PDF
一种面向密文大型数据集的可搜索加密方案 被引量:13
13
作者 贾强 张帅 周福才 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第7期913-919,共7页
为解决可搜索加密方案中由于安全索引过大而导致的关键词搜索时间复杂度过高这一问题,结合云存储应用环境,提出了一种面向密文大型数据集的可搜索加密方案.针对云存储环境中数据集过大的用户,使用块状存储结构优化安全索引的数据结构,... 为解决可搜索加密方案中由于安全索引过大而导致的关键词搜索时间复杂度过高这一问题,结合云存储应用环境,提出了一种面向密文大型数据集的可搜索加密方案.针对云存储环境中数据集过大的用户,使用块状存储结构优化安全索引的数据结构,将安全索引按照分块参数分为Small,Medium,Large三类.在关键词搜索过程中采用间接寻址的方式,使得在安全索引过大的情况下,仍然能保持良好的搜索时间复杂度,达到用户可接受的范围.实验结果表明,随着安全索引的增大,关键词搜索时间达到了亚线性. 展开更多
关键词 可搜索加密 倒排索引 云存储 文件加密 大型数据集
下载PDF
搜索引擎的混合索引技术 被引量:6
14
作者 彭波 《计算机工程与应用》 CSCD 北大核心 2004年第22期16-18,共3页
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的... 倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。 展开更多
关键词 搜索引擎 信息检索 倒排索引
下载PDF
基于Cassandra的可扩展分布式反向索引的构建 被引量:10
15
作者 唐李洋 倪志伟 李应 《计算机科学》 CSCD 北大核心 2011年第6期187-190,共4页
随着云计算时代的到来,大型Web应用的不断发展,海量数据不断增加,集中式的数据检索已不再满足需求。如何在分布式的环境中高效地处理数据检索成为亟待解决的问题。传统的关系型数据存储也无法完全适应云环境,NoSQL(Not only SQL)作为一... 随着云计算时代的到来,大型Web应用的不断发展,海量数据不断增加,集中式的数据检索已不再满足需求。如何在分布式的环境中高效地处理数据检索成为亟待解决的问题。传统的关系型数据存储也无法完全适应云环境,NoSQL(Not only SQL)作为一种云存储形式应运而生,其中Cassandra的应用较为广泛。以分布式的多节点架构的索引构建为背景,提出了建立在分布可扩展的数据存储Cassandra之上的分布式反向索引(DII,Distributed Inverted Index),并给出了数据模型和查询处理流程的分析,最后给出了Cassandra的性能测试。 展开更多
关键词 云存储 分布式索引 反向索引 Cassandra
下载PDF
一种基于B+树的混合索引结构 被引量:11
16
作者 长孙妮妮 张毅坤 +2 位作者 华灯鑫 邹子夏 陈浩 《计算机工程》 CAS CSCD 2012年第14期35-37,40,共4页
针对文件中存在字符属性和数值属性特点的数据,提出一种基于B+树的2层混合索引结构。在索引创建过程中,将文件中的数据根据其类型进行分类,第1层是为数据属性建立B+树索引结构,第2层是根据不同的数据类型建立不同的索引结构。实验结果表... 针对文件中存在字符属性和数值属性特点的数据,提出一种基于B+树的2层混合索引结构。在索引创建过程中,将文件中的数据根据其类型进行分类,第1层是为数据属性建立B+树索引结构,第2层是根据不同的数据类型建立不同的索引结构。实验结果表明,该索引结构能实现跨数据范围的检索,提高索引的创建速度和空间利用率。 展开更多
关键词 倒排索引 B+树 混合索引 时间开销 空间利用率 查询效率
下载PDF
搜索引擎倒排索引技术的改进 被引量:8
17
作者 吴文娟 车明 《微处理机》 2006年第6期83-85,共3页
倒排文件是搜索引擎检索系统普遍采用的索引技术。在实验基础上,针对中文搜索引擎中索引的时效性和传统倒排索引在更新时的缺点,提出分组索引技术和一种追加索引的更新算法,可以有效提高搜索引擎的检索效率,同时不影响系统检索效果。
关键词 倒排索引 分组索引 即时更新 搜索引擎
下载PDF
高效可扩展的对称密文检索架构 被引量:10
18
作者 吴志强 李肯立 郑蕙 《通信学报》 EI CSCD 北大核心 2017年第8期79-93,共15页
现有可搜索加密方案通常索引的构建、检索效率不高,数据节点的维护不便,难以适应分布式密文检索要求。针对现有密文检索方案出现的一些问题,提出了可拆分密文倒排索引架构,改善了密文索引的并行构建性能,简化了数据增删维护过程,增强了... 现有可搜索加密方案通常索引的构建、检索效率不高,数据节点的维护不便,难以适应分布式密文检索要求。针对现有密文检索方案出现的一些问题,提出了可拆分密文倒排索引架构,改善了密文索引的并行构建性能,简化了数据增删维护过程,增强了与传动No SQL系统的兼容性。采用检索结果集中化倒排索引方法,提高分布式密文检索系统检索效率。所提方案满足被广泛采用的选择关键词攻击下的不可区分性(IND-CKA)安全标准。结合Cassandra对多种性能进行了验证,实验数据表明,本架构对分布式、海量密文数据环境具有很好的适用性。 展开更多
关键词 可搜索加密 倒排索引 Cassandra 隐私保护
下载PDF
有效的非完全结构XML查询 被引量:8
19
作者 李晓光 于戈 +2 位作者 龚剑 王大玲 鲍玉斌 《计算机学报》 EI CSCD 北大核心 2007年第1期57-67,共11页
讨论了有意义的非完全结构XML查询(NFS)结果的定义,提出了一种易于扩展的基于模式和实体的有意义判断模型———PE模型;基于PE模型,设计了具体的等价模式和等价查询项判断方法,提出了PE索引和I2P倒排索引,设计了一种有效的NFS查询算法... 讨论了有意义的非完全结构XML查询(NFS)结果的定义,提出了一种易于扩展的基于模式和实体的有意义判断模型———PE模型;基于PE模型,设计了具体的等价模式和等价查询项判断方法,提出了PE索引和I2P倒排索引,设计了一种有效的NFS查询算法来处理有意义的判断以及路径查询和关键字查询.实验表明,文中方法的查询质量和效率要优于XSEarch系统和Timber系统. 展开更多
关键词 非完全结构XML查询 有意义的查询结果 结构索引 倒排索引
下载PDF
高效的基于段模式的恶意URL检测方法 被引量:9
20
作者 林海伦 李焱 +2 位作者 王伟平 岳银亮 林政 《通信学报》 EI CSCD 北大核心 2015年第S1期141-148,共8页
提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的... 提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的URL是否是恶意URL。不仅如此,该方法还支持基于Jaccard的随机域名识别技术来判定包含随机域名的恶意URL。实验结果表明,与当前先进的基准方法相比,该方法具有较好的性能和可扩展性。 展开更多
关键词 恶意URL 段模式 三元组 倒排索引 随机域名
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部