期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
一种局部相关不确定数据库快照集合上的概率频繁最近邻算法 被引量:12
1
作者 苗东菁 石胜飞 李建中 《计算机研究与发展》 EI CSCD 北大核心 2011年第10期1812-1822,共11页
局部相关空间不确定数据越来越受到许多实际应用的关注.提出了一种新颖的定义在不确定数据库的多个快照上的概率频繁近邻查询,目的是在多个快照数据上找到以一定概率频繁成为查询点最近邻的那些对象.应用现有的基于传统数据和基于不确... 局部相关空间不确定数据越来越受到许多实际应用的关注.提出了一种新颖的定义在不确定数据库的多个快照上的概率频繁近邻查询,目的是在多个快照数据上找到以一定概率频繁成为查询点最近邻的那些对象.应用现有的基于传统数据和基于不确定数据上的近邻查询算法直接处理这种查询会产生昂贵的开销.为了很好地解决这一问题,提出了一般的处理框架,其中包括相应的基于切尔诺夫界的过滤方法,以及对于概率质量函数的动态规划算法.给出了分别作用于两个阶段的两个过滤方法.在第1阶段,利用切尔诺夫界的上界推广形式可以过滤大量的候选目标,之后在第2阶段,利用切尔诺夫界的标准形式来进一步过滤候选目标.还讨论了用于处理扩展查询的动态规划算法以及相应的过滤条件.最后,在人工的和真实的数据上都进行了充分的实验,并验证了给出算法的有效性,为进一步的研究工作奠定了基础. 展开更多
关键词 不确定数据库 快照 局部相关性 概率频繁 最近邻查询
下载PDF
Trajectory Big Data Processing Based on Frequent Activity 被引量:9
2
作者 Amina Belhassena Hongzhi Wang 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2019年第3期317-332,共16页
With the rapid development and wide use of Global Positioning System in technology tools, such as smart phones and touch pads, many people share their personal experience through their trajectories while visiting plac... With the rapid development and wide use of Global Positioning System in technology tools, such as smart phones and touch pads, many people share their personal experience through their trajectories while visiting places of interest. Therefore, trajectory query processing has emerged in recent years to help users find their best trajectories. However, with the huge amount of trajectory points and text descriptions, such as the activities practiced by users at these points, organizing these data in the index becomes tedious. Therefore, the parallel method becomes indispensable. In this paper, we have investigated the problem of distributed trajectory query processing based on the distance and frequent activities. The query is specified by start and final points in the trajectory, the distance threshold, and a set of frequent activities involved in the point of interest of the trajectory.As a result, the query returns the shortest trajectory including the most frequent activities with high support and high confidence. To simplify the query processing, we have implemented the Distributed Mining Trajectory R-Tree index(DMTR-Tree). For this method, we initially managed the large trajectory dataset in distributed R-Tree indexes.Then, for each index, we applied the frequent itemset Apriori algorithm for each point to select the frequent activity set. For the faster computation of the above algorithms, we utilized the cluster computing framework of Apache Spark with MapReduce as the programing model. The experimental results show that the DMTR-Tree index and the query-processing algorithm are efficient and can achieve the scalability. 展开更多
关键词 DISTRIBUTED R-TREE TRAJECTORY frequent ACTIVITY query
原文传递
基于不确定数据的频繁项查询算法 被引量:10
3
作者 王爽 杨广明 朱志良 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第3期344-347,共4页
频繁项的查询是一项非常重要的技术,但在新兴的不确定数据领域却是一项新的研究课题.基于不确定数据,提出了一种新的频繁项定义,并提出了两条过滤规则,可以有效地减少检测数据的数量.最后提出高效的频繁项查询算法UFI,该算法通过找到概... 频繁项的查询是一项非常重要的技术,但在新兴的不确定数据领域却是一项新的研究课题.基于不确定数据,提出了一种新的频繁项定义,并提出了两条过滤规则,可以有效地减少检测数据的数量.最后提出高效的频繁项查询算法UFI,该算法通过找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能. 展开更多
关键词 频繁项 不确定数据 剪枝规则 不确定数据模型 查询处理
下载PDF
一种基于模板的数据预取和缓存算法 被引量:3
4
作者 高萌 王霓虹 +1 位作者 李丹 白杰云 《计算机应用研究》 CSCD 北大核心 2014年第11期3240-3242,3246,共4页
针对专题型应用中普遍存在的大数据查询的频繁性和模式固定性特点,提出一种基于模板的数据预取和缓存算法,用于加快数据查询响应速度并减轻服务器端负载压力。通过构建数据查询模板,在触发器被激发时调用模板以构建预取数据,提出基于模... 针对专题型应用中普遍存在的大数据查询的频繁性和模式固定性特点,提出一种基于模板的数据预取和缓存算法,用于加快数据查询响应速度并减轻服务器端负载压力。通过构建数据查询模板,在触发器被激发时调用模板以构建预取数据,提出基于模板的数据预取方法和基于触发器的预取算法;考虑缓存空间中一些大数据的存在对查询响应速度的优化性,建立缓存对象模型并提出改进的Hybrid算法。以东方红湿地环境监测平台为例进行算法实验与分析,实验结果表明,在不同的缓存百分比下,较之典型的缓存算法,改进的Hybrid算法在访问延迟率上均有改进,且在大数据量查询时表现出了优越的应用效果。 展开更多
关键词 专题型应用 数据预取 数据缓存 频繁查询 大数据查询
下载PDF
基于频繁项集和相关性的局部反馈查询扩展 被引量:1
5
作者 黄名选 冯平 马瑞兴 《计算机工程》 CAS CSCD 北大核心 2011年第23期66-68,共3页
针对信息检索中存在的词不匹配问题,提出一种基于频繁项集和相关性的局部反馈查询扩展算法。设计查询扩展模型和扩展词权重计算方法,从前列n篇初检文档中,挖掘同时含有查询词项、非查询词项的频繁项集,在该频繁项集中提取非查询词项作... 针对信息检索中存在的词不匹配问题,提出一种基于频繁项集和相关性的局部反馈查询扩展算法。设计查询扩展模型和扩展词权重计算方法,从前列n篇初检文档中,挖掘同时含有查询词项、非查询词项的频繁项集,在该频繁项集中提取非查询词项作为候选扩展词,计算每个候选扩展词与整个查询的相关性,并根据该相关性得到最终的扩展词,以此实现查询扩展。实验结果表明,该算法能有效提高信息检索的性能。 展开更多
关键词 频繁项集 查询扩展 信息检索 局部反馈
下载PDF
XML频繁子树挖掘研究
6
作者 王禹 王英博 《世界科技研究与发展》 CSCD 2009年第5期836-838,共3页
本文主要研究通过引入滑动窗口模型,提出了面向XML查询数据流的频繁查询子树在线挖掘算法。算法以全局Trie树为数据缓存结构管理和维护缓存池的数据流,采用自下而上、基于前缀等价类的遍历方式快速产生所有带根查询子树和标准查询子树... 本文主要研究通过引入滑动窗口模型,提出了面向XML查询数据流的频繁查询子树在线挖掘算法。算法以全局Trie树为数据缓存结构管理和维护缓存池的数据流,采用自下而上、基于前缀等价类的遍历方式快速产生所有带根查询子树和标准查询子树。实验结果表明该算法具有挖掘速度快、内存消耗稳定等特点,可以有效、平稳地处理XML查询数据流。 展开更多
关键词 XML 频繁子树 查询子树挖掘
原文传递
基于频繁项集挖掘与查询扩展的信息检索系统模型
7
作者 黄名选 冯平 谢统义 《计算机与现代化》 2012年第4期53-55,85,共4页
将频繁项集挖掘和查询扩展技术应用于信息检索,提出一种新的基于频繁模式挖掘与查询扩展的信息检索系统模型及其算法,并给出该检索系统模型的设计思想,以及模型总体结构及其各模块功能,实现了系统原型。实验结果表明,该检索系统模型能... 将频繁项集挖掘和查询扩展技术应用于信息检索,提出一种新的基于频繁模式挖掘与查询扩展的信息检索系统模型及其算法,并给出该检索系统模型的设计思想,以及模型总体结构及其各模块功能,实现了系统原型。实验结果表明,该检索系统模型能有效地提高和改善信息检索性能。 展开更多
关键词 信息检索 频繁项集 查询扩展 模型
下载PDF
基于频繁项集与负规则的局部反馈查询扩展
8
作者 黄名选 钟智 张师超 《计算机工程与设计》 CSCD 北大核心 2012年第5期1863-1866,1880,共5页
针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法。该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取... 针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法。该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取负关联规则后件作为负关联词,计算负关联词与整个原查询词的相关性;根据相关性删除关联词库中与负关联词相同的词项,将余下的关联词项作为最终扩展词,并与原查询组合成新查询,实现查询扩展。实验结果表明,该算法能发现虚假的负关联词,有效地提高和改善信息检索性能。 展开更多
关键词 频繁项集 负关联规则 局部反馈 查询扩展 信息检索
下载PDF
基于SQL的频繁项目集的研究 被引量:4
9
作者 王涛伟 胡锡伟 柴本成 《计算机工程与设计》 CSCD 北大核心 2006年第23期4494-4497,共4页
Apriori算法是关联规则中挖掘频繁项目集的典型算法。在Apriori算法的基础上,利用关系数据库管理系统的强大功能和SQL语言操作简单,效率高的特点,提出了基于SQL的Apriori算法。该算法实现简单快速,可有效缩小扫描数据库的大小。将该算... Apriori算法是关联规则中挖掘频繁项目集的典型算法。在Apriori算法的基础上,利用关系数据库管理系统的强大功能和SQL语言操作简单,效率高的特点,提出了基于SQL的Apriori算法。该算法实现简单快速,可有效缩小扫描数据库的大小。将该算法应用于经过数据预处理的Web日志文件数据库,实验结果显示该算法是有效的。 展开更多
关键词 数据挖掘 关联规则 频繁项目集 SQL 数据预处理 Web日志文件
下载PDF
基于时域特征的电力感知数据频繁项查询
10
作者 汪江 温炜 《自动化仪表》 CAS 2023年第12期80-84,共5页
电力感知数据是一种时间序列数据。电力系统在运行中产生大量的数据,导致在查询数据频繁项时的系统负载大、查询效率低。为了提高电网电能传输质量,对基于时域特征的电力感知数据频繁项查询方法进行了研究。构建电力系统拓扑结构,预测... 电力感知数据是一种时间序列数据。电力系统在运行中产生大量的数据,导致在查询数据频繁项时的系统负载大、查询效率低。为了提高电网电能传输质量,对基于时域特征的电力感知数据频繁项查询方法进行了研究。构建电力系统拓扑结构,预测其运行状态。根据电网的纵向连续性和横向连续性,定向采集传输活跃的电力感知数据。以三轴加速度相同的两个滑动窗口为目标区域,提取电力感知数据的时域特征。将提取的时域特征输入到贝叶斯分类算法中,使用贝叶斯分类器进行分类。考虑由谐波震颤效应导致的逻辑疏密性下降问题,通过锁定频次占比较大的类别区间,实现电力感知数据频繁项查询。试验结果表明,所提方法的查全率高于97%、查询的电力感知数据在180个以上、时间开销为5 ms、内存开销为10 MB。该方法可有效提升电力感知数据频繁项的查询性能和查询效率,提高电网电能传输质量。 展开更多
关键词 电力感知数据 能量管理系统 时域特征 贝叶斯分类算法 频繁项查询 谐波震颤效应
下载PDF
基于XML的完全频繁查询模式挖掘算法 被引量:2
11
作者 陈超祥 叶时平 +1 位作者 华成 金林樵 《计算机应用》 CSCD 北大核心 2008年第6期1450-1453,共4页
使用树结构建模对XML查询进行研究,提出了一种基于树同构的查询包含检测方法。采用最右分枝扩展方法,系统地枚举查询模式树的同根子树。在枚举过程中,采用Diffset结构记录包含同根子树的事务集的查询事务标识,并给出挖掘算法DiffFRSTMi... 使用树结构建模对XML查询进行研究,提出了一种基于树同构的查询包含检测方法。采用最右分枝扩展方法,系统地枚举查询模式树的同根子树。在枚举过程中,采用Diffset结构记录包含同根子树的事务集的查询事务标识,并给出挖掘算法DiffFRSTMiner。实验结果证实了该算法合理、高效,并可以减少一定的内存开销。 展开更多
关键词 XML 数据挖掘 频繁查询模式
下载PDF
面向语义的精简化多关系频繁模式发现方法 被引量:1
12
作者 杨炳儒 张伟 钱榕 《中国工程科学》 2008年第9期47-53,共7页
多关系频繁模式发现能够直接从复杂结构化数据中发现涉及多个关系的复杂频繁模式,避免了传统方法的局限。有别于主流基于归纳逻辑程序设计技术的方法,提出了基于合取查询包含关系的面向语义的精简化多关系频繁模式发现方法,具有理论与... 多关系频繁模式发现能够直接从复杂结构化数据中发现涉及多个关系的复杂频繁模式,避免了传统方法的局限。有别于主流基于归纳逻辑程序设计技术的方法,提出了基于合取查询包含关系的面向语义的精简化多关系频繁模式发现方法,具有理论与技术基础的新颖性,解决了两种语义冗余问题。实验表明,该方法在可理解性、功能、效率以及可扩展性方面具有优势。 展开更多
关键词 多关系数据挖掘 频繁模式发现 合取查询 精简化模式
下载PDF
多关系关联规则挖掘中的隐私保护 被引量:2
13
作者 李专 王元珍 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第11期41-43,共3页
分析了经典关联规则挖掘及相关的隐私保护等问题,同时研究了多关系关联规则的刻画和挖掘问题.通过重新定义查询模式,改进了Warmr方法,使查询模式支持"频繁查询模式的子模式也必然是频繁的"这种Apriori特性,进而将其移植到多... 分析了经典关联规则挖掘及相关的隐私保护等问题,同时研究了多关系关联规则的刻画和挖掘问题.通过重新定义查询模式,改进了Warmr方法,使查询模式支持"频繁查询模式的子模式也必然是频繁的"这种Apriori特性,进而将其移植到多关系规则的挖掘过程,从而加快规则的挖掘.研究了有针对性的敏感规则的挖掘方法,通过挖掘包含敏感信息的所有频繁查询模式,从中导出所有能够导致信息泄露的敏感规则;为了平衡数据可用性和安全性之间的矛盾,通过隐藏所有敏感规则中公共关系的元组,在保证规则隐藏和数据安全的同时,降低了对数据可用性的影响. 展开更多
关键词 数据挖掘 多关系关联规则 频繁查询模式 隐私保护
下载PDF
Fast Discovering Frequent Patterns for Incremental XML Queries
14
作者 PENGDun-lu QIUYang 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期638-646,共9页
It is nontrivial to maintain such discovered frequent query patterns in real XML-DBMS because the transaction database of queries may allow frequent updates and such updates may not only invalidate some existing frequ... It is nontrivial to maintain such discovered frequent query patterns in real XML-DBMS because the transaction database of queries may allow frequent updates and such updates may not only invalidate some existing frequent query patterns but also generate some new frequent query patterns. In this paper, two incremental updating algorithms, FUX-QMiner and FUXQMiner, are proposed for efficient maintenance of discovered frequent query patterns and generation the new frequent query patterns when new XMI, queries are added into the database. Experimental results from our implementation show that the proposed algorithms have good performance. Key words XML - frequent query pattern - incremental algorithm - data mining CLC number TP 311 Foudation item: Supported by the Youthful Foundation for Scientific Research of University of Shanghai for Science and TechnologyBiography: PENG Dun-lu (1974-), male, Associate professor, Ph.D, research direction: data mining, Web service and its application, peerto-peer computing. 展开更多
关键词 XML frequent query pattern incremental algorithm data mining
下载PDF
面向查询扩展的特征词频繁项集挖掘算法 被引量:1
15
作者 黄名选 马瑞兴 兰慧红 《现代图书情报技术》 CSSCI 北大核心 2011年第4期48-51,共4页
为了获取高质量的扩展词,提出一种面向查询扩展的基于文本数据库的特征词频繁项集挖掘算法。该算法采用支持度衡量特征词频繁项集,给出新的剪枝策略,并结合原始查询,挖掘同时含有查询词项和非查询词项的特征词频繁项集,以提高挖掘效率... 为了获取高质量的扩展词,提出一种面向查询扩展的基于文本数据库的特征词频繁项集挖掘算法。该算法采用支持度衡量特征词频繁项集,给出新的剪枝策略,并结合原始查询,挖掘同时含有查询词项和非查询词项的特征词频繁项集,以提高挖掘效率。实验表明,与传统的挖掘算法相比,本算法更有效、更合理。 展开更多
关键词 频繁项集 挖掘 支持度 查询扩展
原文传递
时态约束下的频繁模式挖掘算法
16
作者 杜奕 卢德唐 +1 位作者 李道伦 卫五洲 《模式识别与人工智能》 EI CSCD 北大核心 2007年第4期538-544,共7页
时态数据是一类重要的数据信息.利用数据中包含的时间属性可以形象描述数据中潜在的变化规律,预测将来可能的发展趋势.本文提出一种时态频繁模式挖掘算法(TemFP).根据现有的时态查询函数,该算法给出一种用于存储频繁模式时态属性的双树... 时态数据是一类重要的数据信息.利用数据中包含的时间属性可以形象描述数据中潜在的变化规律,预测将来可能的发展趋势.本文提出一种时态频繁模式挖掘算法(TemFP).根据现有的时态查询函数,该算法给出一种用于存储频繁模式时态属性的双树结构(DB^+-tree).利用包含 DB^+-tree 的时态频繁模式树,使用户定义的时态规则快速查询成为可能.实验结果表明该算法是有效和可扩展的. 展开更多
关键词 时态频繁模式挖掘算法(TemFP) 时态频繁模式 时态区间查询 双树结构(DB^+-tree)
原文传递
基于频繁叶模式的XML最大频繁查询模式挖掘算法
17
作者 陈超祥 丁健龙 +1 位作者 华成 金林樵 《计算机应用与软件》 CSCD 2009年第6期85-87,197,共4页
在XML频繁查询模式挖掘稠密数据集、长数据集中,为克服项目集挖掘过程中挖掘的项目过多、不利于结果利用等问题,提出基于频繁叶模式的最大频繁查询模式挖掘算法MFRSTMiner。该算法通过构造频繁模式扩展森林,在扩展森林的叶节点中挖掘出... 在XML频繁查询模式挖掘稠密数据集、长数据集中,为克服项目集挖掘过程中挖掘的项目过多、不利于结果利用等问题,提出基于频繁叶模式的最大频繁查询模式挖掘算法MFRSTMiner。该算法通过构造频繁模式扩展森林,在扩展森林的叶节点中挖掘出最大频繁子树。试验结果表明该算法能够有效地挖掘动态事务集的最大频繁查询模式。 展开更多
关键词 XML 数据挖掘 最大频繁查询模式 MFRSTMiner
下载PDF
基于频繁结构的Deep Web查询接口集成
18
作者 赵晓蓉 周锦程 王丹 《科学技术与工程》 北大核心 2014年第18期81-88,93,共9页
随着网络规模的日益扩大,海量的信息被"深藏"于各类在线数据库中,用户只能通过查询接口才能获取其中的数据,这部分内容称之为Deep Web;因此对同一领域的Deep Web数据进行集成是非常必要的。查询接口的集成是其中一个非常关键... 随着网络规模的日益扩大,海量的信息被"深藏"于各类在线数据库中,用户只能通过查询接口才能获取其中的数据,这部分内容称之为Deep Web;因此对同一领域的Deep Web数据进行集成是非常必要的。查询接口的集成是其中一个非常关键的子问题。查询接口的集成分为模式匹配和模式集成两个步骤;重点研究集成查询接口中属性布局的确定。Deep Web中查询接口数量巨大,以及动态性与异构性的特点给该问题带来了巨大的挑战。将查询接口的结构建模成一棵树,然后通过挖掘频繁的模式子树来构建集成的查询接口树,使其最大化地满足属性间的结构约束和顺序约束。该算法具有较低的时间复杂度,并具有很好的扩展性,对八个领域的查询接口进行集成的实验结果证明了算法的有效性。 展开更多
关键词 频繁结构 查询接口 属性布局 模式子树 查询接口树
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部