期刊文献+
共找到343篇文章
< 1 2 18 >
每页显示 20 50 100
带间隔约束的Top-k对比序列模式挖掘 被引量:22
1
作者 杨皓 段磊 +3 位作者 胡斌 邓松 王文韬 秦攀 《软件学报》 EI CSCD 北大核心 2015年第11期2994-3009,共16页
对比序列模式能够表达序列数据集合间的差异,在商品推荐、用户行为分析和电力供应预测等领域有广泛的应用.已有的对比序列模式挖掘算法需要用户设定正例支持度阈值和负例支持度阈值.在不具备足够先验知识的情况下,用户难以设定恰当的支... 对比序列模式能够表达序列数据集合间的差异,在商品推荐、用户行为分析和电力供应预测等领域有广泛的应用.已有的对比序列模式挖掘算法需要用户设定正例支持度阈值和负例支持度阈值.在不具备足够先验知识的情况下,用户难以设定恰当的支持度阈值,从而可能错失一些对比显著的模式.为此,提出了带间隔约束的top-k对比序列模式挖掘算法k DSP-Miner(top-k distinguishing sequential patterns with gap constraint miner).k DSP-Miner中用户只需设置期望发现的对比最显著的模式个数,从而避免了直接设置对比支持度阈值.相应地,挖掘算法更容易使用,并且结果更易于解释.同时,为了提高算法执行效率,设计了若干剪枝策略和启发策略.进一步设计了k DSP-Miner的多线程版本,以提高其对高维序列元素情况的处理能力.通过在真实世界数据集上的详实实验,验证了算法的有效性和执行效率. 展开更多
关键词 序列模式 top-k 对比挖掘
下载PDF
TKEP:海量数据上一种有效的Top-K查询处理算法 被引量:16
2
作者 韩希先 杨东华 李建中 《计算机学报》 EI CSCD 北大核心 2010年第8期1405-1417,共13页
在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分... 在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比. 展开更多
关键词 海量数据 top-k 早剪切 TkEP
下载PDF
不确定数据查询技术研究 被引量:17
3
作者 王意洁 李小勇 +1 位作者 祁亚斐 孙伟东 《计算机研究与发展》 EI CSCD 北大核心 2012年第7期1460-1466,共7页
当前不确定数据广泛存在于诸如传感器网络、RFID网络、基于位置服务以及移动对象管理等各种现实的不确定性应用中.不确定数据查询作为不确定数据管理的重要组成部分,在信息检索、数据挖掘、决策制定和环境监控等众多应用中发挥重要作用... 当前不确定数据广泛存在于诸如传感器网络、RFID网络、基于位置服务以及移动对象管理等各种现实的不确定性应用中.不确定数据查询作为不确定数据管理的重要组成部分,在信息检索、数据挖掘、决策制定和环境监控等众多应用中发挥重要作用,目前已成为数据库和网络计算等领域的一个研究热点.从目前不确定数据查询研究的各种查询类型介绍和查询特点分析出发,主要综述了4种典型的不确定数据查询类型,即不确定Skyline查询、不确定Top-k查询、不确定最近邻(NN)查询以及不确定聚集查询;重点论述了各种不确定数据查询的定义,各类查询的特点,并分类介绍了当前各类不确定数据查询研究的现状和各种查询方法的优缺点;最后,基于当前不确定数据查询技术的最新研究动态指出了未来研究工作的趋势. 展开更多
关键词 不确定数据 查询 SkYLINE top-k 最近邻 聚集 数据流 概率
下载PDF
基于MapReduce框架的海量数据相似性连接研究进展 被引量:16
4
作者 庞俊 于戈 +1 位作者 许嘉 谷峪 《计算机科学》 CSCD 北大核心 2015年第1期1-5,27,共6页
海量数据相似性连接作为海量数据处理的基本操作,在文本聚类、剽窃检测、实体解析等研究领域具有重要作用。另一方面,MapReduce编程模型因为具有良好的可扩放性、容错性和易用性,被广泛地应用于海量数据处理。因此,基于MapReduce框架的... 海量数据相似性连接作为海量数据处理的基本操作,在文本聚类、剽窃检测、实体解析等研究领域具有重要作用。另一方面,MapReduce编程模型因为具有良好的可扩放性、容错性和易用性,被广泛地应用于海量数据处理。因此,基于MapReduce框架的海量数据相似性连接查询技术成为海量数据处理领域的热点问题之一。首先,概括了海量数据固有特点和MapReduce编程框架的缺陷给现有相似性连接查询技术带来的巨大挑战;其次,提出了海量数据相似性连接的定义,按3种不同的分类标准对其进行了分类;接着,重点分析了集合、字符串和向量数据类型的海量相似性连接查询最新技术,并从效率和适用范围等方面分别对这些技术进行了比较;最后,讨论了海量数据相似性连接查询技术亟待解决的关键问题,并提出了一些有前景的解决方案。 展开更多
关键词 海量数据 相似性连接 MAPREDUCE top-k
下载PDF
KREAG:基于实体三元组关联图的RDF数据关键词查询方法 被引量:14
5
作者 李慧颖 瞿裕忠 《计算机学报》 EI CSCD 北大核心 2011年第5期825-835,共11页
语义网数据的大量增加使得RDF数据查询成为一个重要研究主题.关键词查询方式不需要掌握数据模式或查询语言,更适合普通用户使用.文中提出一种RDF数据关键词查询方法KREAG(Keyword query over RDF data based on Entity-triple Associati... 语义网数据的大量增加使得RDF数据查询成为一个重要研究主题.关键词查询方式不需要掌握数据模式或查询语言,更适合普通用户使用.文中提出一种RDF数据关键词查询方法KREAG(Keyword query over RDF data based on Entity-triple Association Graph).为了支持用户对属性或关系名进行查询,将RDF数据建模为顶点带标签的实体三元组关联图.该模型保证了RDF数据中实体间关联转化为关联图中顶点间的通路,且文本信息全部封装到关联图顶点标签上.在此基础上,将关键词查询问题转化为关联图上查找有向斯坦纳树问题.在保证近似比为m的前提下(m为查询关键词的个数),利用近似算法实现快速查询响应.通过合理的评分方式衡量查询结果的相关性,支持top-k查询.算法的时间复杂度为O(m.|V|),其中|V|为实体三元组关联图中顶点个数.实验表明KREAG较其它方法具有更快的响应时间,同时能够有效地实现RDF数据的关键词查询. 展开更多
关键词 关键词查询 RDF数据 top-k 实体 关联
下载PDF
基于Spark的并行频繁模式挖掘算法 被引量:13
6
作者 曹博 倪建成 +2 位作者 李淋淋 于苹苹 姚彬修 《计算机工程与应用》 CSCD 北大核心 2016年第20期86-91,共6页
在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最... 在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。 展开更多
关键词 大数据 频繁模式挖掘 top-k 模式树 并行计算
下载PDF
不产生候选项集的TOP-K高效用模式挖掘算法 被引量:9
7
作者 王乐 冯林 王水 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期445-455,共11页
目前TOP-K高效用模式挖掘算法需要产生候选项集,特别是当数据集比较大或者数据集中包含较多长事务项集时,算法的时间和空间效率会受到更大的影响.针对此问题,通过将事务项集和项集效用信息有效地保存到树结构HUP-Tree,给出一个不需要候... 目前TOP-K高效用模式挖掘算法需要产生候选项集,特别是当数据集比较大或者数据集中包含较多长事务项集时,算法的时间和空间效率会受到更大的影响.针对此问题,通过将事务项集和项集效用信息有效地保存到树结构HUP-Tree,给出一个不需要候选项集的挖掘算法TOPKHUP;HUPTree树能保证从中计算到每个模式的效用值,不需要再扫描数据集来计算模式的效用值,从而使挖掘算法的时空效率得到较大的提高.采用7个典型数据集对算法的性能进行测试,实验结果证明TOPKHUP的时间和空间效率都优于已有算法,并对K值的变化保持平稳. 展开更多
关键词 高效用模式 频繁模式 频繁项集 数据挖掘 topk
下载PDF
XML数据流上Top-K关键字查询处理 被引量:8
8
作者 黎玲利 王宏志 +1 位作者 高宏 李建中 《软件学报》 EI CSCD 北大核心 2012年第6期1561-1577,共17页
利用关键字可以在模式未知的情况下对XML数据进行查询.在当前的XML数据流上的关键字查询处理中,打分函数往往不能都满足各种用户不同的需求.提出了一种基于skyline的XML数据流上的Top-K关键字查询.对于这种查询,不需要考虑影响结果与查... 利用关键字可以在模式未知的情况下对XML数据进行查询.在当前的XML数据流上的关键字查询处理中,打分函数往往不能都满足各种用户不同的需求.提出了一种基于skyline的XML数据流上的Top-K关键字查询.对于这种查询,不需要考虑影响结果与查询相关性的复杂因素,只需利用skyline挑选与查询最相关的结果.提出了两种XML数据流上的有效的基于skyline的Top-K关键查询处理算法,包括对单查询和多查询的处理算法.通过扩展实验对两种算法的有效性和可扩展性进行了验证.经过实验验证,所提出的查询处理算法的效率几乎不受关键字个数、查询结果数量、查询数量等参数的影响,运行时间和文档大小大致呈线性关系. 展开更多
关键词 XML 数据流 关键字查询 top-k SkYLINE
下载PDF
基于Spark的Top-k对比序列模式挖掘 被引量:7
9
作者 张鹏 段磊 +4 位作者 秦攀 左劼 唐常杰 元昌安 彭舰 《计算机研究与发展》 EI CSCD 北大核心 2017年第7期1452-1464,共13页
对比序列模式(distinguishing sequential pattern,DSP)指在目标类序列集合中频繁出现,而在非目标类序列集合中不频繁出现的序列.对比序列模式能够描述2个序列集合间的差异,有着广泛的应用,例如:构建序列分类器,识别DNA序列的生物特征,... 对比序列模式(distinguishing sequential pattern,DSP)指在目标类序列集合中频繁出现,而在非目标类序列集合中不频繁出现的序列.对比序列模式能够描述2个序列集合间的差异,有着广泛的应用,例如:构建序列分类器,识别DNA序列的生物特征,特定人群行为分析.与挖掘满足支持度阈值要求的对比序列模式相比,挖掘对比度top-k对比序列模式能避免用户设置不恰当的支持度阈值.因而,更易于用户使用.但是现有的top-k对比序列模式挖掘算法难以处理大规模序列数据.对此,设计了一种基于Spark的top-k对比序列模式并行挖掘算法,称为SP-kDSP-Miner.此外,为了提高SP-kDSPMiner的效率,针对Spark结构的特点,设计了候选模式生成策略和若干剪枝策略,以及候选模式对比度的并行计算方法.通过在真实数据集与合成数据集上的实验,验证了SP-kDSP-Miner的有效性、执行效率和可扩展性. 展开更多
关键词 并行计算 序列模式 topk 对比挖掘 SPARk
下载PDF
基于TIDW的木材内部缺陷三维应力波成像方法 被引量:7
10
作者 陈方翔 冯海林 +2 位作者 杜晓晨 方益明 翁翔 《传感技术学报》 CAS CSCD 北大核心 2015年第11期1625-1633,共9页
为了更直观准确地检测木材内部缺陷大小、形状、腐朽程度等信息,提出了一种基于TIDW(Top-k Inverse Distance Weighted)的三维木材内部缺陷应力波成像方法。该方法在木材周围随机部署传感器,采集应力波速度数据集,并对木材内部缺陷进行... 为了更直观准确地检测木材内部缺陷大小、形状、腐朽程度等信息,提出了一种基于TIDW(Top-k Inverse Distance Weighted)的三维木材内部缺陷应力波成像方法。该方法在木材周围随机部署传感器,采集应力波速度数据集,并对木材内部缺陷进行三维应力波成像。TIDW算法将预估点的邻域关系扩展到三维空间,增加预估点的搜索半径,引入Top-k查询找出其邻域内影响最大的k个已知点,计算得到预估点的值并进行三维成像。与IDW算法相比,该算法具有更高的成像精度,能够更准确反映木材内部缺陷特征。 展开更多
关键词 应力波三维成像 缺陷检测 TIDW算法 top-k
下载PDF
面向大规模数据集的并行化Top-k Skyline查询算法 被引量:7
11
作者 杨林青 李湛 +4 位作者 牟雁超 樊里略 李红燕 王腾蛟 雷凯 《计算机科学与探索》 CSCD 北大核心 2015年第8期897-905,共9页
随着数据规模的日益庞大,在大规模数据集中帮助用户定位出数据量可控的代表性信息显得越发重要。虽然Top-k Skyline查询能够找到数据集中前k个最具代表性的信息,在获取代表性信息的同时又控制了结果规模,满足了上述要求,但是现有的Top-k... 随着数据规模的日益庞大,在大规模数据集中帮助用户定位出数据量可控的代表性信息显得越发重要。虽然Top-k Skyline查询能够找到数据集中前k个最具代表性的信息,在获取代表性信息的同时又控制了结果规模,满足了上述要求,但是现有的Top-k Skyline查询在面对大规模数据集时效率较低,并不适用于大规模数据集。为了解决这个问题,将Top-k Skyline查询与并行化处理相结合,提出了一种面向大规模数据集的并行化Top-k Skyline查询算法PTKS(parallel Top-k Skyline),通过充分利用分布式资源,将原有查询进行有效的并行化处理,同时设计了基于用户偏好的用于缩减结果数据量的筛选规则,满足用户需求。在真实数据集上进行了相关实验,并与现有方法进行了对比,结果表明PTKS在大规模数据集上的查询效率更具有优势,能很好地适用于大规模数据集。 展开更多
关键词 大规模数据集 topk SkYLINE 代表性信息 并行化处理 筛选规则
下载PDF
基于关键词的语义网数据查询研究综述 被引量:7
12
作者 李慧颖 瞿裕忠 《计算机科学》 CSCD 北大核心 2011年第7期18-23,50,共7页
语义网数据的关键词查询是语义网研究的一个重要问题。首先给出语义网数据关键词查询的相关定义。根据研究目标不同,将已有解决方案分为混合型和非混合型的语义网数据关键词查询,后者又分为K-A和K-Q-A两种查询方法。调研了上述分类中当... 语义网数据的关键词查询是语义网研究的一个重要问题。首先给出语义网数据关键词查询的相关定义。根据研究目标不同,将已有解决方案分为混合型和非混合型的语义网数据关键词查询,后者又分为K-A和K-Q-A两种查询方法。调研了上述分类中当前常用的解决方案和研究进展。在此基础上,进一步介绍并比较了8个具有代表性的语义网数据关键词查询工作。最后讨论存在的挑战,并指出未来可能的研究方向。 展开更多
关键词 关键词查询 RDF数据 top-k 语义网
下载PDF
基于MapReduce的top-k高效用模式挖掘算法 被引量:7
13
作者 吴倩 王林平 +2 位作者 罗相洲 崔建群 王海 《计算机应用研究》 CSCD 北大核心 2017年第10期2897-2900,2932,共5页
高效用模式挖掘被广泛地应用于数据挖掘领域。为了挖掘指定数量的高效用模式,一些基于树结构和效用表结构的top-k高效用挖掘算法被提出,但前者在挖掘过程中产生了大量候选模式,后者在效用模式增长时需要进行多次比较;同时,由于在信息社... 高效用模式挖掘被广泛地应用于数据挖掘领域。为了挖掘指定数量的高效用模式,一些基于树结构和效用表结构的top-k高效用挖掘算法被提出,但前者在挖掘过程中产生了大量候选模式,后者在效用模式增长时需要进行多次比较;同时,由于在信息社会,数据量呈爆炸性增长,所以在数据集过大的情况下,挖掘高效用模式需以大量存储空间以及计算开销为代价。为了解决这两个问题,基于MapReduce的top-k高效用模式挖掘算法(TKHUP_MaR)被提出。该算法通过两次扫描数据库,利用三次MapReduce来实现并行top-k高效用模式的挖掘。通过实验表明TKHUP_MaR算法在并行挖掘top-k高效用模式的过程中是有效的。 展开更多
关键词 数据挖掘 top-k 高效用模式 MAPREDUCE 并行算法
下载PDF
一种基于过滤器的无线传感器网络复杂查询优化算法 被引量:3
14
作者 赵志滨 李斌阳 +1 位作者 姚兰 于戈 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第7期965-968,共4页
无线传感器网络节点无法获得持久的能量供应,因此高效地利用有限的能量,尽可能多地延长节点工作时间,是无线传感器网络中的重要研究点.介绍了一种基于过滤器的无线传感器网络复杂查询优化算法FbUA.其基本思想是为每一个无线传感器网络... 无线传感器网络节点无法获得持久的能量供应,因此高效地利用有限的能量,尽可能多地延长节点工作时间,是无线传感器网络中的重要研究点.介绍了一种基于过滤器的无线传感器网络复杂查询优化算法FbUA.其基本思想是为每一个无线传感器网络节点设置一个过滤器.过滤器本质上是一个由样本值确定的取值区间.当节点采集到新数据时,根据本地的过滤规则决定是否向上提交.这样可以屏蔽某些无用通信,节省节点能量,延长其工作时间.FbUA可以完成Top-k,k-NN等复杂查询.模拟实验结果表明,在多数情况下,FbUA可以节约通信量50%~70%. 展开更多
关键词 无线传感器网络 样本 过滤器 top-k k-NN
下载PDF
一次性条件下top-k高平均效用序列模式挖掘算法
15
作者 杨克帅 武优西 +2 位作者 耿萌 刘靖宇 李艳 《计算机应用》 CSCD 北大核心 2024年第2期477-484,共8页
针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首... 针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首先,提出基于各项出现位置与项重复关系数组的CSP(Calculation Support of Pattern)算法计算模式支持度,从而实现模式平均效用的快速计算;其次,采用项集扩展和序列扩展生成候选模式,并提出了最大平均效用上界,基于该上界实现对候选模式的有效剪枝。在5个真实数据集和1个合成数据集上的实验结果表明,相较于TOUP-dfs和HAOP-ms算法,TOUP算法的候选模式数分别降低了38.5%~99.8%和0.9%~77.6%;运行时间分别降低了33.6%~97.1%和57.9%~97.2%。TOUP的算法性能更优,能更高效地挖掘用户感兴趣的模式。 展开更多
关键词 数据挖掘 序列模式挖掘 高平均效用 一次性条件 top-k
下载PDF
基于扩展图规划的Top-K服务组合方法研究 被引量:6
16
作者 徐猛 崔立真 李庆忠 《电子学报》 EI CAS CSCD 北大核心 2012年第7期1404-1409,共6页
自动服务组合是目前云计算中的关键技术与研究热点.为大规模用户提供多个满足个性化需求的组合服务是当前云环境下自动服务组合中急需解决的问题.提出了基于扩展图规划的Top-K服务组合方法,借助服务索引和增加图规划中的辅助节点,使得... 自动服务组合是目前云计算中的关键技术与研究热点.为大规模用户提供多个满足个性化需求的组合服务是当前云环境下自动服务组合中急需解决的问题.提出了基于扩展图规划的Top-K服务组合方法,借助服务索引和增加图规划中的辅助节点,使得经过一次规划搜索即可找到Top-K个满足用户QoS要求的组合服务.实验表明,该方法能够有效提高服务组合的效率,并保证服务组合结果的正确性,更加适用于云计算环境下海量网络服务及大规模用户个性化需求的自动服务组合问题. 展开更多
关键词 服务组合 top-k 扩展图规划 辅助节点
下载PDF
基于滑动窗口的Top-K概率频繁项查询算法研究 被引量:6
17
作者 王爽 王国仁 《计算机研究与发展》 EI CSCD 北大核心 2012年第10期2189-2197,共9页
频繁项查询在网络监控、网络入侵检测、关联规则挖掘等方面是一项非常重要的技术.该技术在静态的不确定数据中已经得到了深入的研究.但随着数据流特征和不确定性表现的日益明显,在不确定数据流环境下的查询已经成为一项新的研究课题.因... 频繁项查询在网络监控、网络入侵检测、关联规则挖掘等方面是一项非常重要的技术.该技术在静态的不确定数据中已经得到了深入的研究.但随着数据流特征和不确定性表现的日益明显,在不确定数据流环境下的查询已经成为一项新的研究课题.因此基于数据流普遍采用的滑动窗口模型,提出了一种高效的概率Top-K频繁项查询算法sTopK-UFI.该算法避免了每次窗口更新都重新计算查询答案,而是利用现有的计算结果进行增量更新,从而减少查询代价.另外,该算法基于窗口中的现有数据对未来可能成为频繁项的元素进行预测,并利用泊松分布计算元素成为频繁项的概率上下界,提出相应的过滤策略,可以显著减少检测数据的数量,提高查询效率.实验结果表明,所提出算法可以有效地减少候选集、降低搜索空间、改善在不确定数据流上的查询性能. 展开更多
关键词 topk 频繁项 不确定数据 数据流 滑动窗口
下载PDF
一种应用于Deep Web数据集成系统中的查询松弛策略 被引量:5
18
作者 申德荣 马也 +2 位作者 聂铁铮 寇月 于戈 《计算机研究与发展》 EI CSCD 北大核心 2010年第1期88-95,共8页
针对Deep Web环境中存在的失败查询,提出了一种有效的查询松弛策略.所有Deep Web资源按查询接口属性分组,组成全局数据源关系图(DRG);针对特定查询将DRG转换为对应该查询请求的数据源关系图;利用该DRG,按照特定的规则进行查询松弛和执... 针对Deep Web环境中存在的失败查询,提出了一种有效的查询松弛策略.所有Deep Web资源按查询接口属性分组,组成全局数据源关系图(DRG);针对特定查询将DRG转换为对应该查询请求的数据源关系图;利用该DRG,按照特定的规则进行查询松弛和执行处理.针对查询松弛导致的部分结果可能与用户查询请求的相似度较低的问题,提出先通过Skyline方法对结果进行筛选,然后再根据各个结果实例与用户查询的相似度进行Top-k排序,最后将最接近用户要求的结果集返回给用户.通过实验验证了提出的查询松弛策略的有效性. 展开更多
关键词 DEEP WEB 查询松弛 数据源关系图 top-k SkYLINE
下载PDF
基于Spark的并行化高效用项集挖掘算法 被引量:6
19
作者 何登平 何宗浩 李培强 《计算机工程与科学》 CSCD 北大核心 2019年第10期1723-1730,共8页
针对传统基于链表结构的Top-K高效用挖掘算法在大数据环境下不能满足挖掘需求的问题,提出一种基于Spark的并行化高效用项集挖掘算法(STKO)。首先从阈值提升、搜索空间缩小等方面对TKO算法进行改进;然后选择Spark平台,改变原有数据存储结... 针对传统基于链表结构的Top-K高效用挖掘算法在大数据环境下不能满足挖掘需求的问题,提出一种基于Spark的并行化高效用项集挖掘算法(STKO)。首先从阈值提升、搜索空间缩小等方面对TKO算法进行改进;然后选择Spark平台,改变原有数据存储结构,利用广播变量优化迭代过程,在避免大量重新计算的同时使用负载均衡思想实现Top-K高效用项集的并行挖掘。实验结果表明,该并行算法能有效地挖掘出大数据集中的高效用项集。 展开更多
关键词 数据挖掘 高效用项集 Spark大数据框架 并行化 top-k
下载PDF
基于属性权重的实体解析技术 被引量:5
20
作者 甄灵敏 杨晓春 +1 位作者 王斌 Ahmed A Hussein 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期281-289,共9页
实体解析是将在同一个数据源或者不同数据源中,指向现实世界同一实体的元组识别出来并合并的过程.如何高效而准确地将指向同一实体的记录识别出来一直是研究人员不懈追求的目标.在基于规则的匹配算法中,大多数算法是将所有的属性都作为... 实体解析是将在同一个数据源或者不同数据源中,指向现实世界同一实体的元组识别出来并合并的过程.如何高效而准确地将指向同一实体的记录识别出来一直是研究人员不懈追求的目标.在基于规则的匹配算法中,大多数算法是将所有的属性都作为匹配属性进行计算,并且各个属性的权重都是一样的,然而这样不能充分体现关键属性的重要性.主要针对关系数据库数据源中实体解析准确性的问题,采用信息增益的方法和概率统计的方法计算数据属性的权重,用来代表该属性在记录中的重要性,达到提高实体解析准确度的目的.并且在此基础上采用top-k算法,选择出最佳分类属性集合,减少匹配属性的个数,从而加快了实体解析的速度. 展开更多
关键词 实体解析 属性权重 信息增益 实体识别 top-k
下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部