TKEP:海量数据上一种有效的Top-K查询处理算法被引量：16

TKEP:An Efficient Top-K Query Processing Algorithm on Massive Data

下载PDF

导出

摘要在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比. In many application fields,top-k is an important operation since it returns k most important objects according to a given ranking function.Different from traditional TA algorithms,NRA only requires sequential access to return top-k results so that it can be used in environment where random access is limited or impossible.This paper analyzes the execution behavior of NRA and determines tuple number to scan in increasing and shrinking phase.It is found that in massive data context,NRA needs to maintain large quantity of candidate tuples in increasing phase which affects algorithm efficiency significantly.This paper proposes a novel top-k algorithm TKEP（Top-K with Early Pruning） on massive data which performs early pruning in increasing phase to prune most of candidate tuples.This paper provides mathematical analysis of early pruning and proves its theoretical and practical pruning effect.To the best of our knowledge,it is the first paper to provide early pruning in top-k processing.The extensive experiments show that compared to NRA,TKEP maintains less tuples by a factor of three orders of magnitude,it consumes less memory by a factor of an order of magnitude and TKEP achieves substantial performance speed-up of an order of magnitude.

作者韩希先杨东华李建中

机构地区哈尔滨工业大学计算机科学与技术学院哈尔滨工业大学基础与交叉科学研究院高性能计算中心

出处《计算机学报》 EI CSCD 北大核心 2010年第8期1405-1417,共13页 Chinese Journal of Computers

基金国家"九七三"重点基础研究发展规划项目基金(2006CB303005) 国家自然科学基金(60903016 60533110 60773063) 新世纪优秀人才支持计划(NCET-05-0333) 黑龙江省教育厅科学技术研究项目(11531276) NSFC-RGC of China(60831160525)资助~~

关键词海量数据 TOP-K 早剪切 TKEP massive data top-k early pruning Top-K with Early Pruning

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献22

1Korn Flip,Pagel Bernd-Uwe,Faloutsos Christos.On the ‘Dimensionality Curse' and the ‘Self-Similarity Blessing'.IEEE Transactions on Knowledge and Data Engineering,2001,13(1):96-111. 被引量：1
2Fagin Ronald,Lotem Amnon,Naor Moni.Optimal aggregation algorithms for middleware//Proceedings of the 20th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems(PODS'01).California,USA,2001:102-113. 被引量：1
3Fagin Ronald,Lotem Amnon,Naor Moni.Optimal aggregation algorithms for middleware.Journal of Computer and System Sciences,2003,66(4):614-656. 被引量：1
4Mamoulis Nikos,Cheng Kit Hung,Yiu Man Lung,Cheung David W.Efficient aggregation of ranked inputs//Proceedings of the 22nd International Conference on Data Engineering(ICDE'06).Atlanta,GA,USA,2006:72-83. 被引量：1
5Mamoulis Nikos,Yiu Man Lung,Cheng Kit Hung,Cheung David W.Efficient top-k aggregation of ranked inputs.ACM Transactions on Database Systems(TODS),2007,32(3):19. 被引量：1
6Pang HweeHwa,Ding Xuhua,Zheng Baihua.Efficient processing of exact top-k queries over disk-resident sorted lists.VLDB Journal,2010,19(3):437-456. 被引量：1
7Fagin Ronald,Kumar Ravi,Sivakumar D.Efficient similarity search and classification via rank aggregation//Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data (SIGMOD'03).San Diego,California,USA,2003:301-312. 被引量：1
8Bloom Burton H.Space/time trade-offs in Hash coding with allowable errors.Communications of the ACM,1970,13(7):422-426. 被引量：1
9Ilyas Ihab F,Beskales George,Soliman Mohamed A.A survey of top-k query processing techniques in relational database systems.ACM Computing Surveys,2008,40(4):11. 被引量：1
10Bruno Nicolas,Chaudhuri Surajit,Gravano Luis.Top-k selection queries over relational databases:Mapping strategies and performance evaluation.ACM Transactions on Database Systems(TODS),2002,27(2):153-187. 被引量：1

同被引文献132

1毛杰,佘名高.海量数据库查询优化研究[J].软件导刊,2010,9(5):184-186. 被引量：9
2刘殷雷,刘玉葆,陈程.不确定性数据流上频繁项集挖掘的有效算法[J].计算机研究与发展,2011,48(S3):1-7. 被引量：14
3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
4谢洁锐,胡月明,刘才兴,刘兰.无线传感器网络的时间同步技术[J].计算机工程与设计,2007,28(1):76-77. 被引量：9
5徐海云,涂雄苓.海量数据导入与导出MATLAB的有效方法[J].数理统计与管理,2007,26(4):649-655. 被引量：8
6Soliman M A, Ilyas I F, Chang KevinChen-Chuan. Top- k Query Processing in Uncertain Databases [ C ]//2007 IEEE 23rd International Conference on Data Engineering. [ s. l. ] : [s. n. ] ,2007:15-20. 被引量：1
7孙永佼王国仁.P2P环境中不确定数据Top-k查询处理算法.计算机研究与发展,2009,46:280-286. 被引量：1
8R' e C, Dalvi N, Suciu D. Efficient Top- k Query Evaluation on Probabilistic Data [ C ]//IEEE 23rd International Confer- ence on Data Engineering. [ s. l. ] : [ s. n. ] ,2007 : 15-20. 被引量：1
9Lian Xiang,Chen Lei. Top-k Dominating Queries in Uncertain Database [ C ]//Data Engineering. ICDE 2007. IEEE 23rd In- ternational Conference. [ s. l. ] : [ s. n. ] ,2007. 被引量：1
10Pei J, Jiang B, Lin X, et al. Probalitistic kyline on uncertain data[ C ]//Proceeding of the 33rd international conference on very large databases. Vienna,Austria:[ s. n. ] ,2007. 被引量：1

引证文献16

1孙平平,刘方爱.不确定数据库中减小可能世界的RPW-kBest查询[J].计算机技术与发展,2011,21(10):70-72.
2周红进,王秀森.基于MatLab的海量数据处理方法[J].计算机与数字工程,2012,40(5):89-90. 被引量：6
3丘晓平,黄小兵.非确定性数据处理技术发展现状与挑战[J].现代计算机,2012,18(18):9-14.
4周腾腾,陈林祥,胡奥.RRTA:一种基于顺序读取的有效Top-K查询算法[J].计算机工程与应用,2013,49(17):116-120.
5夏英,黄凯鹏.社交网络服务中基于位置的Top-k查询方法[J].重庆邮电大学学报（自然科学版）,2013,25(5):644-650.
6刘亦韬,胡维华.一种处理Top-k逆向查询的分支界定算法[J].杭州电子科技大学学报（自然科学版）,2014,34(6):76-79. 被引量：1
7李秋生,吴亚东,林茂松,王松,王海洋,冯鑫淼.有效的子空间支配查询算法——Ranking-k[J].计算机应用,2015,35(1):108-114.
8冯大伟,孙瑞志,曹振丽.低内存占用的分布式top-k监测算法[J].计算机工程与设计,2015,36(3):658-663.
9陈钦荣,刘顺来.基于Top-k查询算法改进的储存与NSDL调度算法研究[J].现代计算机（中旬刊）,2015(5):28-32.
10马学森,王晓洁,韩江洪,王营冠.MapReduce框架下的Skyline结果优化算法[J].传感器与微系统,2017,36(2):146-149. 被引量：1

二级引证文献17

1司先平,管燕萍.基于MATLAB的SCATS数据分析[J].微型电脑应用,2013(2):27-28.
2申喜,魏文轩.基于Matlab的柴油发电机组功率交互震荡的仿真[J].舰船电子工程,2013,33(3):60-63. 被引量：3
3张栋冰,Peng Tai-le.一种基于遗传算法的特征选择和权重确定方法[J].怀化学院学报,2015,34(5):59-62. 被引量：5
4邹全,常程威,贾月月.基于MATLAB的就业数据的聚类分析[J].考试周刊,2016,0(53):154-155.
5张立国.基于Matlab/GUI的地铁车辆试验数据分析系统[J].城市轨道交通研究,2016,19(12):53-56. 被引量：1
6赵铁锋,左建勇,韩飞,胡果.基于试验数据的地铁制动的能量分布分析方法[J].工业仪表与自动化装置,2017(4):7-10. 被引量：2
7张皓威,孟令军.VB6.0与MATLAB混合编程的记录仪上位机软件设计[J].电子测量技术,2019,42(6):22-26. 被引量：2
8陈可心,陈业斌.基于4-叉树结构的路网数据最近邻查询算法[J].安徽工业大学学报（自然科学版）,2020,37(3):276-279.
9李立.基于场景局部特征的社交网络位置近邻查询方法研究[J].信息与电脑,2021,33(3):66-67.
10卜意磊,庞文迪,陈汝鹏,陈妙苗.市场监管大数据归集系统建设研究[J].电子技术与软件工程,2021(4):178-180. 被引量：1

1韩希先,李建中,高宏.一种有效的海量数据Top-k Dominating查询算法[J].计算机学报,2013,36(10):2132-2145. 被引量：4
2肥皂技[J].网友世界,2007(1):32-32.
3李海昆.探究基于MapReduce的top-k查询算法[J].信息通信,2015,28(9):12-13.
4计算机软件[J].中国学术期刊文摘,2007,13(14):207-210.
5郭芸,刘纯平,龚声蓉.3D Zernike径向多项式的性质和快速算法[J].江苏大学学报（自然科学版）,2016,37(2):188-193.
6王爽,王国仁.基于不确定数据的分布式Top-k查询算法[J].东北大学学报（自然科学版）,2010,31(2):177-180. 被引量：2
7汤克明,戴彩艳,陈崚.一种基于滑动窗口的不确定数据流Top-K查询算法[J].南京大学学报（自然科学版）,2012,48(3):351-359. 被引量：2
8周腾腾,陈林祥,胡奥.RRTA:一种基于顺序读取的有效Top-K查询算法[J].计算机工程与应用,2013,49(17):116-120.
9触控面板业需适度整合[J].新材料产业,2012(5):89-89.
10董作霖,刘宏飞,李明.面向传感器网络的高能效任务分配算法研究[J].太原理工大学学报,2006,37(5):593-596.

计算机学报

2010年第8期

浏览历史

内容加载中请稍等...

TKEP:海量数据上一种有效的Top-K查询处理算法被引量：16

参考文献22

同被引文献132

引证文献16

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

TKEP:海量数据上一种有效的Top-K查询处理算法 被引量：16

参考文献22

同被引文献132

引证文献16

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

TKEP:海量数据上一种有效的Top-K查询处理算法被引量：16