融合多核和MapReduce的连接聚集查询优化被引量：1

Join-Aggregation Query Optimization by Integrating Multi-Cores and MapReduce

下载PDF

导出

摘要连接聚集查询是大规模数据分析的核心操作算子之一,多核处理器为大规模数据的连接聚集查询操作提供了优化空间但同时也存在很大挑战.主要针对多核处理器集群环境,研究MapReduce框架下大规模数据连接聚集查询的优化算法.首先,基于传统MapReduce框架设计并实现了Map端的单线程连接聚集查询算法,基于实验分析指出MapReduce和多核处理器融合提升性能的必要性;其次,针对处理器的多核架构,设计并实现了Map端的多线程连接聚集查询算法,找出了MapReduce和多核处理器融合的性能瓶颈;进而,提出了Map端对输入分片无竞争读取的多线程连接聚集查询算法,该算法让MapReduce充分利用了多核处理器的性能优势.实验结果表明,提出的算法在大规模数据的连接聚集查询处理上充分发挥了硬件优势,具有较好的时间性能和可扩展性. Join-aggregation query is one of the core operators of large-scale data analysis,multi-core processors possess some advantages on improving query performance,but it is still a big challenge to exploit their abilities,especially in a distributed computing environment.In order to gain the optimization space for join-aggregation queries of large-scale data with multi-core processor cluster,this paper focuses on join-aggregation query optimization algorithms based on MapReduce.Firstly,the map function uses a single thread for join-aggregated queries,whose poor experimental results show that it is necessary to improve the query performance by merging multi-core processors and MapReduce;Secondly,aiming at the multi-core processor architecture,we design and implement a multi-thread join-aggregation query algorithm on the Map side,and then find the performance bottleneck of the cooperation between multi-core processors and MapReduce;Finally,we propose a novel multi-threaded join-aggregation query algorithm,which makes use of advantages of both multicore processors and MapReduce by means of a read mechanism without conflicts on input splits.The experimental results show that the proposed algorithm has good performance and extensibility for joinaggregate queries.

作者尚宏佳周萍杨青李优钱俊彦张敬伟

机构地区桂林电子科技大学广西可信软件重点实验室桂林电子科技大学广西自动检测技术与仪器重点实验室

出处《计算机研究与发展》 EI CSCD 北大核心 2015年第S1期9-18,共10页 Journal of Computer Research and Development

基金国家自然科学基金项目(61462017 61363005) 广西自然科学基金项目(2014GXNSFAA118353 2014GXNSFAA118390 2014GXNSFDA118036) 广西高校科研资助项目(2013YB083) 广西自动检测技术与仪器重点实验室基金项目(YQ15110 YQ14109) 桂林电子科技大学研究生创新资助项目(GDYCSZ201465) 广西高等学校高水平创新团队及卓越学者计划

关键词查询优化分布式处理连接聚集查询多核处理器无竞争读取 query optimization distributed processing join-aggregate query multi-core processor read without competition

分类号 TP332 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1Blanas S,Patel J M,Ercegovac V,et al.A comparison of join algorithms for log processing in MapReduce. Proc of the ACM SIGMOD Int Conf on Management of Data . 2010 被引量：1
2陈勇旭,陈梦杰,刘雪冰,宋杰.基于MapReduce的连接聚集查询算法研究[J].计算机研究与发展,2013,50(S1):306-311. 被引量：7
3赵彦荣,王伟平,孟丹,张书彬,李均.基于Hadoop的高效连接查询处理算法CHMJ[J].软件学报,2012,23(8):2032-2041. 被引量：36
4Jiang, David,Tung, Anthony K. H.,Chen, Gang.MAP-JOIN-REDUCE: Toward scalable and efficient data analysis on large clusters. IEEE Transactions on Knowledge and Data Engineering . 2011 被引量：1
5Foto N. Afrati,Jeffrey D. Ullman.Optimizing Multiway Joins in a Map-Reduce Environment. IEEE Transactions on Knowledge and Data Engineering . 2011 被引量：1
6Ding Linlin,Wang Guoren,Xin Junchang,et al.Com MapReduce:An improvement of MapReduce with lightweight communication mechanisms. Proc of the 17th Int Conf on Database Systems for Advanced Applications (DASFAA’’12) . 2012 被引量：1
7Zhang Yanfeng,Gao Qixin,Gao Lixin,et al.Priter:a distributed framework for prioritized iterative computations. Proceedings of the 2nd ACM Symposium on Cloud Computing (SoCC 11) . 2011 被引量：1
8Lin Yuting,Agrawal D,Chen Chen,et al.Llama:leveraging columnar storage for scalable join processing in the MapReduce framework. Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data (SIGMOD 11) . 2011 被引量：1
9Ashish Thusoo,Joydeep Sen Sarma,Namit Jain,Zheng Shao,Prasad Chakka,Suresh Anthony,Hao Liu,Pete Wyckoff,Raghotham Murthy.Hive: a warehousing solution over a map-reduce framework. Proceedings of the VLDB Endowment . 2009 被引量：3
10Jens Dittrich,Jorge-Arnulfo Quiané-Ruiz,Alekh Jindal,Yagiz Kargin,Vinay Setty,J?rg Schad.Hadoop++: making a yellow elephant run like a cheetah (without it even noticing). Proceedings of the VLDB Endowment . 2010 被引量：3

二级参考文献20

1Ghemawat S, Gobioff H, Leung ST. The Google file system. In: Proc. of the SOSP 2003. 2003.20-43. [doi: 10.1145/1165389. 945450]. 被引量：1
2Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. In: Proc. of the OSDI 2004. 2004. 137-150. [doi: 10.1145/1327452.1327492]. 被引量：1
3Yang HC, Dasdan A, Hsiao RL, Parker DS. Map-Reduce-Merge: Simplified relational data processing on large cluster. In: Proc. of the SIGMOD 2007. 2007. 1029-1040. [doi: 10.1145/1247480.1247602]. 被引量：1
4Lammel R. Google's MapReduce programming model Revisited. Science Computer Program, 2008,70(1):1-30. [doi: 10.1016/ j .scico .2007.07.001 ]. 被引量：1
5Thusoo A, Sarma JS, Jain N, Shao Z, Chakka P, Anthony S, Liu H, Wyckoff P, Murthy R. Hi:ce: A warehousing solution over a map-reduce framework. Proc. of the VLDB Endowment, 2009,2(2): 1626-1627. 被引量：1
6Thusoo A, Sarma JS, Jain N, Shao Z, Chakka P, Zhang N, Antony S, Liu H, Murthy R. Hive--A petabyte scale data warehouse using Hadoop data engineering. In: Proc. of the ICDE. 2010. 996-1005. [doi: 10.1109/ICDE.2010.5447738]. 被引量：1
7Olston C, Reed B, Sirvastava U, Kumar R, Tomkins A. Pig Latin: A not-so-foreign language for data processing. In: Proc. of the SIGMOD. 2008. 1099-1110. [doi: 10.1145/1376616.1376726]. 被引量：1
8White T. Hadoop: The Definitive Guide. O'Reilly, 2009. 被引量：1
9Apache Hadoop. http://hadoop.apache.org/. 被引量：1
10Murty J. Programming Amazon Web Services: S3, EC2, SQS, FPS, and SimpleDB. O'Reilly, 2008. 被引量：1

共引文献45

1郭宁,张新.一致性哈希算法在多处理机进程分配的应用[J].计算机与现代化,2013(9):71-74. 被引量：5
2朱潜,吴辰铌,朱志良,刘洪娟.Hadoop云平台下Nutch中文分词的研究与实现[J].小型微型计算机系统,2013,34(12):2772-2776. 被引量：5
3杨苗苗,李跃辉,刘静,许静.基于云平台的电信数据仓库文件备份和分布动态调整算法[J].南京邮电大学学报（自然科学版）,2014,34(1):111-115.
4王永贵,李鸿绪,宋晓.MapReduce模型下的并行线性时间选择算法研究[J].计算机工程与设计,2014,35(4):1242-1246. 被引量：2
5周文琼,王乐球,叶玫.云环境下Hadoop平台的作业调度算法[J].计算机系统应用,2014,23(5):177-181. 被引量：1
6代亮,陈婷,许宏科,钱超,梁殿鹏.大数据测试技术研究[J].计算机应用研究,2014,31(6):1606-1611. 被引量：23
7孙小雁.云存储技术及其发展[J].玉林师范学院学报,2014,35(2):136-140. 被引量：2
8何涛,刘强,郑泽忠,刘帅.基于MapRedue的大规模矢量空间数据选择查询处理[J].科技创新导报,2014,11(9):193-194. 被引量：2
9张桂刚.一种大数据放置方法[J].计算机科学,2014,41(6):1-4. 被引量：3
10王永贵,李鸿绪,宋晓.MapReduce模型下的模糊C均值算法研究[J].计算机工程,2014,40(10):47-51. 被引量：10

同被引文献8

1李建锋,彭舰.云计算环境下基于改进遗传算法的任务调度算法[J].计算机应用,2011,31(1):184-186. 被引量：203
2倪霖,段超,贾春兰.差分进化混合粒子群算法求解项目调度问题[J].计算机应用研究,2011,28(4):1286-1289. 被引量：8
3靳其兵,张建,权玲,曹丽婷.基于混合PSO-SQP算法同时实现多变量的结构和参数辨识[J].控制与决策,2011,26(9):1373-1376. 被引量：8
4朱宗斌,杜中军.基于改进GA的云计算任务调度算法[J].计算机工程与应用,2013,49(5):77-80. 被引量：32
5封良良,张陶,贾振红,夏晓燕,覃锡忠.云计算环境下基于改进粒子群的任务调度算法[J].计算机工程,2013,39(5):183-186. 被引量：26
6刘卫宁,靳洪兵,刘波.基于改进量子遗传算法的云计算资源调度[J].计算机应用,2013,33(8):2151-2153. 被引量：30
7贾建芳,杨瑞峰,王莉.混合遗传粒子群优化算法的研究[J].自动化仪表,2013,34(9):1-3. 被引量：5
8楼涛,杜文才,钟杰卓.基于混合蚁群遗传算法的Hadoop集群作业调度[J].海南大学学报（自然科学版）,2015,33(4):340-346. 被引量：6

引证文献1

1刘春燕,杨巍巍.云计算基于遗传粒子群算法的多目标任务调度[J].计算机技术与发展,2017,27(2):56-59. 被引量：12

二级引证文献12

1李红亚,彭昱忠,邓楚燕,龚道庆.GA与PSO的混合研究综述[J].计算机工程与应用,2018,54(2):20-28. 被引量：42
2潘晓君.遗传粒子群融合算法在入侵检测中的应用研究[J].许昌学院学报,2018,37(2):5-7.
3孙坡,张巍,曾佳斌,李晓英.计及碳排放和风光消纳的多目标切荷优化调度[J].电力科学与工程,2018,34(4):14-20. 被引量：2
4李根.基于云任务调度及粒子群算法的网络安全系统设计[J].软件工程,2018,21(5):51-53. 被引量：2
5张路,林勇康,艾昕晨,沙超,王汝传.基于PSO算法的CT系统标定模板的优化设计[J].计算机技术与发展,2018,28(11):203-207.
6何婧媛,孙乾坤.布谷鸟粒子群优化算法的多目标任务调度[J].信息技术,2020,44(5):37-40. 被引量：6
7马学森,谈杰,陈树友,储昭坤,石雷.云计算多目标任务调度的优化粒子群算法研究[J].电子测量与仪器学报,2020,32(8):133-143. 被引量：42
8黄浩,马学森,谈杰.软件多项目管理可拆分资源调度优化[J].信息与电脑,2021,33(3):142-144.
9江超.异构计算平台静态任务调度算法综述[J].网络新媒体技术,2021,10(4):1-10. 被引量：2
10Haoyu Jiang,Shiyuan Ning,Quanbo Ge,Wang Yun,JinQiang Xu,Yu Bin.Optimal economic dispatching of multi-microgrids by an improved genetic algorithm[J].IET Cyber-Systems and Robotics,2021,3(1):68-76. 被引量：1

1陈勇旭,陈梦杰,刘雪冰,宋杰.基于MapReduce的连接聚集查询算法研究[J].计算机研究与发展,2013,50(S1):306-311. 被引量：7
2王伟平,李建中,张冬冬,郭龙江.基于滑动窗口的数据流连续J-A查询的处理方法[J].软件学报,2006,17(4):740-749. 被引量：18
3李经振.数据挖掘:统计学的分支?[J].江苏统计,2002(9):7-8. 被引量：5
4谭国强,张丹平.云计算环境下基于MapReduce的Apriori算法研究[J].江西通信科技,2012(2):16-19. 被引量：1
5祁文坤.大数据及可视化平台在电力企业中的应用[J].电子世界,2016,0(24):138-138. 被引量：4
6东方,焦洋,王超,艾兆春.基于虚拟仪器技术的传感器自动检测系统[J].装备制造技术,2009(6):71-73. 被引量：1
7尹志喜,甄国涌.基于模式匹配的大规模数据分析软件设计与实现[J].计算机系统应用,2010,19(2):185-188. 被引量：3
8刘义,陈荦,景宁,熊伟.基于R-树索引的Map-Reduce空间连接聚集操作[J].国防科技大学学报,2013,35(1):136-141. 被引量：5
9韩希先,杨东华,李建中.海量数据上的近似连接聚集操作[J].计算机学报,2010,33(10):1919-1933. 被引量：3
10李川.应用半连接的分布式数据库查询优化算法[J].重庆理工大学学报（自然科学）,2013,27(11):74-77. 被引量：4

计算机研究与发展

2015年第S1期

浏览历史

内容加载中请稍等...

融合多核和MapReduce的连接聚集查询优化被引量：1

参考文献14

二级参考文献20

共引文献45

同被引文献8

引证文献1

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

融合多核和MapReduce的连接聚集查询优化 被引量：1

参考文献14

二级参考文献20

共引文献45

同被引文献8

引证文献1

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

融合多核和MapReduce的连接聚集查询优化被引量：1