基于MapReduce的多路连接优化方法研究被引量：5

Research of Optimizing Multiway Joins Based on MapReduce

下载PDF

导出

摘要 MapReduce是Google开发的一种并行分布式计算模型,已在搜索和处理海量数据领域得到了广泛的应用。但是MapReduce框架中的"一对一分区"策略使得其在处理多数据连接任务时,需要将该任务拆分成多个链接的子任务,造成中间结果集的频繁"洗牌",带来巨大的磁盘I/O开销。文中就该问题提出了一种新的分区策略:"一对多分区"策略,为了能够在MapReduce框架中实现这一分区策略,因此需要对MapReduce框架中的分区函数接口进行修改。改进策略的优点在于只要一个MapReduce任务就能够完成多数据集连接任务,因此节省了I/O开销。最后在搭建的Hadoop平台上对改进前和改进后的两种方法进行比较。实验结果表明,改进模式的效率明显得到提高,因此这一方案是可行的。 MapReduce is a parallel distributed computing model developed by Google, it is widely used in the area of searching and large date dealing. But because of its one-to-one shuffling scheme, MapReduce divides multiway join tasks into a sequential subtasks which frequently checkpoints and shuffles intermediate results in introducing a huge I/O overhead. In this paper, introduce a new shuffling scheme：one-to-many shuffling strategy. In order to achieve this partition strategy in the MapReduce framework, so need to modify parti- tion function interface of MapReduce framework. The improvement strategy advantage is that a MapReduce task will be able to perform multiple data set connection task, so saving the I/O overhead. Finally in setting up the Hadoop platform the two methods of improvement of the former and the latter are compared. Experimental results show that this one-phase joining approach, in certain cases, is more efficient than the multiphases joining approach employed by MapReduce, so this scheme is feasible.

作者王晓军孙惠

机构地区南京邮电大学信息网络技术研究所

出处《计算机技术与发展》 2013年第6期59-62,66,共5页 Computer Technology and Development

基金国家科技支撑计划(2007BAH17B04)

关键词 MapReduce技术多数据集连接分区策略 HADOOP MapReduce technology multiway joins shuffling strategy Hadoop

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1钟伟彬,周梁月,潘军彪,文锦军.云计算终端的现状和发展趋势[J].电信科学,2010,26(3):22-26. 被引量：64
2李玲娟,张敏.云计算环境下关联规则挖掘算法的研究[J].计算机技术与发展,2011,21(2):43-46. 被引量：48
3罗军舟,金嘉晖,宋爱波,东方.云计算:体系架构与关键技术[J].通信学报,2011,32(7):3-21. 被引量：826
4江务学,张塬,王志明,等.MapReduce并行编程架构模型研究[J].微电子学与计算,20t0,27(6):168-170. 被引量：1
5郑启龙,房明,汪胜,王向前,吴晓伟,王昊.基于MapReduce模型的并行科学计算[J].微电子学与计算机,2009,26(8):13-17. 被引量：39
6Jiang Dawei, Tung A K H, Chen Gang. MAP- JOIN- RE- DUCE :Toward Scalab|e and Efficient Data Analysis on LargeClusters[ J]. IEEE Transactions on Knowledge and Data Engi- neering,2011,23 (9) : 1299-1311. 被引量：1
7Lamel R. Google' s MapReduce Programming Model-Revisi- ted[ J]. Science of Computer Programming,2008,7 (1) :208- 237. 被引量：1
8Ghemawat S, Gobioff H, Leung Shun-Tak. The Google file sys- tem[ J]. ACM SIGOPS Operating Systems Review,2003,37 ( 5 ) :29-43. 被引量：1
9Chang F, Dean J, Ghemawat S, et al. A distributed storage sys- tem for structed data[ J ]. ACM Transactions on Computer Sys- tem ,2008,26 (2) : 1-26. 被引量：1
10史佩昌,王怀民,蒋杰,卢凯.面向云计算的网络化平台研究与实现[J].计算机工程与科学,2009,31(A01):249-252. 被引量：57

二级参考文献86

1刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
2卢锡城,王怀民,王戟.虚拟计算环境iVCE:概念与体系结构[J].中国科学（E辑）,2006,36(10):1081-1099. 被引量：37
3李伟,徐志伟,唐志敏,等.国家高性能计算环境的设计与实现[C]//863计划智能计算机会议论文集,北京:清华大学出版社,2001:46-56. 被引量：2
4Nurmi D, Wolski R, Grzegorczyk C, et al. The Eucalyptus Opensource Cloud-Computing System[C]//Proc of Cloud Computing and Its Applications, 2008. 被引量：1
5Buyya R. Market-Oriented Cloud Computing: Vision, Hype, and Reality for Delivering It Services as omputing utilities[C]//Proc of CORR'08,2008. 被引量：1
6Youseff L, Butrico M, Silva D D. Toward a Unified Ontology of Cloud Computing[C]//Proc of Grid Computing Environments Workshop, 2009 : 1-10. 被引量：1
7LU Kai,CHI Wanqing, LIU Yongpeng, et al. HPVZ:A High Performance Virtual Computing Environment for Super Computers[C]//Proc of APPT'09,2009. 被引量：1
8Foster I, Zhao Y, Raicu I, et al. Cloud Computing and Grid Computing 360-Degree Compared[C]//Proc of Grid Computing Environments Workshop, 2008 : 1-10. 被引量：1
9Campbell R, et al. Open CirrusTM Cloud Computing Testbed:Federated Data Centers for Open Source Systems and Services Researeh[C]//Proc of Workshop on Hot Topics in Cloud Computing, 2009. 被引量：1
10陈贵海,李振华.对等网络:结构、应用与设计[M].北京:清华大学出版社,2006. 被引量：1

共引文献1032

1胡亮,曹艳,唐江云,刘永波,雷波.基于物联网的玉米病害环境监测系统研究与实现[J].中国农学通报,2020(22):154-164. 被引量：4
2陈伟根,张知先,李剑,蔚超,陈庆.电气设备状态参量智能传感技术[J].中国电机工程学报,2020,40(S01):323-342. 被引量：40
3姜明,梁铭力.基于“边缘计算云”服务的城轨车站综合监控系统降级方案[J].现代城市轨道交通,2023(S01):23-29.
4王光肇.云计算中的关键性数据库探索[J].计算机产品与流通,2020,0(8):56-56.
5李朝祥,马玉玲,潘龙,曹中枢.基于云计算平台的现代企业人才能力水平评价系统[J].湖北农业科学,2023,62(S01):236-240. 被引量：2
6韩水保,汤卫东,张令涛,周联友,于宏文.支撑大电网调控系统无差别浏览的人机云终端及关键技术[J].电网技术,2020,44(2):420-428. 被引量：5
7叶勇,郑炜,林树海,程宇.交通建设监理信息化架构设计[J].公路交通科技（应用技术版）,2020(4):345-347.
8刘宝莲,庄剑英.基于云桌面的虚拟计算机实训室建设方案[J].佳木斯教育学院学报,2012(9):229-230. 被引量：9
9李一鸣,邸德海,韩博.数字校园云服务认证体系研究[J].武汉大学学报（理学版）,2012,58(S1):197-200.
10章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8

同被引文献63

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
3任年海.一个有效的并行模型——BSP并行模型[J].计算机与现代化,2006(3):34-36. 被引量：3
4WHITET.Hadoop权威指南[M].北京:清华大学出版社.2010.5. 被引量：16
5方木云,刘辉.高级软件工程[M].北京:清华大学出版社,2011. 被引量：6
6Dean J, Ghemawat S. MapReduce:simplified data processing on large clusters [ J ]. Communications of the ACM, 2008,51 (1) :107-113. 被引量：1
7Bu Yingyi, Howe B, Balazinska M, et al. HaLoop : efficient iter- ative data processing on large clusters [ J ]. Proceedings of the VLDB Endowment ,2010,3 ( 1-2 ) :285-296. 被引量：1
8Elnikety E, Elsayed T, Ramadan H E. iHadoop : asynchronous iterations for MapReduce [ C]//Proc of IEEE third interna- tional conference on cloud computing technology and science. Athens : IEEE ,2011:81-90. 被引量：1
9Zhang Yanfeng, Gao Qixin, Gao Lixin, et al. iMapReduce : a distributed computing framework for iterative computation[ J]. Journal of Grid Computing,2012,10( 1 ) :47-68. 被引量：1
10Malewicz G,Austern M H,Bik A J C,et al, Pregel:a system for large - scale graph processing [ C ]//Proceedings of the 2010 ACM SIGMOD international conference on management of data. [ s. 1. ] :ACM ,2010 : 135-146. 被引量：1

引证文献5

1王晓军,邹亮亮.Hadoop迭代优化技术的研究[J].计算机技术与发展,2014,24(9):98-102.
2李敏,倪少权,邱小平,黄强.物联网环境下基于上下文的Hadoop大数据处理系统模型[J].计算机应用,2015,35(5):1267-1272. 被引量：33
3刘青,鲍爱华,倪桂强.大数据技术专题讲座(二) 第3讲面向大数据处理的MapReduce优化技术[J].军事通信技术,2015,36(2):81-87. 被引量：1
4乔百友,朱俊海,郑宇杰,申木川,王国仁.一种基于Spark的多路空间连接查询处理算法[J].计算机研究与发展,2017,54(7):1592-1602.
5滕爱国,单新文,王鹏飞,陶晔波,闾龙,顾玉皎.基于Hadoop平台电力数据服务匹配查询性能研究[J].计算机技术与发展,2020,30(9):182-187. 被引量：1

二级引证文献35

1何婧媛.MapReduce编程模型的研究与改进[J].民营科技,2016(8):79-79.
2杨青,孟娟.面向服务的云数据挖掘技术研究[J].辽宁广播电视大学学报,2016(2):34-35.
3张春生.大数据环境下相容数据集的关联规则数据挖掘[J].微电子学与计算机,2016,33(8):34-39. 被引量：5
4郑宏,蔡宇翔.大数据环境下入侵风险评估优化模型仿真分析[J].计算机仿真,2016,33(9):292-295. 被引量：13
5周芸韬.基于R语言的大数据处理平台的设计与实现[J].现代电子技术,2017,40(2):53-56. 被引量：20
6卢国强,刘芳,王芳,刘畅,韩婷.云计算下异构数据集成模型的构建[J].电子技术与软件工程,2017(3):172-172.
7郭戈.基于大型物联网技术的电商仓库检测[J].现代电子技术,2017,40(5):171-173. 被引量：4
8阎双.基于计算机软件开发技术的物联网数据系统分析研究[J].数字技术与应用,2017,35(2):91-91. 被引量：5
9张洪文.基于云计算的大数据技术[J].电子技术与软件工程,2017(10):174-174. 被引量：1
10韦银.计算机应用数据处理系统自动控制研究[J].信息记录材料,2017,18(6):60-61.

1王晟,赵壁芳.云计算中MapReduce技术研究[J].通信技术,2011,44(12):159-161. 被引量：9
2方锦明.一种面向云计算的改进的Mapreduce模型[J].计算机测量与控制,2012,20(5):1417-1419. 被引量：4
3窦万春,江澄.大数据应用的技术体系及潜在问题[J].中兴通讯技术,2013,19(4):8-16. 被引量：37
4李锐,王斌.文本处理中的MapReduce技术[J].中文信息学报,2012,26(4):9-20. 被引量：18
5丁智,林治.MapReduce编程模型、方法及应用综述[J].电脑知识与技术,2014,10(10X):7060-7064. 被引量：3
6于红斌,李孝安.基于分区策略的蚂蚁算法[J].微处理机,2007,28(3):78-80. 被引量：1
7王秀磊,刘鹏.大数据关键技术[J].中兴通讯技术,2013,19(4):17-21. 被引量：55
8宋毅飞.大数据发展及关键技术的分析研究[J].中国科技博览,2015,0(48):368-368.
9许超超.基于大数据的数据处理方法研究[J].电脑知识与技术（过刊）,2014,20(2X):894-896.
10葛茂松,张国忠,富春岩,吴铁峰,陈新,郑佳昕,张东海,周虹,支援,赵佳彬.一种适用于多跳无线网络的基于分组的分布式连接优化策略研究[J].佳木斯大学学报（自然科学版）,2016,34(6):914-916.

计算机技术与发展

2013年第6期

浏览历史

内容加载中请稍等...

基于MapReduce的多路连接优化方法研究被引量：5

参考文献12

二级参考文献86

共引文献1032

同被引文献63

引证文献5

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的多路连接优化方法研究 被引量：5

参考文献12

二级参考文献86

共引文献1032

同被引文献63

引证文献5

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的多路连接优化方法研究被引量：5