离散粒子群优化算法实现MapReduce负载平衡被引量：1

Discrete Particle Swarm Optimization Algorithm for MapReduce Load Balance

下载PDF

导出

摘要 MapReduce是Hadoop的核心模型之一,广泛应用于大数据处理。MapReduce模型将计算分为Map和Reduce两个处理阶段。但由于其自身的分区机制,导致在Reduce阶段处理数据时,会出现负载不平衡的数据倾斜问题。为了解决数据倾斜问题,提出利用离散粒子群算法解决Reduce阶段数据负载平衡问题。将数据分区策略与粒子群算法相结合,提高系统的稳定性。通过设置使数据分区均衡的目标函数,利用离散粒子群算法求解目标函数。试验结果证明,当设置不同数量的Reduce时,离散粒子群分区方式的运行时间均为最短,可有效解决数据分区的不平衡问题,并大大提升系统的计算效率。 MapReduce is one of the core models of Hadoop,and is widely used in big data processing.The MapReduce model divides the computation into two stages:Map and Reduce.However,due to its own partition mechanism,the problem of load unbalanced data skew occurs when data is processed in the Reduce phase.In order to solve the problem of data skew,discrete particle swarm optimization algorithm is proposed to resolve data load balancing of Reduce phase.By combining the data partitioning strategy with particle swarm optimization algorithm,the stability of the system is improved.By setting the target function of data partition equilibrium,the discrete particle swarm algorithm is used to solve the target function.The experimental results show that when different number of reduce are set,the running time of discrete particle swarm partition way is the shortest,which effectively solve the unbalance of data partition,and greatly improve the computational efficiency of the system.

作者李安颖陈群宋荷 LI Anying;CHEN Qun;SONG He(School of Computer Science and Engineering,Northwestern Polytechnical University,Xi’an 710072,China)

机构地区西北工业大学计算机学院

出处《自动化仪表》 CAS 2018年第12期56-59,共4页 Process Automation Instrumentation

关键词分布式计算离散粒子群优化算法数据倾斜数据平衡分区 Distributed calculation Discrete particle swarm optimization algorithm Data skew Data balance Partition

分类号 TH123.1 [机械工程—机械设计及理论] TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1王卓,陈群,李战怀,潘巍,尤立.基于增量式分区策略的MapReduce数据均衡方法[J].计算机学报,2016,39(1):19-35. 被引量：24
2刘盼红.基于粒子群优化算法的Hadoop调度算法研究[J].河北工程大学学报（自然科学版）,2015,23(1):83-85. 被引量：4
3徐俊,汤庸,刘道余.基于混合差分粒子群算法的MapReduce任务调度算法研究[J].小型微型计算机系统,2016,37(7):1479-1481. 被引量：6

二级参考文献40

1周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
2MANYIKA J, CHUI M, BROWN B, et al. Big data:The next frontier for innovation, competition, and productivity [J]. Communications of the ACM, 2011,56 ( 2 ) : 100 - 105. 被引量：1
3SHVACHKO K, KUANG H, RADIA S, et al. The ha- doop distributed file system [ C]//Mass Storage Systems and Technologies (MSST) , 2010 IEEE 26th Symposium on. IEEE, 2010:1 - 10. 被引量：1
4Capacity Scheduler for Hadoop [ EB/OL]. http://ha- doop. apache, org/docs/current/hadoop - yarn/hadoop - yam - site/CapacityScheduler, html, 2014 -09 -05. 被引量：1
5Fair Scheduler for Hadoop [ EB/OL]. http ://hadoop. a- pache, org/docs/current/hadoop - yarn/hadoop - yarn - site/FairScheduler, html. 2014 - 09 - 05. 被引量：1
6ChuckLam.Hadoop实战[M].北京:人民邮电出版社,2012. 被引量：2
7Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Operating Systems Design : Implementation, 2004, 51(1) : 147-152. 被引量：1
8Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system//Proceedings of the 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST). Nevada, USA, 2010:1-10. 被引量：1
9Rasmussen A, Conley M, Kapoor R, et at. Themis: An I/O efficient MapReduce//Proceedings of the ACM Symposium on Cloud Computing (SOCC'12). San Jose, USA, 2012. 被引量：1
10Ren K, Kwon Y, Balazinska M, Howe B. Hadoop's adolescence: A comparative workload analysis from three research clusters. Carnegie Mellon University (CMU), USA: Technical Report CMU-PDL-12-106, 2012. 被引量：1

共引文献31

1李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
2凌海波,周先存.基于扩展卡尔曼滤波算法的室内定位跟踪系统[J].河北工程大学学报（自然科学版）,2016,33(2):108-112. 被引量：1
3卞琛,于炯,修位蓉,英昌甜,钱育蓉.基于迭代填充的内存计算框架分区映射算法[J].计算机应用,2017,37(3):647-653. 被引量：4
4邱宁佳,李宾,王鹏,杨华民,王玮琦.基于MapReduce的密度聚类改进算法[J].计算机应用,2017,37(A01):63-67. 被引量：5
5叶其革,张岚,樊冬梅.智能变电站多层数据交换调度优化方法研究[J].自动化与仪器仪表,2017(8):115-117. 被引量：2
6阎栋,董媛.基于云计算的海量网络流量数据分析研究[J].自动化与仪器仪表,2017(9):32-34. 被引量：9
7王小红.网格空间应急信息资源高效调度算法仿真[J].计算机仿真,2017,34(9):292-295. 被引量：5
8王卓,索勃,潘巍.三角形的并行枚举算法[J].计算机应用,2017,37(12):3397-3400.
9王华进,黎建辉,沈志宏,周园春.基于ORC元数据的Hive Join查询Reducer负载均衡方法[J].计算机科学,2018,45(3):158-164. 被引量：3
10王丽红,夏魁良,金丹.求解Hadoop作业调度问题的混合遗传算法[J].齐齐哈尔大学学报（自然科学版）,2018,34(3):6-10.

同被引文献5

1陆小妹,郭保磊,王英东.气力输送系统常见问题及应对方法[J].广东化工,2013,40(15):99-100. 被引量：4
2高志强.自抗扰控制思想探究[J].控制理论与应用,2013,30(12):1498-1510. 被引量：259
3韩京清.从PID技术到“自抗扰控制”技术[J].控制工程,2002,9(3):13-18. 被引量：791
4陈秋云,蒋佳,张家华.HAZOP分析技术在聚丙烯装置的应用[J].石油化工安全环保技术,2018,34(2):13-15. 被引量：3
5郭铁石.聚丙烯风送系统反吹电磁阀改造方案[J].石化技术,2015,22(12):21-22. 被引量：1

引证文献1

1吴群群,陈郇,李大字.自抗扰控制技术在聚丙烯造粒装置风送系统中的设计与实现[J].石油化工自动化,2021,57(3):19-21.

1HE Jing,YAO Shao-wen,CAI Li,ZHOU Wei.SLC-index: A scalable skip list-based index for cloud data processing[J].Journal of Central South University,2018,25(10):2438-2450. 被引量：2
2刘勇,何婧,姚绍文,向毅,张浩.基于重心点转移的St-DBSCAN改进算法[J].计算机技术与发展,2018,28(11):6-11. 被引量：1
3章帅,崔宗敏,喻静.混合云中基于数据分区的一种高效查询方法[J].福建电脑,2018,34(12):25-26.
4黄震,钱育蓉,于炯,英昌甜,赵京霞.一种Spark下分布式DBN并行加速策略[J].微电子学与计算机,2018,35(11):100-105. 被引量：1
5李爽,陈瑞瑞,林楠.面向大数据挖掘的Hadoop框架K均值聚类算法[J].计算机工程与设计,2018,39(12):3734-3738. 被引量：22
6白冬鑫,鲁光银,黄军荣,刘琦.基于GA的广域电磁法分布式反演技术[J].中国科技信息,2018(24):93-95.
7许可,宫华,刘芳,王世海.基于离散粒子群算法的应急物资选址与调度[J].重庆师范大学学报（自然科学版）,2018,35(6):15-21. 被引量：13
8惠香.文件收藏多处列表导出易查[J].电脑爱好者,2018,0(22):31-31.
9李红军,崔双喜,王维庆,刘沛汉,曹玲玲.基于风电功率预测与储能技术的风电消纳预测研究[J].可再生能源,2018,36(11):1711-1718. 被引量：11
10蒋一翔,徐元根,王永恒.使用递归神经网络的目标依赖产品评价分析[J].计算机工程与设计,2018,39(11):3564-3569.

自动化仪表

2018年第12期

浏览历史

内容加载中请稍等...

离散粒子群优化算法实现MapReduce负载平衡被引量：1

参考文献3

二级参考文献40

共引文献31

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

离散粒子群优化算法实现MapReduce负载平衡 被引量：1

参考文献3

二级参考文献40

共引文献31

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

离散粒子群优化算法实现MapReduce负载平衡被引量：1