Storm流处理平台中负载均衡机制的实现被引量：7

Realization of Load Balancing Mechanism in Storm Streaming Processing Platform

下载PDF

导出

摘要 Storm流处理平台解决了传统的基于Hadoop的批处理系统实时性不高的问题,为多源异构大数据处理提供了高效、快速、实时的数据处理框架。然而Storm平台在任务分配过程中只考虑了不同节点之间可用Slot的排序,并没有充分考虑节点的实际负载情况,从而容易产生负载不均衡的问题。针对以上问题,本文在Storm分布式流处理系统上实现对可用Slot和节点负载情况的加权排序改进Storm调度算法,通过数据结构设计,保证rowkey的随机性和唯一性,确保Region Server的负载平衡;同时通过批量写入的机制,提高Hbase数写入速度,从而提高流数据存储效率。通过与原生Storm系统的对比实验,表明本文算法的改进和机制优化保证了数据的快速写入,提高了集群资源的利用率,改进后的系统在实用性与效率上具有明显的优势。 Compared with Hadoop, Stormhas advantage of real-time data stream processing, which preal-time data processing framework for multi-source heterogeneous data processing. However, the worker assignments in theStorm cluster only consider the sort of available Slot between different nodes, while ignoring the current lonodes, which may fail to meet the command of load balancing when more than one topology rprove the efficiency and achieve load balancing of real-time stream processing, a Storm scheduling algoritlim is proposed which is weighted sorting of available Slot and node load conditions and based on Storm-basedload imbalance. And through designing the data structure reasonably, the paper designs the rowkey in Hbase randomly and even-ly, which can ensure the load balance of the various RegionServer, improve the utilization of cluster resources and increase the speed of data writing greatly. Through the comparison experiment with the original Storm srithim improvement and mechanism optimization ensure the fast writing of data and improve theThe improved system has obvious advantages in practicality and efficiency.

作者张楠柴小丽谢彬唐鹏

机构地区中国电子科技集团公司第三十二研究所信息服务平台室

出处《计算机与现代化》 2017年第12期65-70,76,共7页 Computer and Modernization

基金中国电子科技集团公司第三十二研究所自立项目(ZQ160006 ZQ160007)

关键词 STORM 流处理分布式计算批量处理负载均衡 Storm streaming processing distributed computing batch processing load balancing

分类号 TP702.7 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献14

1亓开元,韩燕波,赵卓峰,马强.面向大规模感知数据的实时数据流处理方法及关键技术[J].计算机集成制造系统,2013,19(3):641-653. 被引量：9
2马可,李玲娟.分布式实时流数据聚类算法及其基于Storm的实现[J].南京邮电大学学报（自然科学版）,2016,36(2):104-110. 被引量：8
3李健,黄庆佳,刘一阳,苏森.云计算环境下的大规模图状数据处理任务调度算法[J].西安交通大学学报,2012,46(12):116-122. 被引量：16
4李曌,滕飞,李天瑞,杨浩.一种Hadoop中基于作业类别和截止时间的调度算法[J].计算机科学,2015,42(6):28-31. 被引量：5
5马庆祥,刘钊远.基于Storm的实时报警服务的设计与实现[J].信息技术,2016,40(12):162-166. 被引量：2
6李川,鄂海红,宋美娜.基于Storm的实时计算框架的研究与应用[J].软件,2014,35(10):16-20. 被引量：21
7马丹..任务间相互依赖的并行作业调度算法研究[D].华中科技大学,2007:
8黄容,王贤稳.基于Storm slot使用率低优先的动态负载均衡策略[J].电脑知识与技术,2016,12(12X):8-11. 被引量：1
9程春玲,张登银,徐玉,徐小龙.一种面向云计算的分态式自适应负载均衡策略[J].南京邮电大学学报（自然科学版）,2012,32(4):53-58. 被引量：10
10葛微,罗圣美,周文辉,赵頔,唐云,周娟,曲文武,袁春风,黄宜华.HiBase:一种基于分层式索引的高效HBase查询技术与系统[J].计算机学报,2016,39(1):140-153. 被引量：55

二级参考文献101

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2邓华锋,刘云生,肖迎元.分布式数据流处理系统的动态负载平衡技术[J].计算机科学,2007,34(7):120-123. 被引量：13
3GROSSMAN R L. The case for cloud computing[ J]. IT Profession- al,2009:11 (2) :23 -27. 被引量：1
4BUYYA R, YEO C S, VENUGOPAL S, et al. Cloud computing and emerging IT platforms: Vision, hype, and reality for delivering com- puting as the 5th utility [ J ]. Future Generation Computer Systems, 2009:25(6) :599 -616. 被引量：1
5RANDLES M, LAMB D,TALEB-BENDIAB A. A comparative study into distributed load balancing algorithms for cloud computing [ C ]//Proc of the 24th IEEE International Conference on Advanced Information Networking and Applications Workshops. 2011 : 551 - 556. 被引量：1
6ZHAO Yi, HUANG Wenlong. Adaptive distributed load balancing algorithm based on live migration of virtual machines in cloud[ C] // Proc of the 5th International Joint Conference on INC, IMS and IDC. 2009 : 170 - 175. 被引量：1
7HU Jinhua,GU Jianhua,SUN Guofei ,et al. A scheduling strategy on load balancing of virtual machine resources in cloud computing envi- ronment[ C]//Proc of the 3rd International Symposium on Parallel Architectures, Algorithms and Programming. 2010:89 - 96. 被引量：1
8SADHASIVAM S, JAYARANI R, NAGAVENI N, et al. Design and implementation of an efficient two-level scheduler for cloud compu- ting environment [ C ]//International Conference on Advances in Re- cent Technologies in Communication and Computing. 2009: 884 - 886. 被引量：1
9WANG Shuching, YAN Kuoqin, LIAO Wenpin, et al. Towards a load balancing in a three-level cloud computing network [ C ] //Proc of the 3rd IEEE International Conference on Computer Science and In- formation Technology. 2010 : 108 - 113. 被引量：1
10ZHANG Zehua,ZHANG Xuejie. A load balancing mechanism based on ant colony and complex network theory in open cloud computing federation[ C]//Proc of the 2nd International Conference on Indus- trial Mechatronics and Automation. 2010 : 240 - 243. 被引量：1

共引文献448

1张彦,谢兴生,陈晓雨.一种处理大数据的复杂适应系统框架设计[J].电子技术（上海）,2021,50(3):22-25.
2蔡嵩,张建明,陈继明,潘金贵.云计算环境中基于朴素贝叶斯算法的负载均衡技术[J].计算机应用,2014,34(2):360-364. 被引量：14
3陈臣,高军.云计算环境下基于服务质量的数字图书馆负载均衡机制研究[J].新世纪图书馆,2014(2):48-51.
4冯馨锐,谢彬,唐鹏,秦健.Storm集群下基于性能感知的负载均衡策略[J].计算机系统应用,2018,27(12):181-186. 被引量：1
5程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：736
6徐菲菲,雷景生,毕忠勤,苗夺谦,杜海舟.大数据环境下多决策表的区间值全局近似约简[J].软件学报,2014,25(9):2119-2135. 被引量：22
7杨玉丽,彭新光,黄名选,边婧.基于离散粒子群优化的云工作流调度[J].计算机应用研究,2014,31(12):3677-3681. 被引量：10
8赵莉.基于改进人工免疫算法的云计算任务调度[J].激光杂志,2014,35(11):113-116. 被引量：4
9崔星灿,禹晓辉,刘洋,吕朝阳.分布式流处理技术综述[J].计算机研究与发展,2015,52(2):318-332. 被引量：50
10侯洁,张希坤.云计算环境聚合与协同机理研究[J].网络安全技术与应用,2015(1):67-67.

同被引文献47

1张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：376
2冯丹,周游,姚远,孟群.我国居民健康档案基本数据集数据元目录编制[J].中国卫生信息管理杂志,2012,9(1):71-74. 被引量：12
3廖彬,于炯,张陶,杨兴耀.基于分布式文件系统HDFS的节能算法[J].计算机学报,2013,36(5):1047-1064. 被引量：58
4张维维,魏海涛,于俊清,李鹤,黎昊,杨秋吉.COStream:一种面向数据流的编程语言和编译器实现[J].计算机学报,2013,36(10):1993-2006. 被引量：10
5孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：312
6张东霞,苗新,刘丽平,张焰,刘科研.智能电网大数据技术发展研究[J].中国电机工程学报,2015,35(1):2-12. 被引量：614
7钟华.基于NoSQL数据库的大数据存储安全技术的研究及应用[J].通讯世界（下半月）,2015(10):255-255. 被引量：4
8邓建玲.能源互联网的概念及发展模式[J].电力自动化设备,2016,36(3):1-5. 被引量：62
9黄伟建,宋园园.HBase负载均衡分析及优化策略[J].微电子学与计算机,2016,33(4):125-128. 被引量：4
10马可,李玲娟.分布式实时流数据聚类算法及其基于Storm的实现[J].南京邮电大学学报（自然科学版）,2016,36(2):104-110. 被引量：8

引证文献7

1冯馨锐,谢彬,唐鹏,秦健.Storm集群下基于性能感知的负载均衡策略[J].计算机系统应用,2018,27(12):181-186. 被引量：1
2李珂,刘东琦.基于流处理技术的实时场景应用[J].电信技术,2019(2):44-46.
3邵芳,王勇.基于HBase的大数据平台负载均衡算法分析与优化[J].软件导刊,2019,18(1):104-107. 被引量：7
4袁梓航.浅谈城市能源互联网发展现状及面临的挑战[J].机电信息,2019,0(33):167-169. 被引量：2
5李峰泉.一种HBase的大数据平台负载均衡算法分析及优化[J].粘接,2020,42(5):79-81. 被引量：3
6唐立,李亚平,曲金帅.基于HBase/Spark的教学大数据存储及索引模型研究[J].云南民族大学学报（自然科学版）,2020,29(5):486-492. 被引量：1
7王中华,柴小丽.基于Storm平台的多任务分组调度策略与实现[J].计算机系统应用,2021,30(2):250-254. 被引量：1

二级引证文献13

1艾龙.车地多链路无线通信系统安全保障技术研究[J].信息通信,2019,32(3):200-202.
2李兴菊,赵建军,聂红梅,王迎.HBase数据库行键设计及验证[J].软件导刊,2019,18(10):178-181. 被引量：2
3李峰泉.一种HBase的大数据平台负载均衡算法分析及优化[J].粘接,2020,42(5):79-81. 被引量：3
4唐立,李亚平,曲金帅.基于HBase/Spark的教学大数据存储及索引模型研究[J].云南民族大学学报（自然科学版）,2020,29(5):486-492. 被引量：1
5黄河清,林峰.Hadoop负载均衡的诊断与处理[J].福建电脑,2021,37(7):36-39.
6李星,邬少飞.基于Hbase的车联网海量数据存储[J].电脑与电信,2021(5):59-62. 被引量：2
7王玉柱.柔性直流配电网下的城市能源互联网[J].通讯世界,2021,28(4):168-169.
8何磊.大数据平台负载均衡策略优化设计研究[J].信息技术,2021,45(7):139-143. 被引量：1
9梁方玮,薛涛.面向物流服务的海量日志实时流处理平台[J].计算机系统应用,2021,30(10):68-75. 被引量：2
10李峻屹.基于热点访问的分布式数据库HBase负载均衡算法研究[J].微型电脑应用,2022,38(5):138-141. 被引量：3

1谢彩云,胡恒.大数据技术在微博平台中的应用[J].福建电脑,2017,33(11):137-138.
2王晓兵.以一当十PPT中图文的批量处理[J].电脑爱好者,2017,0(24):52-53.
3崔广章,朱志祥.容器云资源调度策略的改进[J].计算机与数字工程,2017,45(10):1931-1936. 被引量：13
4马宇川.不掉速黑科技揭秘美光MX300固态硬盘[J].微型计算机,2017,0(27):62-63.
5李彤.海外FPSO市场信息系统数据库的设计[J].资源节约与环保,2017,32(10):111-112.
6唐燕,刘仁权,王苹.基于Hadoop的高校大数据平台的设计与实现[J].信息技术,2017,41(12):105-109. 被引量：30
7杜华莉.修订版PEP六(上)Unit 6 How do you feel? Part B Let’s talk[J].小学教学设计（英语）,2017,0(11):36-36.
8Vladimir Ostrerov,Chris Umminger.针对三个或四个电源的简易平衡负载均分,即使电源电压不等也丝毫不受影响[J].中国集成电路,2017,26(11):86-87.
9李浩然,邓琨,夏成文.基于电力大数据调度云的优化分析[J].电子设计工程,2017,25(24):114-116. 被引量：9
10孙月龙,崔洪庆,关金锋.基于图像识别的煤层井下宏观裂隙观测[J].煤田地质与勘探,2017,45(5):19-22. 被引量：6

计算机与现代化

2017年第12期

浏览历史

内容加载中请稍等...

Storm流处理平台中负载均衡机制的实现被引量：7

参考文献14

二级参考文献101

共引文献448

同被引文献47

引证文献7

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

Storm流处理平台中负载均衡机制的实现 被引量：7

参考文献14

二级参考文献101

共引文献448

同被引文献47

引证文献7

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

Storm流处理平台中负载均衡机制的实现被引量：7