基于关键阶段分析的Spark性能预测模型被引量：2

Performance Prediction Model for Spark Based on Key Stages Analysis

下载PDF

导出

摘要 Spark作为目前大数据处理领域广泛使用的计算平台,合理分配集群资源对Spark作业性能优化有着重要的作用.性能预测是集群资源分配优化的基础和关键,本文正是基于此提出了一种Spark性能预测模型.文中选取作业执行时间作为Spark性能衡量指标,提出了Spark作业关键阶段的概念,通过运行小批量数据集来获取关键阶段的运行时间和作业输入数据量之间关系,从而构建了Spark性能预测模型.实验结果表明该模型较为有效. Spark is widely used as a computing platform for large data processing, reasonable allocation of cluster resources plays an important role in the operation of Spark performance optimization. The performance prediction is the basis and key of cluster resource allocation optimization, thus we put forward a Spark performance prediction model in this paper. This paper selects the job execution time as a measure indicator of Spark performance, and put forward the concept of key Stage of Spark job. Finally, we built the model by analyzing relationships between the key Stages and the amount of input data through running a small quantity of data. The experimental results show that the model is effective

作者葛庆宝陶耀东高岑田月孟祥茹 GE Qing-Bao;TAO Yao-Dong;GAO Cen;TIAN Yue;MENG Xiang-Ru(University of Chinese Academy of Sciences, Beijing 100049, China;Shenyang Institute of Computing Technology, Chinese Academy of Sciences, Shenyang 110168, China)

机构地区中国科学院大学中国科学院沈阳计算技术研究所

出处《计算机系统应用》 2018年第8期232-236,共5页 Computer Systems & Applications

关键词 SPARK 资源分配性能预测关键阶段 Spark resource allocation performance prediction key stages

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1李振举,李学军,刘涛,杨晟.MapReduce性能预测模型构建[J].计算机技术与发展,2016,26(1):70-73. 被引量：1
2周世龙,陈兴蜀,罗永刚.基于灰盒模型的Hadoop MapReduce job参数性能分析与预测[J].四川大学学报（工程科学版）,2014,46(S1):146-154. 被引量：6
3陈侨安,李峰,曹越,龙明盛.基于运行数据分析的Spark任务参数优化[J].计算机工程与科学,2016,38(1):11-19. 被引量：22
4詹剑锋,高婉铃,王磊,李经伟,魏凯,罗纯杰,韩锐,田昕晖,姜春宇.BigDataBench:开源的大数据系统评测基准[J].计算机学报,2016,39(1):196-211. 被引量：34

二级参考文献86

1Hailong Yang,Zhongzhi Luan,Wenjun Li,Depei Qian.MapReduce Workload Modeling with Statistical Approach[J].Journal of Grid Computing.2012(2) 被引量：2
2Paul Barham,Boris Dragovic,Keir Fraser,Steven Hand,Tim Harris,Alex Ho,Rolf Neugebauer,Ian Pratt,Andrew Warfield.Xen and the art of virtualization[J].ACM SIGOPS Operating Systems Review.2003(5) 被引量：6
3Rizvandi N B,Taheri J,Moraveji R,et al.On modelling and prediction of total CPU usage for applications in mapreduce environments[].Algorithms and Architectures for Parallel Processing.2012 被引量：1
4Herodotou H,Dong F,Babu S.MapReduce programming and cost-based optimization? Crossingthis chasm with Starfish[].Proceedings of the VLDB Endowment.2011 被引量：1
5Babu S.Towards automatic optimization of MapReduce programs[].Proceedings of thest ACM symposium on Cloud computing.2010 被引量：1
6Intel.Optimizing Hadoop*deployments[]..2010 被引量：1
7Impetus Technologies Inc.Hadoop performance tuning[]..2010 被引量：1
8KA V S,TAN J,GANDHI J,et al.An Analysis of Traces from a Production MapReduce Cluster[].thIEEE/ACM International Conference on ClusterCloud and Grid Computing.2010 被引量：1
9Oracle Corporation.A dynamic instrumentation tool for Java. http://kenai.com/projects/btrace . 2013 被引量：1
10O’’Malley O.TeraByte sort on Apache Hadoop. http://sortbenchmark.org/YahooHadoop.pdf . 2008 被引量：1

共引文献57

1林子孟,葛欣竹,曹若麟.面向电信应急系统的Spark性能预测与参数调优方法探究[J].电信快报,2020(12):26-30. 被引量：2
2李莉华,冯志强,冉兵,赵春玲,张春来,盘强文,邬丽莎.缺血预处理减轻兔肾缺血再灌流损伤的研究[J].中国病理生理杂志,2000,16(5):461-461. 被引量：2
3罗永刚,陈兴蜀,王煜骢.基于垃圾回收的MapReduce作业内存调优[J].四川大学学报（工程科学版）,2015,47(6):104-112. 被引量：2
4杨宇,王蓉,王志军.大数据技术总结和标准化工作研究进展[J].电信网技术,2016(4):7-12. 被引量：5
5苏楠.基于知识图谱的国内外大数据比较研究[J].中国科技论坛,2016(7):142-147. 被引量：7
6亢华爱.面向机器学习的通信网络大数据相关性分析算法研究[J].激光杂志,2016,37(8):145-148. 被引量：4
7赵军,徐晓燕.基于GraphX的分布式幂迭代聚类[J].计算机应用,2016,36(10):2710-2714. 被引量：3
8尤元建,吴洪学.Hadoop性能测试自动化研究[J].软件导刊,2016,15(12):16-18. 被引量：3
9谭双权,何明星,曾晟珂,石坤.基于CF(p^n)的CCA安全ElGamal加密体制[J].西华大学学报（自然科学版）,2017,36(1):12-16.
10彭展,李密,惠军华,杨楠,郑寇全.大数据中心集群异构网络基准性能测试方法[J].电信快报（网络与通信）,2017(3):15-19. 被引量：2

同被引文献8

1易会战,王锋,左克,杨灿群,杜云飞,马亚青.基于内存缓存的异步检查点容错技术[J].计算机研究与发展,2014,51(6):1229-1239. 被引量：8
2陈侨安,李峰,曹越,龙明盛.基于运行数据分析的Spark任务参数优化[J].计算机工程与科学,2016,38(1):11-19. 被引量：22
3卞琛,于炯,英昌甜,修位蓉.并行计算框架Spark的自适应缓存管理策略[J].电子学报,2017,45(2):278-284. 被引量：19
4廖湖声,黄珊珊,徐俊刚,刘仁峰.Spark性能优化技术研究综述[J].计算机科学,2018,45(7):7-15. 被引量：23
5刘恒,谭良.并行计算框架Spark中一种新的RDD分区权重缓存替换算法[J].小型微型计算机系统,2018,39(10):2279-2284. 被引量：8
6廖旺坚,黄永峰,包从开.Spark并行计算框架的内存优化[J].计算机工程与科学,2018,40(4):587-593. 被引量：10
7赵俊先,喻剑.基于RDD非序列化本地存储的Spark存储性能优化[J].计算机科学,2019,46(5):143-149. 被引量：5
8阮树骅,潘梵梵,陈兴蜀,罗永刚,吴天雄.一种Spark作业配置参数智能优化方法[J].工程科学与技术,2020,52(1):191-197. 被引量：5

引证文献2

1崔晓龙,张敏,刘祥,郭茜.Spark作业性能建模及参数优化[J].实验技术与管理,2021,38(3):146-152. 被引量：3
2宋一鑫,于俊洋,何欣,王锦江.Spark效用感知的检查点缓存并行清理策略[J].计算机系统应用,2022,31(4):253-259.

二级引证文献3

1刘露,申国伟,郭春,崔允贺,蒋朝惠,伍大勇.一种基于深度强化学习的Spark Streaming参数优化方法[J].计算机与现代化,2021(10):49-56. 被引量：1
2崔晓龙,刘欣,张磊,何杰,王建萍,张敏.面向工业大数据应用的计算机实践课程设计[J].实验室研究与探索,2022,41(1):169-174. 被引量：2
3李石磊,常晟,邵嘉兴,杨红千.基于GIS的智慧供热平台关键技术设计与实现[J].地理空间信息,2023,21(10):49-53. 被引量：2

1杜宏伟,朱小青,张恺,朱耀庭.碳纤维发热桥面融雪化冰性能预测模型[J].公路交通科技（应用技术版）,2017,13(10):183-186. 被引量：2
2刘杰.盾构机部件状态监测与性能预测[J].隧道与轨道交通,2018,0(1):39-41. 被引量：2
3汪登,孙耀杰.光伏发电系统预测研究进展[J].太阳能,2018,0(7):23-26. 被引量：2
4李鑫.《远大前程》中匹普性格发展的三个阶段分析[J].东方藏品,2017,0(3):172-172.
5文,旭.优化高中音乐课堂教学策略[J].东西南北（教育）,2018(14):378-378.
6陈志刚.关于酒店会计核算的几点思考[J].中国集体经济,2018(21):110-111. 被引量：1
7罗小波,王超.考虑服务质量的并行MapReduce启发式车载云资源调度[J].计算机工程,2017,43(12):30-37. 被引量：2
8严其艳.基于LS-SVM的涡轮增压发动机性能预测[J].测控技术,2018,37(5):33-36. 被引量：2
9宋驰.“地沟油”现象发展的不同阶段与应对方法[J].绿色科技,2018,20(14):164-166. 被引量：2
10刘萍.基于Hadoop与Spark的大数据处理平台的构建研究[J].通化师范学院学报,2018,39(6):83-88. 被引量：10

计算机系统应用

2018年第8期

浏览历史

内容加载中请稍等...

基于关键阶段分析的Spark性能预测模型被引量：2

参考文献4

二级参考文献86

共引文献57

同被引文献8

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于关键阶段分析的Spark性能预测模型 被引量：2

参考文献4

二级参考文献86

共引文献57

同被引文献8

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于关键阶段分析的Spark性能预测模型被引量：2