MapReduce与Spark用于大数据分析之比较被引量：75

Comparative Study on MapReduce and Spark for Big Data Analytics

下载PDF

导出

摘要评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面的性能要优于Spark;而在处理迭代问题和一些低延迟问题时,Spark可以根据数据之间的依赖关系对任务进行更合理的划分,相较于MapReduce,有效地减少了中间数据传输数量与同步次数,提高了系统的运行效率. This paper reviews two state-of-the-art algorithmic architectures, MapReduce and Spark, and compares them from their backgrounds, principles and application scenarios. The advantages and their corresponding limitations of these two algorithms are summarized. When dealing with non-iterative problems, MapReduce, by virtue of its task scheduling strategy and shuffle mechanisms, performs better than Spark in terms of intermediate data transfers and number of files. Spark can be used to deal with iterative problems and low latency issues, as it divides a computing task according to the dependencies between the data and the task. Compared with MapReduce, Spark can effectively reduce the number of intermediate data transmissions and the number of synchronizations, and improve the running efficiency of computing systems.

作者吴信东嵇圣硙 WU Xin-Dong;JI Sheng-Wei(School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230009, China;School of Computing and Informatics, University of Louisiana at Lafayette, Lafayette 70504, USA)

机构地区合肥工业大学计算机与信息学院 School of Computing and Informatics

出处《软件学报》 EI CSCD 北大核心 2018年第6期1770-1791,共22页 Journal of Software

基金国家重点研发计划(2016YFB1000901) 国家自然科学基金(91746209) 教育部创新团队项目(IRT17R3)~~

关键词大数据 MAPREDUCE SPARK 迭代问题非迭代问题 big data MapReduce Spark iterative problems non-iterative problems

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1宋杰,孙宗哲,毛克明,鲍玉斌,于戈.MapReduce大数据处理平台与算法研究进展[J].软件学报,2017,28(3):514-543. 被引量：96

二级参考文献6

1韩希先,杨东华,李建中.海量数据上的近似连接聚集操作[J].计算机学报,2010,33(10):1919-1933. 被引量：3
2于戈,谷峪,鲍玉斌,王志刚.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,34(10):1753-1767. 被引量：98
3丁琳琳,信俊昌,王国仁,黄山.基于Map-Reduce的海量数据高效Skyline查询处理[J].计算机学报,2011,34(10):1785-1796. 被引量：44
4吴冷冬,袁立言,犹嘉槐.Survey of Large-Scale Data Management Systems for Big Data Applications[J].Journal of Computer Science & Technology,2015,30(1):163-183. 被引量：4
5杨东华,李宁宁,王宏志,李建中,高宏.基于任务合并的并行大数据清洗过程优化[J].计算机学报,2016,39(1):97-108. 被引量：47
6宋杰,郭朝鹏,张一川,张岩峰,于戈.增量式迭代计算模型研究与实现[J].计算机学报,2016,39(1):109-125. 被引量：8

共引文献95

1陈鹏.治理的算法和算法的治理[J].观察与思考,2020,0(1):95-104. 被引量：11
2赵铁柱,董辉,林玉文,袁华强.大数据技术在轨道交通领域中的研究和挑战[J].东莞理工学院学报,2019,26(1):28-32. 被引量：9
3余传明,原赛,王峰,安璐.大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源[J].图书情报工作,2019,63(4):101-111. 被引量：13
4门威.基于MapReduce的大数据处理算法综述[J].濮阳职业技术学院学报,2017,30(5):85-88. 被引量：2
5门威.基于MapReduce的大数据处理算法综述[J].吉林广播电视大学学报,2017(9):48-50.
6林宗缪,郭先超,裴雨清,唐浩,姚文勇.基于Spark的网络日志分析平台研究与设计[J].自动化与仪器仪表,2017(11):157-159. 被引量：3
7陈丽娟,谢伙生.带负项值的on-shelf效用项集并行挖掘算法[J].计算机与现代化,2018(4):13-16.
8刘萍.基于Hadoop与Spark的大数据处理平台的构建研究[J].通化师范学院学报,2018,39(6):83-88. 被引量：9
9代明竹,高嵩峰.基于Hadoop、Spark及Flink大规模数据分析的性能评价[J].中国电子科学研究院学报,2018,13(2):149-155. 被引量：27
10阳小兰,钱程,朱福喜.基于云计算的大数据服务资源评价方法[J].计算机科学,2018,45(5):295-299. 被引量：14

同被引文献688

1马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：10
2宋云奎,吴文鹏,赵磊,莫剑峰,黄俊涛.基于Redis的分布式数据存储方法[J].计算机产品与流通,2020,0(8):106-106. 被引量：12
3杨丽君.基于大数据技术的高校教育改革质量评价[J].计算机产品与流通,2020,9(5):198-198. 被引量：4
4江永渡,程德生,赵志武,王梨,江峰.基于Spark框架的大数据计算平台[J].网络安全技术与应用,2020,0(3):65-66. 被引量：3
5于建涛,刘圣东,赖灵伟,吕同轩,王嘉浩,高小雨,惠毅翔,侯君瑶,殷童,郭茂祖.基于Spark的转录组大数据并行处理方法[J].计算机应用研究,2020,37(S02):176-180. 被引量：2
6张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
7王璇,杜宇超,杜军,邹军.基于动态矩阵分解模型的电影推荐系统研究[J].电子器件,2022,45(2):483-489. 被引量：3
8王玉.Spark大数据处理平台的构建及应用[J].大众标准化,2019,0(18):28-29. 被引量：2
9张连营,周爻,陈磊.电子政务云数据安全技术方案设计[J].电信科学,2020,36(S01):81-88. 被引量：6
10周涛,程学旗,陈宝权.CCF大专委2020年大数据发展趋势预测[J].大数据,2020,6(1):119-123. 被引量：4

引证文献75

1周晓,马圣杰.基于集成学习的转子部件脱落故障诊断方法[J].数字制造科学,2022(1):16-22.
2王瑞玺,尚东方,鲍可馨.基于大数据的海港船舶疫情风险防控平台设计与实现[J].中国水运（下半月）,2022,22(8):42-44. 被引量：1
3孙如飞,张焱,陈瑞祥,孙飞飞,陈龙赞.流处理技术在水利物联网领域的应用[J].人民黄河,2021,43(S02):264-267. 被引量：1
4危前进,魏继鹏,古天龙,常亮,文益民.粗糙集多目标并行属性约简算法[J].软件学报,2022,33(7):2599-2617. 被引量：2
5徐霞军,秦绪涛,杨强,朱云飞.大数据技术在核电设备缺陷分析中的初步应用[J].核动力工程,2020,41(S01):68-72. 被引量：6
6邬阳阳,汤建国.大数据背景下粗糙集属性约简研究进展[J].计算机工程与应用,2019,55(6):31-38. 被引量：27
7刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
8龚永罡,田润琳,廉小亲,夏天.基于MapReduce的三元N-gram算法的并行化研究[J].电子技术应用,2019,45(5):70-73. 被引量：5
9黄哲学,何玉林,魏丞昊,张晓亮.大数据随机样本划分模型及相关分析计算技术[J].数据采集与处理,2019,34(3):373-385. 被引量：16
10杨杰超,许江淳,岳秋燕,曾德斌,陆万荣.基于SPARK与随机森林的短信诈骗用户识别研究[J].计算机工程与科学,2019,41(6):1136-1144. 被引量：12

二级引证文献438

1许有准.统一社会信用代码数据管理模式研究——以厦门市为例[J].中国标准化,2021(7):42-45.
2陶歆,黄华,曾理,石晶.数据中台在柳钢的集成与应用[J].冶金自动化,2023,47(S01):41-45.
3程蓓,李小洁.高校科研成果数据处理流程及质量控制探讨[J].图书馆杂志,2020,39(1):48-55. 被引量：4
4孙如飞,张焱,陈瑞祥,孙飞飞,陈龙赞.流处理技术在水利物联网领域的应用[J].人民黄河,2021,43(S02):264-267. 被引量：1
5郭鹏飞,李海霞,常海艳,白柯鑫,张煜.基于大数据的海上目标隐性关联规则挖掘方法[J].网络安全与数据治理,2023,42(S01):71-77. 被引量：1
6温亮,李丹宁.基于EtherNet/IP的井工煤矿数据治理研究[J].煤炭科学技术,2022,50(S01):227-232. 被引量：6
7杜博,李伟,党昊.亿吨能源矿区数据治理的研究与应用[J].煤炭科学技术,2022,50(S01):277-282.
8崔杰,张宁,王文晶,郑莹莹,甄维鹏.我国能源及煤炭工业发展趋势分析及展望[J].煤炭经济研究,2023,43(12):50-55.
9梅傲.数据治理的逻辑基础和实现路径[J].经济法论丛,2023(2):309-325. 被引量：1
10周志成,李艺谋,杜宪华,吴文豪.高校智慧校园数据治理的研究与应用[J].吉林化工学院学报,2023,40(11):84-88. 被引量：1

1陈军.分布式平台等值连接优化技术分析[J].现代计算机,2018,24(5):90-92.
2王华进,黎建辉,沈志宏,周园春.基于ORC元数据的Hive Join查询Reducer负载均衡方法[J].计算机科学,2018,45(3):158-164. 被引量：3
3曹云鹏,王海峰.面向MapReduce计算模式的中间数据通信优化[J].计算机应用,2018,38(4):1078-1083. 被引量：3

软件学报

2018年第6期

浏览历史

内容加载中请稍等...

MapReduce与Spark用于大数据分析之比较被引量：75

参考文献1

二级参考文献6

共引文献95

同被引文献688

引证文献75

二级引证文献438

相关作者

相关机构

相关主题

浏览历史

MapReduce与Spark用于大数据分析之比较 被引量：75

参考文献1

二级参考文献6

共引文献95

同被引文献688

引证文献75

二级引证文献438

相关作者

相关机构

相关主题

浏览历史

MapReduce与Spark用于大数据分析之比较被引量：75