MapReduce:新型的分布式并行计算编程模型被引量：111

MapReduce:a New Programming Model for Distributed Parallel Computing

下载PDF

导出

摘要 MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干个Reduce任务合并这些中间文件获得最后的输出文件。用户在使用MapReduce模型进行大规模数据处理时,可以将主要精力放在如何编写Map和Reduce函数上,其它并行计算中的复杂问题诸如分布式文件系统、工作调度、容错、机器间通信等都交给MapReduce系统处理,在很大程度上降低了整个编程难度。MapReduce日益成为云计算平台的主流编程模型。Apache Hadoop项目提供开源的MapReduce系统还有待进一步完善。 MapReduce is a programming model introduced by Google for writing applications that rapidly process vast amounts of data in parallel on large clusters of computing nodes. The model is inspired by map and reduce functions commonly used in functional programming. A Map/Reduce job usually splits the input data-set into independent chunks which are processed by the map tasks in a completely parallel manner. The reduce tasks merge all intermediate values generated by the map tasks. Users only devote themselves to how to specify the map functions and reduce functions. The details of partitioning the input data, scheduling the program＇s execution across a set of machines, handling machine failures, and managing the required inter-machine communication are taken care of by the run-time system of MapReduce. MapReduce will be widely adopted on the cloud computing platform. Several aspects of the Hadoop MapReduce contributed by Apache remain to be perfected.

作者李成华张新访金海向文

机构地区华中科技大学计算机科学与技术学院

出处《计算机工程与科学》 CSCD 北大核心 2011年第3期129-135,共7页 Computer Engineering & Science

关键词 MAPREDUCE 并行计算编程模型云计算 MapReduce distributed parallel computing cloud computing

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1杨代庆,张智雄.基于Hadoop的海量共现矩阵生成方法[J].现代图书情报技术,2009(4):23-26. 被引量：13
2郑启龙,房明,汪胜,王向前,吴晓伟,王昊.基于MapReduce模型的并行科学计算[J].微电子学与计算机,2009,26(8):13-17. 被引量：39
3郑启龙,王昊,吴晓伟,房明.HPMR：多核集群上的高性能计算支撑平台[J].微电子学与计算机,2008,25(9):21-23. 被引量：11
4陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：931
5吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J].现代图书情报技术,2007(8):52-55. 被引量：9
6陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1311
7孙广中,肖锋,熊曦.MapReduce模型的调度及容错机制研究[J].微电子学与计算机,2007,24(9):178-180. 被引量：26
8周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14

二级参考文献91

1董华山,孙济庆.基于P2P的分布式检索模式的研究[J].情报学报,2004,23(6):683-688. 被引量：7
2姚树宇,赵少东.一种使用分布式技术的搜索引擎[J].计算机应用与软件,2005,22(10):127-129. 被引量：7
3蒋建洪.主要分布式搜索引擎技术的研究[J].科学技术与工程,2007,7(10):2418-2424. 被引量：10
4Sims K. IBM introduces ready-to-use cloud computing collaboration services get clients started with cloud computing. 2007. http://www-03.ibm.com/press/us/en/pressrelease/22613.wss 被引量：1
5Boss G, Malladi P, Quan D, Legregni L, Hall H. Cloud computing. IBM White Paper, 2007. http://download.boulder.ibm.com/ ibmdl/pub/software/dw/wes/hipods/Cloud_computing_wp_final_8Oct.pdf 被引量：1
6Zhang YX, Zhou YZ. 4VP+: A novel meta OS approach for streaming programs in ubiquitous computing. In: Proc. of IEEE the 21st Int'l Conf. on Advanced Information Networking and Applications (AINA 2007). Los Alamitos: IEEE Computer Society, 2007. 394-403. 被引量：1
7Zhang YX, Zhou YZ. Transparent Computing: A new paradigm for pervasive computing. In: Ma JH, Jin H, Yang LT, Tsai JJP, eds. Proc. of the 3rd Int'l Conf. on Ubiquitous Intelligence and Computing (UIC 2006). Berlin, Heidelberg: Springer-Verlag, 2006. 1-11. 被引量：1
8Barroso LA, Dean J, Holzle U. Web search for a planet: The Google cluster architecture. IEEE Micro, 2003,23(2):22-28. 被引量：1
9Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine. Computer Networks, 1998,30(1-7): 107-117. 被引量：1
10Ghemawat S, Gobioff H, Leung ST. The Google file system. In: Proc. of the 19th ACM Symp. on Operating Systems Principles. New York: ACM Press, 2003.29-43. 被引量：1

共引文献2157

1查伟,孙燕琼,郑继平.基于云测试架构的FIVP解决方案[J].铁路技术创新,2021(S01):82-86.
2林少伟.人工智能法律主体资格实现路径:以商事主体为视角[J].中国政法大学学报,2021(3):165-177. 被引量：5
3胡祖林,肇杰.云计算下的网盘安全[J].计算机产品与流通,2020,0(1):164-164.
4张盛,任伟,王玉,黄金明,陈旭彤.基于Web的重力异常正演建模工具[J].地质论评,2023,69(S01):595-597.
5赵文韬.基于5G技术的黑龙江云计算产业发展[J].电子技术（上海）,2020,49(9):186-187.
6宋东翔,马伽洛伦,王怡然,袁铭举.基于云原生和区块链的高校智能人事系统的研究[J].新一代信息技术,2022,5(6):67-70.
7Longfei He,Mei Xue,Bin Gu.Internet-of-things enabled supply chain planning and coordination with big data services:Certain theoretic implications[J].Journal of Management Science and Engineering,2020,5(1):1-22. 被引量：6
8曾理,王以群.Hadoop集群和单机数据处理的耗时对比实验[J].硅谷,2009,2(19):55-56. 被引量：9
9王娟,沈小平,叶萌.云计算在医疗卫生职业教育信息化发展中的应用探索[J].微型电脑应用,2011(3):42-44. 被引量：5
10吴劲松,陈孚.云计算发展及应用研究[J].广西通信技术,2011(2):9-13. 被引量：5

同被引文献965

1无.关于印发公立医院高质量发展促进行动(2021—2025年)的通知(国卫医发[2021]27号)[J].中华人民共和国国家卫生健康委员会公报,2021(9):2-5. 被引量：22
2张妍,许云峰,张立全.基于云计算的中文分词研究[J].河北科技大学学报,2012,33(3):266-269. 被引量：5
3崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
4刘正伟,文中领,张海涛.云计算和云数据管理技术[J].计算机研究与发展,2012,49(S1):26-31. 被引量：170
5段玉兵,龚宇雷,谭兴国,王辉,李庆民.基于蒙特卡罗模拟的微电网随机潮流计算方法[J].电工技术学报,2011,26(S1):274-278. 被引量：33
6刘义,陈荦,景宁,刘露.海量空间数据的并行Top-k连接查询[J].计算机研究与发展,2011,48(S3):163-172. 被引量：7
7蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
8江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
9高殊丽.基于MapReduce框架的网页并行去重算法研究[J].黑龙江科学,2010,1(5):13-18. 被引量：1
10周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14

引证文献111

1孙骎童.关于集群虚拟机资源调度专利申请分析[J].军民两用技术与产品,2018,0(16):198-198.
2李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
3江小平,李成华,向文,张新访.云计算环境下朴素贝叶斯文本分类算法的实现[J].计算机应用,2011,31(9):2551-2554. 被引量：21
4李绍松,尹栋,慕德俊,戴冠中.基于FPGA可扩展的Mapreduce架构设计与实现[J].计算机技术与发展,2012,22(2):103-106. 被引量：1
5吴琪.基于云计算的Apriori挖掘算法[J].计算机测量与控制,2012,20(6):1653-1655. 被引量：6
6高飞,张琦,李泽强.基于云计算技术的影视节目版权交易云平台的构建[J].广播与电视技术,2012,39(7):35-38. 被引量：3
7朱蔷蔷,张桂芸,刘文龙.基于Hadoop平台上面向电影数据集Kmeans算法的改进[J].哈尔滨师范大学自然科学学报,2012,28(1):32-36. 被引量：2
8贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013,23(2):69-72. 被引量：97
9赵曦.一种基于云计算架构的业务流程优化研究[J].微电子学与计算机,2013,30(3):160-164.
10张岩,郭松,赵国海.基于Hadoop的云计算试验平台搭建研究[J].沈阳师范大学学报（自然科学版）,2013,31(1):85-89. 被引量：14

二级引证文献1166

1罗澍忻,麻敏华,蒋林,靳冰洁,林勇,刁旭昊,黎灿兵,杨波.考虑多时间尺度数据的中长期负荷预测方法[J].中国电机工程学报,2020,40(S01):11-19. 被引量：40
2冯世腾.安全生产行政处罚案卷的深化利用研究[J].中国应急管理科学,2024(4):95-104.
3魏炳华.大数据视角下互联网金融发展的机遇与挑战探讨[J].时代金融,2020(24):5-6.
4张建盛,牟健君.基于云原生的东西向流量攻击检测方案研究[J].信息网络安全,2020(S01):115-118.
5李卫东,覃亚林.数字组织网络安全的威胁分析和保障机制[J].新媒体与社会,2023(2):203-216. 被引量：1
6程啸.区块链技术视野下的数据权属问题[J].现代法学,2020,42(2):121-132. 被引量：50
7王静.醒悟、合作与转型:在线政务服务视角下档案部门数据管理职能回归[J].山西档案,2022(1):71-80. 被引量：5
8张冬.大数据技术在科技部门档案管理中的应用[J].兰台世界,2020(S02):66-67. 被引量：2
9蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：84
10徐拥军.大数据时代国家治理中的文化生产与文化整合[J].求索,2021(3):126-134. 被引量：15

1肖大薇,唐琳,王颖.分布式存储系统中基于MPI的并行计算编程模型[J].价值工程,2012,31(36):199-200.
2王志丹.基于云计算的属性重要度约简算法研究[J].洛阳师范学院学报,2014,33(8):64-66.
3钱进,苗夺谦,张泽华,张志飞.MapReduce框架下并行知识约简算法模型研究[J].计算机科学与探索,2013,7(1):35-45. 被引量：17
4何佩佩,谢颖华.云环境下K-means算法的并行化[J].微型机与应用,2015,34(24):25-27. 被引量：1
5周国军,梁燕红,唐微.AprioriTid算法的MapReduce并行化实现[J].微型机与应用,2015,34(24):22-24.
6王志丹.云环境下基于二进制编码的Apriori改进算法[J].中原工学院学报,2014,25(6):69-71.
7王睿.基于MapReduce的并行KNN分类算法研究[J].计算机与数字工程,2013,41(11):1738-1740. 被引量：3
8沈嘉.移动通信网络和传感器网络的融合[J].现代电信科技,2008,38(11):30-35. 被引量：4
9富士施乐推出全新软件[J].数字通信世界,2010(7):89-89.
10刘君瑞,陈颖图,樊晓桠.一种支持任务合并的交换网络实时调度策略[J].计算机科学,2011,38(1):122-124.

计算机工程与科学

2011年第3期

浏览历史

内容加载中请稍等...

MapReduce:新型的分布式并行计算编程模型被引量：111

参考文献8

二级参考文献91

共引文献2157

同被引文献965

引证文献111

二级引证文献1166

相关作者

相关机构

相关主题

浏览历史

MapReduce:新型的分布式并行计算编程模型 被引量：111

参考文献8

二级参考文献91

共引文献2157

同被引文献965

引证文献111

二级引证文献1166

相关作者

相关机构

相关主题

浏览历史

MapReduce:新型的分布式并行计算编程模型被引量：111