Hadoop-MapReduce下的PageRank矩阵分块算法被引量：13

PageRank Matrix Partitioned Algorithm Using Hadoop-MapReduce

下载PDF

导出

摘要 PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销。最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能。结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PageRank标识网页等级显示其优越性。 PageRank is the classical algorithm of Web structure mining,already has been a huge success in Google search engine.But the more iterative times,the more space-time consumption,execution speed and convergence speed are slower.Put forward a kind of parallel MapReduce framework,realize matrix partition using PageRank algorithm,as a matter of fact substance is the iterations of reducing MapReduce frame structure in Map and Reduce phase,thus reducing space-time overhead.Finally build Hadoop-MapReduce open-source platform,simulate Web structure climb taking,the performance in traditional algorithm and improved algorithm is compared.Results show the improved algorithm has lower iteration times,higher parallel efficiency,using PageRank identification shows its superiority in the simulation environment.

作者李远方邓世昆闻玉彪韩月阳

机构地区云南大学信息学院

出处《计算机技术与发展》 2011年第8期6-9,13,共5页 Computer Technology and Development

基金云南省自然科学基金(2007F174M) 云南大学研究生科研课题资助项目(ynny200928)

关键词 PAGERANK MAPREDUCE HADOOP 矩阵分块 PageRank MapReduce Hadoop partitioned matrix

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1焦金涛.基于PageRank的Web挖掘改进算法[J].计算机工程,2009,35(15):284-284. 被引量：10
2胡彧,封俊.Hadoop下的分布式搜索引擎[J].计算机系统应用,2010,19(7):224-228. 被引量：15
3Dean J, Ghemawat S. MapReduce: Simplied Data Proessing on Large Clusters[ C] JJProceedings oi the 6th Conference on Symposium on Operating Systems Design & Implementation. [ s. 1. ] : USENIX Association, 2004. 被引量：1
4Catanzaro B C, Sundaram N, Keutzer K. A Map Reduce Framework for Programming Graphics Processors [ C ]//Work- shop on Software Tools for MultiCore. [s. l. ]: Is. n. ] ,2006. 被引量：1
5Ranger C, Raghuraman R, Penmetsa A, et al. Evaluating MapReduce for Multi-core and Multi processor Systems [ C ]//HPCA. [s. l. ] :[s. n. ] ,2007:13-24. 被引量：1
6郑启龙,房明,汪胜,王向前,吴晓伟,王昊.基于MapReduce模型的并行科学计算[J].微电子学与计算机,2009,26(8):13-17. 被引量：39
7史佩昌,王怀民,蒋杰,卢凯.面向云计算的网络化平台研究与实现[J].计算机工程与科学,2009,31(A01):249-252. 被引量：57
8Sarje A, Aluru S. A MapReduce Style Framework for Trees [R]. [ s. 1. ]:Department of Electrical and Computer Engineering, 2008 : 17-18. 被引量：1
9Hadoop. The Apache Software Foundation[ EB/OL]. 2010. http://hadoop, apache, org/core. 被引量：1
10Bialecki A, Cafarella M, Cutting D, et al. Hadoop : a framework for running applications on large clusters built of commodity hardware [ EB/OL ]. 2005. http://lucene, apache. org/hadoop. 被引量：1

二级参考文献36

1李盛恩,王珊.封闭数据立方体技术研究[J].软件学报,2004,15(8):1165-1171. 被引量：25
2张蓉.Web挖掘技术研究[J].计算机工程,2006,32(15):4-6. 被引量：21
3卢锡城,王怀民,王戟.虚拟计算环境iVCE:概念与体系结构[J].中国科学（E辑）,2006,36(10):1081-1099. 被引量：37
4Gray J, Chaudhuri S, Bosworth A, et al. Data cube : a relational aggregation operator generalizing group-by, crosstab, and sub-totals [ J]. Data Mining and Knowledge Discovery, 1997,1 ( 1 ) :29-53. 被引量：1
5Lakshmanan L V S, Pei J, Han J W. Quotient cubes:how to summarize the semantics of a data cube [ C ]//Proceedings of the 28th International Conference .on Very Large Data Bases. Hong Kong: [ s. n. ] ,2002:778-789. 被引量：1
6Lakshmanan L V S, Pei J, Zhao Y. QC-trees:an efficient summary structure for semantic OLAP [ C ]//Proceedings of ACM SIGMOD International Conference on Management of Data. San Diego:ACM,2003:64-75. 被引量：1
7Beyer K, Ramakrishnan R. Bottom-up computation of sparse and iceberg CUBEs [C] //Proceedings of ACM SIGMOD International Conference on Management of Data. New York:ACM, 1999:359-370. 被引量：1
8Xin D,Shao Z,Han J W,et al. C-Cubing:efficient computation of closed cubes by aggregation-based checking [ C ]// Proceedings of the 22nd International Conference on Data Engineering. Atlanta : IEEE, 2006:4 -4. 被引量：1
9Chen Y, Dehne F, Eavis T. Parallel ROLAP data cube construction on shared-nothing muhiprocessors [ J ]. Distributed and Parallel Databases ,2004,15 ( 3 ) :219-236. 被引量：1
10Sarawagi S, Agrawal R, Gupta A. On computing the data cube [R]. San Jose: IBM Almaden Research Center, 1996. 被引量：1

共引文献139

1曾理,王以群.Hadoop集群和单机数据处理的耗时对比实验[J].硅谷,2009,2(19):55-56. 被引量：9
2杨喆,陈锋.使用MapReduce编程模型进行大规模FCD并行处理[J].电子技术（上海）,2010(9):17-19. 被引量：3
3牟雁超,李红燕,王腾蛟.PHCC:一种处理稀疏变化的封闭数据立方体算法[J].计算机研究与发展,2013,50(S2):85-93. 被引量：2
4施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
5陈欢欢,刘宴兵.基于自适应调度的网格容错机制研究[J].微电子学与计算机,2010,27(2):145-148. 被引量：1
6余宗泽.云计算的基本原理及其对教育领域的影响[J].中国教育技术装备,2010(9):93-94. 被引量：17
7多雪松,张晶,高强.基于Hadoop的海量数据管理系统[J].微计算机信息,2010,26(13):202-204. 被引量：27
8钟智.基于云架构的FTP服务安全性研究[J].长春大学学报,2010,20(6):75-76.
9王平.基于云计算的信息资源增值利用模型构建[J].情报杂志,2010,29(7):144-148. 被引量：11
10胡光民,周亮,柯立新.基于Hadoop的网络日志分析系统研究[J].电脑知识与技术,2010,6(8):6163-6164. 被引量：17

同被引文献152

1吕明育,李小勇.NoSQL数据库与关系数据库的比较分析[J].微型电脑应用,2011(10):55-58. 被引量：21
2任年海.一个有效的并行模型——BSP并行模型[J].计算机与现代化,2006(3):34-36. 被引量：3
3Han Jiawei,Kamber Micheline,范明,孟小峰,等译.数据挖掘概念与技术[M].北京:机械工业出版社,2007:424-479. 被引量：43
4WHITET.Hadoop权威指南[M].北京:清华大学出版社.2010.5. 被引量：16
5王小平曹立明.遗传算法[M].西安：西安交通大学出版社,2002.. 被引量：107
6丁辉,张大华,罗志明.基于Hadoop的海量数据处理平台研究[C]//2011电力通信管理暨智能电网通信技术论坛论文集.出版地不祥:出版者不详,2011. 被引量：1
7Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters [ J ]. Communications of the ACM, 2008,51 (1) :107-113. 被引量：1
8夏袜.Hadoop平台下的作业调度算法研究与改进[D].广州:华南理工大学,2010. 被引量：2
9Holland J H. Adaptation in Natural and Artificial System[ M].Ann Arbor, MI : University of Michigan Press, 1975. 被引量：1
10Jin C, Vecchiola C, Buyya R. Mrpga : An extension of mapre- duce for parallelizing genetic algorithms [ C ]//IEEE Fourth International Conference on eScience. [ s. 1.] : [ s. n. ] ,2008: 214-221. 被引量：1

引证文献13

1张媛.基于Hadoop云平台的数据传输保护研究[J].兰州文理学院学报（自然科学版）,2013,27(5):82-84.
2舒琰,向阳,张骐,张熊熊,张君瑛.基于PageRank的微博排名MapReduce算法研究[J].计算机技术与发展,2013,23(2):73-76. 被引量：11
3徐肖,胡吉明.一种Hadoop中基于改进遗传算法的作业调度算法[J].计算机技术与发展,2013,23(3):10-13. 被引量：4
4周婷,张君瑛,罗成.基于Hadoop的K-means聚类算法的实现[J].计算机技术与发展,2013,23(7):18-21. 被引量：24
5何杭锋.基于FODO算法MongoDB自动分片的改进[J].计算机技术与发展,2013,23(7):127-130. 被引量：9
6樊同科,谢勇.一种混合搜索算法在智能Web中的应用[J].计算机技术与发展,2013,23(8):220-222. 被引量：1
7刘高军,王帝澳.基于Redis的海量小文件分布式存储方法研究[J].计算机工程与科学,2013,35(10):58-64. 被引量：22
8张永,尹传晔,吴崇正.基于MapReduce的PageRank算法优化研究[J].计算机应用研究,2014,31(2):431-434. 被引量：5
9王彦明.近年来Hadoop国内研究进展[J].现代情报,2014,34(8):14-19. 被引量：2
10王晓军,邹亮亮.Hadoop迭代优化技术的研究[J].计算机技术与发展,2014,24(9):98-102.

二级引证文献119

1顾瑞春,王静宇.一种基于MapReduce的并行聚类模型[J].计算机与现代化,2014(1):90-92. 被引量：1
2周国安,李强,陈新,胡旭.云环境下海量小文件存储技术研究综述[J].信息网络安全,2014(6):11-17. 被引量：16
3赵鑫.基于链接关系分析的PgaeRank改进算法研究[J].电脑编程技巧与维护,2014(12):26-27.
4杨晓雁,甘琳梅.基于Hadoop的NoSQL非关系型数据库安全研究[J].微型电脑应用,2018,34(12):43-45. 被引量：1
5刘思林.Scrapy分布式爬虫搜索引擎[J].电脑知识与技术,2018,14(12):186-188. 被引量：3
6梁海.MongoDB数据库中Sharding技术应用研究[J].计算机技术与发展,2014,24(7):60-62. 被引量：17
7朱亚兴,余爱民,王夷.基于Redis+MySQL+MongoDB存储架构应用[J].微型机与应用,2014,33(13):3-5. 被引量：19
8尹成祥,张宏军,张睿,綦秀利,王彬.一种改进的K-Means算法[J].计算机技术与发展,2014,24(10):30-33. 被引量：14
9贾冲冲,王名扬,郑丹,张晓霞.基于云计算的微博数据挖掘研究综述[J].安徽农业科学,2014,42(31):11193-11195. 被引量：6
10孙媛,黄刚.基于Hadoop平台的C4.5算法的分析与研究[J].计算机技术与发展,2014,24(11):83-86. 被引量：5

1狄晓娇.企业级Hadoop平台实现的相关技术[J].中国新通信,2016,18(4):89-90. 被引量：1
2董世晓.云计算开源先锋Hadoop——第四届Hadoop中国云计算大会纪实[J].程序员,2010(10):36-37.
3屠卫.基于Google的云计算技术[J].成组技术与生产现代化,2015,32(4):44-52.
4徐德志,申红婷.网页排名算法及其应用[J].贵州大学学报（自然科学版）,2007,24(5):491-494. 被引量：3
5大数据Hadoop不能简单划等号[J].网络运维与管理,2014(11):10-10.
6曹皖诚,汤少卿,尤鋆.大数据平台在电力系统中的应用研究[J].江苏科技信息,2016,33(29):53-56. 被引量：9
7蔡丽娟.基于内容的Hadoop/MapReduce架构图像检索方法[J].福建广播电视大学学报,2014(5):41-45.
8张霄宏,雒芬,贾宗璞,沈记全.一种适用于Hadoop MapReduce环境的数据预取方法[J].西安电子科技大学学报,2014,41(2):191-196. 被引量：5
9鞠大升.基于Storm的美团实时计算应用实践[J].程序员,2014,0(12):98-103. 被引量：1
10刘凯,张立民,吴莉强.基于Hadoop-GPU的RBM云计算实现[J].微电子学与计算机,2015,32(9):70-75.

计算机技术与发展

2011年第8期

浏览历史

内容加载中请稍等...

Hadoop-MapReduce下的PageRank矩阵分块算法被引量：13

参考文献12

二级参考文献36

共引文献139

同被引文献152

引证文献13

二级引证文献119

相关作者

相关机构

相关主题

浏览历史

Hadoop-MapReduce下的PageRank矩阵分块算法 被引量：13

参考文献12

二级参考文献36

共引文献139

同被引文献152

引证文献13

二级引证文献119

相关作者

相关机构

相关主题

浏览历史

Hadoop-MapReduce下的PageRank矩阵分块算法被引量：13