摘要
本文主要对Hadoop、Spark两种大数据处理框架进行介绍,阐述各自的原理、生态组成及应用特点,并对两者进行了简单的比较.
出处
《电脑知识与技术》
2020年第12期3-5,共3页
Computer Knowledge and Technology
参考文献4
-
1郭会..基于有源RFID的高校人员信息采集与传输系统设计[D].河北大学,2017:
-
2周雯,史雪菲,吴毅坚,赵文耘.数据需求驱动的Storm应用辅助开发框架[J].计算机科学,2018,45(9):81-88. 被引量:2
-
3原默晗,唐晋韬,王挺.一种高效的分布式相似短文本聚类算法[J].计算机与数字工程,2016,44(5):895-900. 被引量:4
-
4孟真..基于Spark的高考推荐系统设计与实现[D].山东师范大学,2017:
二级参考文献22
-
1Wikipedia. Sina Weibo[EB/OL]. en. wikipedia, org/ wiki/Sina Weibo. 被引量:1
-
2Andritsos P, Tsaparas P, Miller R J, et al. LIMBO: Scalable clustering of categorical data [C]//EDBT, 2004 .- 123-146. 被引量:1
-
3Brin S, Davis J, Garcia-Molina H. Copy detection mechanisms for digital documents[C]//ACM SIGMOD Record. ACM, 1995,24(2) : 398-409. 被引量:1
-
4Lyon C, Barrett R, Malcolm J. A theoretical basis to the automated detection of copying between texts, and its practical implementation in the Ferret plagiarism and collusion detector [D. Plagiarism: Prevention, Practice and Policies, 2004. 被引量:1
-
5Lyon C, Barrett R, Malcolm J. Plagiarism is easy, but also easy to detect[M]. Ann Arbor, MI Scholarly Publishing Office, University of Michigan Library, 2006. 被引量:1
-
6Shivakumar N, Garcia-Molina H. Finding near-replicas of documents on the web[M//The World Wide Web and Databases. Springer Berlin Heidelberg, 1999: 204- 212. 被引量:1
-
7Broder A Z. Identifying and filtering near-duplicate documents [C]//Combinatorial pattern matching. Springer Berlin Heidelberg, 2000 : 1-10. 被引量:1
-
8Manku G S, Jain A, Das Sarma A. Detecting near-du- plicates for web crawling[C//Proceedings of the 16th international conference on World Wide Web. ACM, 2007 = 141-150. 被引量:1
-
9Henzinger M. Finding near-duplicate web pages., a large-scale evaluation of algorithms [C]//Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2006 .- 284-291. 被引量:1
-
10Gibson D, Kleinberg J, Raghavan P. Clustering cate- gorical data: An approach based on dynamical systems [J]. The VLDB Journal, 2000,8 (3-4) : 222-236. 被引量:1
共引文献4
-
1侯敬儒,吴晟,李英娜.基于Spark的并行ALS协同过滤算法研究[J].计算机与数字工程,2017,45(11):2197-2201. 被引量:2
-
2周煜敏,王鹏,汪卫.基于Storm的实时大规模传感器监控平台的开发和实现[J].计算机应用与软件,2019,36(12):7-11. 被引量:6
-
3王辉,潘俊辉,Marius.Petrescu,王浩畅,张强.Hadoop下并行化实现文本聚类的优化算法[J].计算机与数字工程,2022,50(12):2611-2615.
-
4赵国发,刘卉,肖敬,陈竞平,孟志军.基于分布式计算的农机运营效率分析[J].农机化研究,2020,42(1):53-57. 被引量:2
同被引文献39
-
1程学旗.数据科学与计算智能[J].软件和集成电路,2021(5):28-29. 被引量:2
-
2朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012,41(2):163-175. 被引量:249
-
3蔡静.Hadoop平台的研究及其改进[J].计算机光盘软件与应用,2014,17(5):146-147. 被引量:2
-
4徐计,王国胤,于洪.基于粒计算的大数据处理[J].计算机学报,2015,38(8):1497-1517. 被引量:117
-
5肖玉泽,张利军,潘巍,张小芳,李战怀.HDFS下海量小文件高效存储与索引方法[J].小型微型计算机系统,2015,36(10):2218-2223. 被引量:5
-
6杨李婷,陈翰雄.用户兴趣建模综述[J].软件导刊,2015,14(10):20-23. 被引量:4
-
7梁吉业,钱宇华,李德玉,胡清华.大数据挖掘的粒计算理论与方法[J].中国科学:信息科学,2015,45(11):1355-1369. 被引量:93
-
8赵兴旺,梁吉业.一种基于信息熵的混合数据属性加权聚类算法[J].计算机研究与发展,2016,53(5):1018-1028. 被引量:42
-
9张丽媛.一种分布式文件系统—HDFS[J].电脑编程技巧与维护,2016(21):11-13. 被引量:1
-
10梁吉业,钱宇华,李德玉,胡清华.面向大数据的粒计算理论与方法研究进展[J].大数据,2016,2(4):13-23. 被引量:16
引证文献4
-
1牛路帅,彭龑.大数据平台下实时电影推荐算法研究[J].软件工程,2021,24(9):13-16. 被引量:2
-
2石方夏,高屹.Hadoop大数据技术应用分析[J].现代电子技术,2021,44(19):153-157. 被引量:20
-
3郝冉.基于粒计算的大数据处理分析[J].电子技术与软件工程,2022(1):237-240.
-
4湛安康,宋沅果,苏英毅,杜江龙,郑丹.基于大数据下的疫情动态分布图[J].信息技术与信息化,2022(5):168-171.
二级引证文献22
-
1刘海,宋阳阳,王宝,孙瑞霜,苏云飞,于改露.基于Hadoop的购物行为分析系统的设计与实现[J].河南科技,2021,40(28):25-27. 被引量:2
-
2刘海,王晓钰,王政为,乔昭源,王星祎.基于Hadoop的大数据职位分析系统的设计与实现[J].信息与电脑,2022,34(1):110-112. 被引量:1
-
3王思霖.基于Hadoop的日志数据处理系统[J].信息与电脑,2022,34(7):26-28. 被引量:2
-
4魏超,李玲.基于Hadoop的大数据高校舆情监测系统研究[J].电脑编程技巧与维护,2022(7):89-91. 被引量:2
-
5黄水根.大数据背景下交通信息平台建设探究[J].黑龙江科学,2022,13(14):64-66.
-
6边晓南,李楠,夏文君,张洪亮,张雨,王雯.基于大数据技术的高效节水灌溉应用研究[J].人民黄河,2022,44(8):157-162. 被引量:3
-
7石碧瑶.Hadoop MapReduce海量数据处理方法分析与研究[J].西安交通工程学院学术研究,2022,7(1):56-59.
-
8杨正成,刘浩.基于LightGBM的广告商品平台推荐系统设计与应用[J].科技创新与应用,2022,12(30):1-6. 被引量:1
-
9练佳熠,黄婉平.基于大数据的高校就业决策系统的设计探讨[J].科技与创新,2022(23):28-31.
-
10吴展斌.基于大数据的智慧校园档案数字化建设研究与设计[J].现代信息科技,2022,6(24):131-133. 被引量:3