基于MapReduce并行化计算的大数据聚类算法被引量：20

Parallel computation algorithm for big data clustering based on MapReduce

下载PDF

导出

摘要面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。 Aiming at solving the problem of big data’s large scale and complex computation,this paper adopted the idea of two-stage progressive clustering,and proposed a parallel computation algorithm for big data clustering based on MapReduce.In the first stage,this method acquired the initialized clustering center through Canopy algorithm,in order to find relatively accurate cluster center points quickly.In the second stage,it presented a novel scheme of parallel computation based on MapReduce framework,which maked each data node cluster or merge around its adjacent Canopy center node.In this way,the algorithm could make the procedure of data clustering fast and accurately.The results of the experiments deployed on MapReduce show that this algorithm can effectively improve the efficiency of parallel computing,reduce computing time,and improve big data’s clustering accuracy.

作者张文杰蒋烈辉 Zhang Wenjie;Jiang Liehui(Faculty of Cyberspace Security,PLA Information Engineering University,Zhengzhou 450001,China;State Key Laboratory Mathematical Engineering&Advanced Computing,Zhengzhou 450001,China)

机构地区解放军信息工程大学网络空间安全学院数字工程与先进计算国家重点实验室

出处《计算机应用研究》 CSCD 北大核心 2020年第1期53-56,共4页 Application Research of Computers

基金河南省基础前沿课题(142300410090) 河南省科技攻关计划项目(162102210035).

关键词大数据 MAPREDUCE 并行计算数据聚类 big data MapReduce parallel computation data clustering

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1杜治娟,王硕,王秋月,孟小峰.社会媒体大数据分析研究综述[J].计算机科学与探索,2017,11(1):1-23. 被引量：13
2王永贵,崔鹏.一种基于MapReduce高效K-means并行算法[J].辽宁工程技术大学学报（自然科学版）,2017,36(11):1204-1211. 被引量：3
3陈爱平..基于Hadoop的聚类算法并行化分析及应用研究[D].电子科技大学,2012:
4宋旭东,朱文辉,邱占芝.大数据k-Means聚类挖掘优化算法[J].大连交通大学学报,2015,36(3):91-94. 被引量：6
5宋建林..K-means聚类算法的改进研究[D].安徽大学,2016:
6夏大文..基于MapReduce的移动轨迹大数据挖掘方法与应用研究[D].西南大学,2016:
7张友海,李锋刚.基于MapReduce的Canopy-Kmeans算法的并行化[J].辽宁科技学院学报,2017,19(1):4-5. 被引量：2
8程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：735
9郭平,王可,罗阿理,薛明志.大数据分析中的计算智能研究现状与展望[J].软件学报,2015,26(11):3010-3025. 被引量：58
10赵宝文,徐华.基于MapReduce的并行MRACO-PAM聚类算法[J].计算机工程与科学,2017,39(10):1801-1806. 被引量：4

二级参考文献76

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
4董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：98
5Jiawei Han,Micheline Kamber(著),范明,孟小峰(译).数据挖掘概念与技术[M].北京:机械工业出版社,2007.3.2. 被引量：64
6Han J,Mickeline K,Pel J.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2012. 被引量：6
7李正兵,罗斌,翟素兰,等.基于关联图划分的Kmeans算法[EB/OL].计算机工程与应,2012.http://www.cnki.net/kcms/detail/11.2127.TP.20120615.1726.025.html. 被引量：1
8邓海,覃华,孙欣.一种优化初始中心的K-Means聚类算法[EB/OL].计算机技术与发展,2013.http://www.cnki.net/kcms/detail/61.1450.TP.20130724.0945.012.html. 被引量：1
9LAMMEL R.Google's MapReduce Programming ModelRevisited[J].Science of Computer Programming,2008,70(1):1-30. 被引量：1
10SATISH NARAYANA SRIRAMA,PELLE JAKOVITS,EERO VAINIKKO.Adapting scientific computing problems to clouds using MapReduce[J].Future generations computer systems,2012,28(1):184-192. 被引量：1

共引文献912

1郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
2刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
3吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：27
4师洪波,郭红梅,岳婷,钱力,黄定余,常志军.基于分布式大数据技术的科学计量模块化分析平台构建研究[J].数据分析与知识发现,2020,4(2):231-238. 被引量：3
5李振泉,张丁涌,周长敬,王兴武,安学先,高华,孙东,刘文聪,闫恩祥,李红强,孙秀玲,杨文辉,张腾,梁莹,王增光.集输系统能耗定量化预测大数据模型应用研究[J].当代化工,2020(12):2818-2821. 被引量：2
6蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：84
7韩旭,罗登昌.长江堤防工程大数据基本特征及应用策略[J].人民长江,2020(S01):262-264. 被引量：3
8庞景安.大数据时代:思维变革、产业转型与数据科学兴起[J].情报学进展,2016(1):186-218.
9段鹏.大数据时代的重大公共事务决策风险治理:研究历史与现状[J].文化产业研究,2019(4):20-33. 被引量：1
10杨超,袁翰青,王彬,苗占群,周兴华,石亚欣.基于三次卷积插值的电网负载热力图分析方法[J].科技通报,2020(2):69-73. 被引量：1

同被引文献208

1赵欣灿,朱云,毛伊敏.基于MapReduce的Apriori算法增量挖掘[J].计算机应用研究,2020,37(S02):73-75. 被引量：6
2肖勇,郑楷洪,余忠忠,周密,李森,马千里.基于三次指数平滑模型与DBSCAN聚类的电量数据异常检测[J].电网技术,2020,44(3):1099-1104. 被引量：61
3鲁国强,谭勇.试论我国商业银行实行全面风险管理的必要性[J].金融经济,2007(14):35-36. 被引量：1
4龚小勇,罗军.Web Service技术在开发多层分布式数据库系统中的应用研究[J].计算机应用研究,2004,21(8):55-57. 被引量：17
5刘天旭.对国有商业银行实行全面风险管理的思考[J].商业研究,2005(9):14-17. 被引量：8
6赵慧敏.我国商业银行应推行全面风险管理[J].河南财政税务高等专科学校学报,2006,20(3):30-32. 被引量：2
7毛锦,周鹏,蔡淑琴.商业银行信用风险预警支持模型及其系统[J].金融理论与实践,2006(8):3-5. 被引量：4
8余海丰,曲迎波.我国金融控股集团的风险监管研究[J].金融理论与实践,2006(8):17-20. 被引量：12
9张卓,丁振国.基于JSP的MVC开发模式在毕业设计管理系统中的应用[J].科学技术与工程,2007,7(11):2542-2546. 被引量：10
10张军朋,王君.欧美商业银行风险战略实践研究[J].金融理论与实践,2007(11):49-51. 被引量：5

引证文献20

1宋阳,石鸿雁.基于MapReduce框架下的K-means聚类算法的改进[J].计算机与现代化,2019,0(8):28-32. 被引量：7
2崔艺馨,陈晓东.Spark框架优化的大规模谱聚类并行算法[J].计算机应用,2020,40(1):168-172. 被引量：10
3胡健,徐锴滨,毛伊敏.基于MapReduce和IFOA的并行密度聚类算法[J].计算机应用研究,2021,38(5):1336-1343. 被引量：3
4王玉贤.基于云计算的大数据并行搜索聚类算法研究[J].自动化与仪器仪表,2021(10):33-36. 被引量：2
5金先好.MapReduce模型在并行式计算机数据挖掘中的应用[J].景德镇学院学报,2021,36(6):114-116. 被引量：1
6李凌君.基于聚类算法的数据情报挖掘与分析[J].信息技术,2022,46(5):123-127. 被引量：1
7赵春霞,赵营颖,宋学坤.基于频繁项集的多源异构数据并行聚类算法[J].济南大学学报（自然科学版）,2022,36(4):440-443. 被引量：10
8徐旸,王佳斌,彭凯.结合PCA的t-SNE算法的并行化实现方法[J].华侨大学学报（自然科学版）,2022,43(5):685-692.
9马小明,刘永涛,陈晓楠.基于智能聚类的医院分类大数据自动存储方法[J].自动化技术与应用,2022,41(11):84-87. 被引量：1
10孟小燕,赵希武.基于蚁群算法的计算引擎均衡部署数学建模[J].计算机仿真,2022,39(11):472-476.

二级引证文献45

1李鹏飞.基于K-means聚类算法的高校图书馆用户分类及价值评价[J].电子元器件与信息技术,2019,3(9):73-76. 被引量：7
2蒋楠.基于Spark大数据处理框架的逆时偏移成像技术研究[J].石油物探,2020,59(4):564-571. 被引量：7
3张国华,叶苗,陆霞,吉晓香,梁德鸿.基于线程与分布式排序对比实验的设计与研究[J].实验技术与管理,2020,37(8):186-188. 被引量：1
4万珊,苟文博.基于改进K-means聚类的数据自动采集系统设计[J].自动化与仪器仪表,2020(10):108-112. 被引量：4
5薛慧敏.基于MapReduce的分布式云计算数据挖掘方法[J].安阳师范学院学报,2020(5):24-27. 被引量：4
6潘卫军,刘皓晨,王润东,胡博文.基于ANN的改进Spark系统在空管大数据处理中的应用[J].计算机与现代化,2020(12):78-82. 被引量：1
7金巨波.基于K-mean聚类算法的海量数据分析方法[J].九江学院学报（自然科学版）,2020,35(4):53-55. 被引量：4
8王黎,吕殿基.基于Spark框架的大数据局部频繁项集挖掘算法设计[J].微型电脑应用,2021,37(4):130-132. 被引量：6
9刘波,蔡志远,魏孔鹏.职业院校学生管理工作大数据的构建与创新应用[J].软件,2021,42(2):21-23.
10白璐,赵鑫,孔钰婷,张正航,邵金鑫,钱育蓉.谱聚类算法研究综述[J].计算机工程与应用,2021,57(14):15-26. 被引量：26

1韩琮师,李旭健.改进的K-means算法研究[J].软件,2020,41(3):21-23. 被引量：6
2纪霞,姚晟,赵鹏.相对邻域与剪枝策略优化的密度峰值聚类算法[J].自动化学报,2020,46(3):562-575. 被引量：15
3彭建东,冯国栋,王晶晶.跨域治理视角下的东莞水乡特色经济发展区行政管理体制探究[J].城市建筑,2019,16(26):94-95.
4郑帅,吕芳.模糊K-means算法在临床路径决策中的应用[J].辽宁师专学报（自然科学版）,2019,21(3):81-88. 被引量：3
5崔乾慧,孙笑浓,申强.“生态桥”背景下平谷大桃产业结构优化策略研究[J].生产力研究,2020,0(4):36-39. 被引量：5
6贾海利,张健,祁宇明,邓三鹏.云制造平台资源需求的高效匹配策略研究[J].现代制造工程,2020(4):36-43. 被引量：7
7康耀龙,张景安,冯丽露.基于约束满足的大数据聚类中心调度算法仿真[J].计算机仿真,2020,37(3):385-388. 被引量：9
8张倩倩,李国和,郑艺峰.基于密度和半监督学习的数据修复与聚类[J].计算机工程与设计,2020,41(3):676-681. 被引量：1
9徐宁宁,张文韬,郑海亮,王艳龙,陈立,郝伟,闫涛.基于高斯过程的TGDI发动机充气模型试验研究[J].汽车文摘,2020,0(4):49-53.
10胡宇,周代勇.基于K-means算法识别瓦斯传感器软故障研究[J].矿冶,2020,29(2):10-14. 被引量：2

计算机应用研究

2020年第1期

浏览历史

内容加载中请稍等...

基于MapReduce并行化计算的大数据聚类算法被引量：20

参考文献13

二级参考文献76

共引文献912

同被引文献208

引证文献20

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

基于MapReduce并行化计算的大数据聚类算法 被引量：20

参考文献13

二级参考文献76

共引文献912

同被引文献208

引证文献20

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

基于MapReduce并行化计算的大数据聚类算法被引量：20