基于Spark平台的K-means聚类算法改进及并行化实现被引量：11

Improvement and parallel implementation of K-means clustering algorithm based on the Spark platform

导出

摘要针对K-means算法在数据聚类过程中初始值选取的随机性问题,基于非均匀采样原则对该算法进行改进。同时,针对聚类算法并行化的需求,基于Spark平台对改进算法进行了并行化实现。单机串行处理和集群并行化实验证明了该改进算法在处理海量数据集时具有更高的准确性和稳定性,且在Spark平台上的并行化实现具有良好的加速比和可扩展性,从而表明该算法能在实际的海量数据处理中高效运行。 For the randomness problems of the initial values selected that the K-means algorithm in data clustering process, the algorithm was improved based on the principle of non-uniform sampling. At the same time, in allusion to the clustering algorithm for parallel needs, the improved algorithm was implemented parallelization based on the Spark platform. And the improved algorithm has a higher accuracy and stability was proved by the serial and parallel experiment on cluster. It was also demonstrated that the parallel implement of improved algorithm has a better speed up ratio and scalability, thereby the improved algorithm can operate efficiently in processing massive data was proved.

作者吴哲夫张彤肖鹰

机构地区浙江工业大学信息工程学院

出处《互联网天地》 2016年第1期44-50,共7页 China Internet

基金浙江省自然科学基金(No.LY13F010011) 浙江省科技厅重大专项(No.2014NM002)

关键词 K-MEANS 聚类 SPARK 并行化 K-means, clustering, Spark, parallel

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1HAN J W, KAMBER M. Data mining:, concepts and techniques[M].San Francisco, CA, itd: Morgan Kaufmann Publishers, 2000. 被引量：1
2WU X D, KUMAR V, QUINLAN J R, et al. Top t0 algorithms in data mining[J]. Knowledge and Information Systems, 2008, 14(1): 1-37. 被引量：1
3ZHANG'I; RAMAKRISHNAN R. LIVNY M. BIRCH: an efficient data clustering method for very large databaseslC]//ACM SigmtM Record. 1996:103-114. 被引量：1
4毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
5XU Y J, Qu w, LI Z, et aL Efficient k-means++ Approximation with MapReduce[J]. IEEE Computer Society, 2014,25(12):3135- 3144. 被引量：1
6ZIMICHEV E A, KAZANSKIY N 14 SERAFIMOVICH P G. Spectral- spatial classification with k-means++ particional clustering[J]. Computer Optics, 2014, 38(2): 281-286. 被引量：1
7张刚红.Hadoop下并行遗传算法研究及在应急设施选址中的应用[J].互联网天地,2013(8):11-14. 被引量：4
8DEAN J, GHEMAWAT S. MapReduce: simplified data proce-ssing on large clusters[J]. Communications of the ACM,2008, 51 (1): 107-113. 被引量：1
9ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et td. Spark: cluster computing with working sets[C]//Book of Extremes. 2010: 1765-1773. 被引量：1

二级参考文献15

1刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
2陈亮,任世军.一种遗传算法在集合覆盖问题中的应用研究[J].哈尔滨商业大学学报（自然科学版）,2006,22(2):67-70. 被引量：7
3Han Jiawei,Kamber M.Data mining:concepts and tech- niques[M].San Francisco:Morgan Kaufmann Publishers, 2000. 被引量：1
4Januzaj E, Kriegel H P, Pfeifle M.DBDC : Density-Based Distributed Clustering[C]//Proceedings of 9th International Conference on Extending Database Technology(EDBT). Oakland: IEEE Computer Press, 2004 : 88-105. 被引量：1
5Samatova N F, Ostrouchov G.RACHET : an efficient cov- er-based merging of clustering hierarchies from distribut- ed datasets[J].Distributed and Parallel Databases,2002, 11 (2) : 157-180. 被引量：1
6Johoson E, KarguPta H.Collective, hierarchical clustering from distributed, heterogeneous data[C]//Lecture Notes in Computer Science.Berlin: Springer, 2000 : 221-244. 被引量：1
7Kargupta H.Sclable, distributed data mining using an agent based architecture[C]//Proceedings of 3rd Interna- tional Conference on Knowledge Discovery and Data Mining.Oakland .. AAAI Press, 1997 .. 211-214. 被引量：1
8Hearst M A.Texttiling: segmenting text into multi-para- graph subtopic passages[J].Computational Linguistics, 1997,23(1) :33-64. 被引量：1
9Dean J, Ghemawat S.MapReduce-simplified data process- ing on large clusters[C]//Proceedings of the 6th Inter- national Conference on Operation Systems Design & Im- plementation(OSDI), Berkeley, CA, USA, 2004 : 137-150. 被引量：1
10WhiteT.Hadoop权威指南[M].曾大聃,周傲英,译.北京清华大学出版社,2010. 被引量：1

共引文献66

1徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
2海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：13
3杨劲锋,刘涛,陈启冠,阙华坤,肖勇.基于海量计量数据的电力客户在线分群研究[J].华东电力,2013,41(8):1581-1585. 被引量：4
4戴涛,杨洲,方勇,景旭.基于CUDA的k-means文档聚类算法并行优化[J].计算机工程与设计,2013,34(11):4032-4036. 被引量：2
5余晓山,吴扬扬.基于MapReduce的文本层次聚类并行化[J].计算机应用,2014,34(6):1595-1599. 被引量：5
6黄蔚,李戴维.基于MapReduce的网络舆情分析系统的设计与实现[J].信息技术,2014,38(7):149-153. 被引量：2
7郎福通,王鹏.基于MapReduce的网格化优化CURE算法的实现[J].成都信息工程学院学报,2014,29(6):603-608.
8武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
9孙天昊,黎安能,李明,朱庆生.基于Hadoop分布式改进聚类协同过滤推荐算法研究[J].计算机工程与应用,2015,51(15):124-128. 被引量：21
10曾蔚.一种基于K-均值的用户行为聚类算法[J].绵阳师范学院学报,2015,34(8):94-98. 被引量：1

同被引文献94

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2黄永平,邹力鹍.数据仓库中基于密度的批量增量聚类算法[J].计算机工程与应用,2004,40(29):206-208. 被引量：9
3蒋盛益,李庆华.无指导的入侵检测方法[J].计算机工程,2005,31(9):31-33. 被引量：4
4高小梅,冯云,冯兴杰.增量式K-Medoids聚类算法[J].计算机工程,2005,31(B07):181-183. 被引量：9
5徐新华,谢永红.增量聚类综述及增量DBSCAN聚类算法研究[J].华北航天工业学院学报,2006,16(2):15-17. 被引量：5
6王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
7袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
8黄俊,韩玲莉,陈光平.基于无指导离群点检测的网络入侵检测技术[J].小型微型计算机系统,2007,28(11):2007-2009. 被引量：4
9胡彩平,秦小麟.一种改进的基于密度的抽样聚类算法[J].中国图象图形学报,2007,12(11):2031-2036. 被引量：4
10纪良浩.基于密度偏差抽样的聚类算法研究[J].重庆邮电大学学报（自然科学版）,2007,19(6):729-732. 被引量：2

引证文献11

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2Li Sun,Shan Sun,Tianlei Wang,Jiyun Li,Jingsheng Lin.Parallel ADR Detection Based on Spark and BCPNN[J].Tsinghua Science and Technology,2019,24(2):195-206. 被引量：6
3杨艳梅,柳娜,程国建,强新建,王叙乔.基于Spark平台的岩石图像聚类分析[J].西安石油大学学报（自然科学版）,2016,31(6):114-118. 被引量：9
4盛剑,樊红,龚天任,程幸福.K-Means算法及其在卷烟零售门店库存聚类分析中的应用[J].商业经济,2017(3):128-129. 被引量：4
5周显春,肖衡.Spark框架下聚类模型在网络流量异常检测中的应用[J].网络安全技术与应用,2017(5):62-63. 被引量：1
6李玉波,杨余旺,唐浩,陈光炜.基于Spark的K-means安全区间更新优化算法[J].计算机技术与发展,2017,27(8):1-6. 被引量：1
7马洋春,王兴芬.基于Spark的K-means聚类的并行实现与优化[J].福建电脑,2017,33(11):1-4. 被引量：1
8龙婧,刘伟,殷胜.基于机器学习的电网设备档案数据异常诊断研究[J].电力信息与通信技术,2018,16(7):21-27. 被引量：13
9朱梓熙,刘文敏,徐宝焱,黄红梅,敖新宇.基于数据分析的学生行为画像分析[J].中国教育信息化,2018,24(23):21-23. 被引量：6
10何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报（理工版）,2019,36(1):4-17. 被引量：9

二级引证文献59

1赵高尚,刘道伟,陈树勇,李柏青,杨红英,李宗翰,田一童.基于尺度不变特征转换的暂态稳定边界特征提取[J].中国电机工程学报,2019,39(S01):84-94. 被引量：5
2马一杰,陈君,刘松.基于长短时记忆网络的电力负荷异常检测[J].云南大学学报（自然科学版）,2020,42(S02):55-59. 被引量：16
3王英姿.基于学生群体画像分析的高校精准思政实施路径研究[J].时代报告（学术版）,2023(6):139-141.
4方洋,李旗,张瑞霞.基于机器学习的网络异常流量分析系统[J].电脑知识与技术,2020,0(4):24-25. 被引量：2
5郭晨鋆,舒越,马显龙,朱珏佩,李昊,于虹,马仪,侯剑平,陈健,杜美龄.台帐数据高级核查处理技术研究与应用[J].电网与清洁能源,2019,35(3):43-48. 被引量：4
6陈红兵.一种单元分布式变电站综合自动化系统设计方案[J].工程设计与研究（长沙）,2000(1):14-17.
7王守相,陈海文,潘志新,王建明.采用改进生成式对抗网络的电力系统量测缺失数据重建方法[J].中国电机工程学报,2019,39(1):56-64. 被引量：84
8高旺斌,党晓峰,李柏鹏,刘洋,白海涛.基于主成分和聚类分析的泡排气井分类[J].西安石油大学学报（自然科学版）,2018,33(1):68-74. 被引量：3
9吴飞,张昕,孙莉,邹云峰.电力缴费渠道实时监控策略研究及平台设计[J].电力需求侧管理,2018,20(3):51-53. 被引量：3
10黄福,侯海燕,梁国强,王亚杰,胡志刚.科学计量学常用工具的聚类算法分析[J].科技管理研究,2018,38(18):232-238. 被引量：5

1刘宏志,朱方方.基于云模型的信息工程监理服务质量评价的研究[J].电子技术应用,2013,39(10):133-135. 被引量：13
2张少刚.遗传算法在计算机仿真技术中的应用[J].自动化与仪器仪表,2009(6):57-58. 被引量：3
3杨本臣,王翠琴.P2P中基于云模型和灰色系统理论的信任机制研究[J].计算机应用研究,2016,33(1):276-280. 被引量：3
4冯能山,林志华,熊金志,祝建军.一种k-means聚类的改进算法与实现[J].软件导刊,2012,11(3):66-70. 被引量：1
5郭苏玲,胡.一种基于云模型的WSN鲁棒评价机制[J].电视技术,2013,37(17):132-135. 被引量：3
6马海云,齐小军.蒙特卡罗仿真机及其应用[J].电脑与信息技术,2006,14(3):8-10. 被引量：7
7毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
8祝希路,王柏.支持区间型QoS的Web服务选择[J].北京邮电大学学报,2011,34(4):80-84. 被引量：8
9李建宏,姜同敏,何玉珠,蒋觉义.基于NMF的SVM故障诊断方法[J].北京航空航天大学学报,2012,38(12):1639-1643. 被引量：7
10王保平,刘怀亮,李南京,谢维信.一种新的自适应图像模糊增强算法[J].西安电子科技大学学报,2005,32(2):307-313. 被引量：23

互联网天地

2016年第1期

浏览历史

内容加载中请稍等...

基于Spark平台的K-means聚类算法改进及并行化实现被引量：11

参考文献9

二级参考文献15

共引文献66

同被引文献94

引证文献11

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于Spark平台的K-means聚类算法改进及并行化实现 被引量：11

参考文献9

二级参考文献15

共引文献66

同被引文献94

引证文献11

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于Spark平台的K-means聚类算法改进及并行化实现被引量：11