K-Means算法改进及基于Spark计算模型的实现被引量：11

Improvement of K-Means algorithm and implementation based on Spark computing model

下载PDF

导出

摘要 K-Means算法是一种基于划分的算法,具有实现简单、效率较高的特点,但存在对初始中心选取依赖性强、分类数K未必总是已知及算法频繁迭代资源开销大等缺点。为解决这些问题,通过引入Canopy算法和最小最大距离算法对原K-Means算法进行改进,并在大数据的现实背景下,采用Spark并行计算框架来实现该算法。实验结果表明:改进后的聚类算法在分类稳定性、准确性和收敛速度上都有所提升,并在处理大规模数据方面表现出较大的性能优势。 The K-Means algorithm is a partition-based algorithm with numerous advantages of simple and high efficiency. But the algorithm has a strong dependence on the selection of initial center. What＇s more,the number of classes is not always known and frequent iterations can result in the overload of server. To solve these problems,the original K-Means algorithm is improved by introducing Canopy algorithm and minimum maximum distance algorithm. In order to deal with big data,the Spark computing model is utilized to improve the algorithm. Experimental results show that the improved clustering algorithm can improve the classification stability,the accuracy and the convergence speed,thus having performance advantages in dealing with big data.

作者徐鹏程王诚

机构地区南京邮电大学通信与信息工程学院

出处《南京邮电大学学报（自然科学版）》北大核心 2017年第4期113-118,共6页 Journal of Nanjing University of Posts and Telecommunications：Natural Science Edition

关键词 K-MEANS Canopy算法最小最大距离算法 SPARK K-Means Canopy algorithm minimum maximum distance algorithm Spark

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1朱烨行,李艳玲,崔梦天,杨献文.一种改进K-means算法的聚类算法CARDBK[J].计算机科学,2015,42(3):201-205. 被引量：12
2李新德,王丰羽.一种基于ISODATA聚类和改进相似度的证据推理方法[J].自动化学报,2015,41(3):575-590. 被引量：10
3邓庚盛,刘承启,熊艳.基于网格和密度的CLIQUE聚类算法的研究与实现[J].计算机与现代化,2008(12):8-11. 被引量：8
4李艳川,周新华,董子文,杨桢.基于样本密度的非监督动态改进FCM算法[J].世界科技研究与发展,2016,38(1):20-25. 被引量：3
5屈新怀,高万里,丁必荣,李朕.基于聚类数和初始值的K-means算法改进研究[J].组合机床与自动化加工技术,2011(4):42-46. 被引量：6

二级参考文献87

1付淇,李正凡.基于CLIQUE的聚类算法研究[J].华东交通大学学报,2006,23(5):79-82. 被引量：12
2张红云,石阳,马垣.数据挖掘中聚类算法比较研究[J].鞍山钢铁学院学报,2001,24(5):364-367. 被引量：12
3冯兴杰,黄亚楼.带约束条件的聚类算法研究[J].计算机工程与应用,2005,41(7):12-14. 被引量：12
4张新波.两阶段模糊C-均值聚类算法[J].电路与系统学报,2005,10(2):117-120. 被引量：21
5诸克军,苏顺华,黎金玲.模糊C-均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005,25(3):52-61. 被引量：69
6刘泉凤,陆蓓,王小华.文本挖掘中聚类算法的比较研究[J].计算机时代,2005(6):7-8. 被引量：8
7石陆魁,何丕廉.一种基于密度的高效聚类算法[J].计算机应用,2005,25(8):1824-1826. 被引量：21
8陈卓,孟庆春,魏振钢,任丽婕,窦金凤.一种基于网格和密度凝聚点的快速聚类算法[J].哈尔滨工业大学学报,2005,37(12):1654-1657. 被引量：14
9杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：192
10曹庆奎,任向阳,刘开第.矿井工作面瓦斯涌出量的未确知聚类研究[J].煤炭学报,2006,31(3):337-341. 被引量：27

共引文献34

1陈丽娜,司海平,曹永生.多维农业数据交互式协同可视化系统设计与应用[J].商丘师范学院学报,2023,39(3):12-15. 被引量：2
2徐祖润,刘思峰,方志耕,吴洁,刘勇.基于信息融合的罪案关联证据推理模型[J].控制与决策,2020,35(1):228-234. 被引量：3
3王翠娥,于晓明.网格和密度聚类算法在入侵检测中的应用[J].计算机应用,2010,30(11):3051-3052. 被引量：2
4项响琴,李红,陈圣兵.CLIQUE聚类算法的分析研究[J].合肥学院学报（自然科学版）,2011,21(1):54-58. 被引量：7
5项响琴,汪萍,李健.CLIQUE算法在信用卡审批模型中的应用研究[J].安徽建筑工业学院学报（自然科学版）,2011,19(1):89-93. 被引量：2
6曹树志,项响琴.公路隧道交通安全的聚类分析[J].黑龙江交通科技,2011,34(9):233-234. 被引量：1
7杨萍,郭春阳,李翠明.基于K-means聚类算法的群体机器人聚集队形控制[J].组合机床与自动化加工技术,2012(8):89-92.
8王军,于勇.基于密度网格的证券市场聚类模型研究[J].知识经济,2013(4):83-83. 被引量：1
9沈江,余海燕,徐曼.实体异构性下证据链融合推理的多属性群决策[J].自动化学报,2015,41(4):832-842. 被引量：9
10李新德,董清泉,王丰羽,雒超民.一种基于马尔科夫链的冲突证据组合方法[J].自动化学报,2015,41(5):914-927. 被引量：4

同被引文献84

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3单梁,强浩,李军,王执铨.基于Tent映射的混沌优化算法[J].控制与决策,2005,20(2):179-182. 被引量：205
4金龙,吴建生,林开平,陈冰廉.基于遗传算法的神经网络短期气候预测模型[J].高原气象,2005,24(6):981-987. 被引量：40
5贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：228
6王开军,张军英,李丹,张新娜,郭涛.自适应仿射传播聚类[J].自动化学报,2007,33(12):1242-1246. 被引量：145
7孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
8叶明全,伍长荣,胡学钢.基于粗糙集的医疗数据挖掘研究与应用[J].计算机工程与应用,2010,46(21):232-234. 被引量：11
9张乐坚,程明虎,田付友.人工神经网络及支持向量机在降雨量预报中的应用[J].高原气象,2010,29(4):982-991. 被引量：11
10裴继红,谢维信.势函数聚类自适应多阈值图像分割[J].计算机学报,1999,22(7):758-762. 被引量：29

引证文献11

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
2王法玉,刘志强.Spark框架下分布式K-means算法优化方法[J].计算机工程与设计,2019,40(6):1595-1600. 被引量：13
3邹臣嵩,段桂芹.基于改进K-medoids的聚类质量评价指标研究[J].计算机系统应用,2019,28(6):235-242. 被引量：9
4杨明极,马池,王娅,张竹.一种改进K-means聚类的FCMM算法[J].计算机应用研究,2019,36(7):2007-2010. 被引量：12
5刘佳耀,王佳斌.Slope One-BI算法的改进及其在大数据平台的并行化[J].华侨大学学报（自然科学版）,2019,40(6):786-792. 被引量：7
6行艳妮,钱育蓉,南方哲,赵京霞.Spark环境下K-means初始中心点优化研究综述[J].计算机应用研究,2020,37(3):641-647. 被引量：9
7勾志竟,宫志宏,徐梅,刘布春.基于Spark的Canopy-FCM在气象中的应用[J].计算机技术与发展,2020,30(8):169-173. 被引量：1
8赵鑫,汪丽娟,行艳妮,赵燚,赵京霞,钱育蓉.改进的CK-means优化及并行策略[J].计算机应用研究,2020,37(11):3287-3291. 被引量：7
9王超英.基于文化基因算法和犹豫模糊集的聚类算法及其分布并行实现[J].计算机应用与软件,2021,38(4):295-304. 被引量：2
10毛伊敏,甘德瑾,廖列法,陈志刚.基于Spark框架和ASPSO的并行划分聚类算法[J].通信学报,2022,43(3):148-163. 被引量：8

二级引证文献82

1谢悦,林建国,芦静.浓度对流扩散方程并行计算与MATLAB高效实现方法[J].计算机应用研究,2020,37(S01):143-146. 被引量：1
2夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
3王玉.Spark大数据处理平台的构建及应用[J].大众标准化,2019,0(18):28-29. 被引量：2
4严志.一种云平台下的大数据聚类系统研究[J].长沙民政职业技术学院学报,2019,26(1):113-117. 被引量：1
5程玉胜,钱坤,王一宾,赵大卫.融合萤火虫方法的多标签懒惰学习算法[J].计算机应用,2019,39(5):1305-1311. 被引量：4
6徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
7贺亮,徐正国,贾愚,沈超,李赟.深度强化学习复原多目标航迹的TOC奖励函数[J].计算机应用研究,2020,37(6):1626-1632. 被引量：2
8孙彬,王欣,徐春.一种基于劳动密集度的剩余劳动力资源聚类方法[J].地域研究与开发,2020,39(3):53-58.
9张海华,李楠楠.基于大数据K-means聚类算法的在线学习行为路径的研究[J].电子设计工程,2020,28(12):17-20. 被引量：13
10李瑞吉.基于大数据技术 BI 仓储系统平台建设[J].广东蚕业,2019,53(12):55-55.

1侯贵法,王成,李建新.以软件工程的思想指导软件开发[J].殷都学刊,1998,19(6):72-74. 被引量：1
2黄海进,陈宇曦.变频器的应用与维护[J].环球市场,2017,0(24):149-149. 被引量：1
3丁谊.一种基于FPGA分组密码抗功耗攻击的多S盒压缩实现方案[J].武警工程大学学报,2017,33(4):59-61.
4王子墨.数据挖掘中的聚类算法的研究[J].电子世界,2017,0(17):102-102.

南京邮电大学学报（自然科学版）

2017年第4期

浏览历史

内容加载中请稍等...

K-Means算法改进及基于Spark计算模型的实现被引量：11

参考文献5

二级参考文献87

共引文献34

同被引文献84

引证文献11

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

K-Means算法改进及基于Spark计算模型的实现 被引量：11

参考文献5

二级参考文献87

共引文献34

同被引文献84

引证文献11

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

K-Means算法改进及基于Spark计算模型的实现被引量：11