基于Spark的K-means聚类的并行实现与优化被引量：1

下载PDF

导出

摘要为解决传统聚类算法K-means在处理海量数据聚类时对初始中心点的选取十分的依赖,容易得到部分最优而非全局最优的聚类后果,提出了一种基于Spark改进的聚类优化DMCK-means算法。DMCK-means算法首先应用密度法排除孤立点和噪声点使初始聚类中心选取趋于最优化;采用Canopy算法和最大最小距离原则,粗略聚类降低运算规模同时避免中心选取的盲目性。实验结果表明:该改进算法不仅降低了对初始聚类中心点选取的依赖,而且降低了聚类的时间,具有良好的扩展性和可行性,在处理大规模海量数据时能展示出较大的优势。

作者马洋春王兴芬

机构地区北京信息科技大学计算机学院北京信息科技大学信息管理学院

出处《福建电脑》 2017年第11期1-4,共4页 Journal of Fujian Computer

基金国家自然科学基金资助项目"网络零售交易风险动态评估及预警研究"(71571021)

关键词密度法最大最小距离原则 Canopy算法 K-MEANS算法 SPARK

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献11

1邓海,覃华,孙欣.一种优化初始中心的K-means聚类算法[J].计算机技术与发展,2013,23(11):42-45. 被引量：22
2侯玥..基于最大最小距离聚类算法的改进多重心法选址研究[D].辽宁师范大学,2015:
3刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6
4梁彦..基于分布式平台Spark和YARN的数据挖掘算法的并行化研究[D].中山大学,2014:
5吉兴全,韩国正,李可军,傅荣荣,朱仰贺.基于密度的改进K均值聚类算法在配网区块划分中的应用[J].山东大学学报（工学版）,2016,46(4):41-46. 被引量：5
6李有明.一种基于参考点的快速k-均值算法[J].重庆工商大学学报（自然科学版）,2013,30(6):39-43. 被引量：3
7黄岚,李玉,王贵参,王岩.基于点距离和密度峰值聚类的社区发现方法[J].吉林大学学报（工学版）,2016,46(6):2042-2051. 被引量：17
8成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报（自然科学版）,2015,35(2):102-107. 被引量：44
9吴哲夫,张彤,肖鹰.基于Spark平台的K-means聚类算法改进及并行化实现[J].互联网天地,2016(1):44-50. 被引量：11
10张波..基于Spark的K-means算法的并行化实现与优化[D].华中科技大学,2015:

二级参考文献82

1周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3宋蒙,刘健,刘巩权.基于优化分区的城市配电网架规划[J].继电器,2005,33(23):31-35. 被引量：17
4刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
5李智宇,陈建福,张尧.基于优化分区的配电网规划研究及实践[J].广西电力,2006,29(4):1-4. 被引量：16
6ESTER M, KRIEGEL1 H, SANDER J . A density-based algorithm for discovering clusters in large spatial databases with noise [ c ]//Usama M Fayyad, Padhraic Smyth, Gregory Piatetsky Shapiro, Eds. Proc of 2d International Conference on konwledge Discovery and Data Mining(KDD'96). Porland : ACM press, 1996:226-231. 被引量：1
7何春霞,常晋义.三角不等式原理对聚类算法的改进[J].常熟理工学院学报,2007,21(2):100-103. 被引量：3
8Han Jiawei, Kamber M. Data mining concepts and techniques [ M]. 2nd ed. Beijing:China Machine Press,2006. 被引量：1
9MacQueen J B. Some methods for clustering and analysis of multivariate observations[ C ]//Proc of 5th Berkeley Symp on Math Statist Prob. Berkeley: University of California Press, 1967:281-297. 被引量：1
10Ester M, Kriegel H P, Sander J, et al. A density based algo- rithm for discovering clusters in large spatial databases with noise [ C ]//Proc of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland:AAAI Press, 1996:226-231. 被引量：1

共引文献145

1陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
2禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
3冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：11
4张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
5骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
6李婧.一种基于概率的快速聚类算法[J].重庆工商大学学报（自然科学版）,2014,31(2):61-65. 被引量：2
7赵建军,汪清,由磊,洪文兴.基于信息传递和峰值聚类的自适应社区发现算法[J].重庆大学学报（自然科学版）,2018,41(11):76-83. 被引量：3
8Li Sun,Shan Sun,Tianlei Wang,Jiyun Li,Jingsheng Lin.Parallel ADR Detection Based on Spark and BCPNN[J].Tsinghua Science and Technology,2019,24(2):195-206. 被引量：6
9李向.基于蚁群算法优化Hadoop平台计算效能方法[J].微型电脑应用,2018,34(12):140-143. 被引量：1
10何婕,赖敏.云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）[J].机床与液压,2018,46(24):144-149. 被引量：10

同被引文献13

1盛莉,邹开其,邓冠男.基于网格和密度的模糊C均值聚类初始化方法[J].计算机应用与软件,2008,25(3):22-23. 被引量：9
2王小姣,徐夫田,单国杰.模糊C-均值聚类算法的改进[J].微型机与应用,2010,29(12):42-44. 被引量：3
3高新波,裴继红,谢维信.模糊c-均值聚类算法中加权指数m的研究[J].电子学报,2000,28(4):80-83. 被引量：157
4范明,田铮,赵伟.FCM型聚类算法的统一框架及其核推广[J].电子设计工程,2013,21(4):134-136. 被引量：4
5余长俊,张燃.云环境下基于Canopy聚类的FCM算法研究[J].计算机科学,2014,41(B11):316-319. 被引量：21
6熊拥军,刘卫国,欧鹏杰.模糊C-均值聚类算法的优化[J].计算机工程与应用,2015,51(11):124-128. 被引量：16
7王桂兰,周国亮,萨初日拉,朱永利.Spark环境下的并行模糊C均值聚类算法[J].计算机应用,2016,36(2):342-347. 被引量：11
8冯青平,李星毅.基于MapReduce和聚类算法的交通状态识别[J].信息技术,2017,41(5):1-6. 被引量：1
9李琪,张欣,张平康,张航.基于密度峰值优化的Canopy-Kmeans并行算法[J].通信技术,2018,51(2):312-317. 被引量：7
10祖志文,李秦.关于马氏距离模糊聚类的有效性指标研究[J].陕西理工大学学报（自然科学版）,2018,34(2):33-38. 被引量：6

引证文献1

1夏邢,薛涛,李婷.基于Spark的模糊C均值算法改进[J].西安工程大学学报,2019,33(1):100-105. 被引量：5

二级引证文献5

1王烽.FCM聚类算法对平面标靶中心提取精度的探究[J].测绘通报,2019(S1):122-125.
2陈怡君,曹逻炜,杜玉倩.基于自步数据重构正则化的模糊C均值聚类算法改进[J].计算机与现代化,2020,0(6):120-126. 被引量：5
3杨延庆,袁华兵.基于MapReduce的模糊K-means算法并行化研究[J].计算机与数字工程,2020,48(7):1564-1567. 被引量：1
4胡建华,尹慧琳.基于余弦相似性的自适应权重的改进FCM算法[J].智能计算机与应用,2021,11(7):73-79.
5李振坤,钱晋,宋治儒.考虑电动汽车停泊概率的配电网接纳电动汽车能力评估方法[J].智慧电力,2021,49(11):31-37. 被引量：8

1陈伟,李红,王维.一种基于Python的K-means聚类算法分析[J].数字技术与应用,2017,35(10):118-119. 被引量：6
2廖礼.K-means算法及其改进算法[J].科教导刊（电子版）,2017,0(30):268-268. 被引量：1
3常彤.K-means算法及其改进研究现状[J].通讯世界,2017,23(19):289-290. 被引量：5
4李梅莲.基于密度分布的K-Means初始聚类中心选择算法[J].许昌学院学报,2017,36(2):20-24. 被引量：2
5王睿.基于K-means算法的温室移动机器人导航路径识别[J].电子技术与软件工程,2017(23):80-80. 被引量：2
6陈金辉,韩媛媛,张国瑞,董杰.一种基于全局最优MPPT的混合控制策略研究[J].电力电子技术,2017,51(11):30-33. 被引量：1
7白瑞.环境空气质量监测的实现与优化[J].环境与发展,2017,29(7):183-184. 被引量：2
8余晓敏,陈尔刚,季鹏,郭涛,秦昆.众包图像数据采集与聚类分析方法探讨[J].地理空间信息,2017,15(11):16-17. 被引量：1
9司国斌,霍晓丽,靳孝峰.环境空气质量监测的实现及优化分析[J].焦作大学学报,2017,31(3):93-95. 被引量：3
10朱建华,徐刚刚,刘鹏飞,何玲,陈旭,王凯.并联电容器装置接地和电抗率选取建议[J].电力电容器与无功补偿,2017,38(5):7-11. 被引量：8

福建电脑

2017年第11期

浏览历史

内容加载中请稍等...

基于Spark的K-means聚类的并行实现与优化被引量：1

参考文献11

二级参考文献82

共引文献145

同被引文献13

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Spark的K-means聚类的并行实现与优化 被引量：1

参考文献11

二级参考文献82

共引文献145

同被引文献13

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Spark的K-means聚类的并行实现与优化被引量：1