一种改进的基于大数据集的混合聚类算法被引量：7

An improved hybrid clustering algorithm based on large data sets

下载PDF

导出

摘要针对k-means算法过度依赖初始聚类中心、收敛速度慢等局限性及其在处理海量数据时存在的内存不足问题,提出一种新的针对大数据集的混合聚类算法super-k-means,将改进的基于超网络的高维数据聚类算法与k-means相结合,并经过MapReduce并行化后部署在Hadoop集群上运行。实验表明,该算法不仅在收敛性以及聚类精度两方面得到优化,其加速比和扩展性也有了大幅度的改善。 Aiming at the following three problems of the k-means algorithm：excessive dependence on the initial clustering center, slow convergence speed and insufficient memory when dealing with huge a- mounts of data, we present a new hybrid clustering algorithm called super-k-means for large data sets. The algorithm combines the k-means algorithm with the improved high-dimensional data clustering algo- rithm based on the super-network. We run it on the Hadoop clusters after the MapReduce parallel pro- cessing, and an ideal effect of clustering is achieved. Experimental results show that the algorithm not only improves the convergence and the clustering accuracy but also has high speedup and scalability per- formance.

作者张晓王红

机构地区山东师范大学信息科学与工程学院山东省分布式计算机软件重点实验室

出处《计算机工程与科学》 CSCD 北大核心 2015年第9期1621-1626,共6页 Computer Engineering & Science

基金国家自然科学基金资助项目(61373149 61472233) 山东省科技计划项目(2012GGX10118 2014GGX101026)

关键词 K-MEANS 超网络频繁项集超图划分 MAPREDUCE k-means super network frequent itemsets hypergraph partitioning MapReduce

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1070
2王志平,王众托编著..超网络理论及其应用[M].北京:科学出版社,2008:290.
3赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
4田森平,吴文亮.自动获取k-means聚类参数k值的算法[J].计算机工程与设计,2011,32(1):274-276. 被引量：18
5李群,袁津生.基于DBSCAN的最优密度文本聚类算法[J].计算机工程与设计,2012,33(4):1409-1413. 被引量：13
6毕晓君,宫汝江.一种结合人工蜂群和K-均值的混合聚类算法[J].计算机应用研究,2012,29(6):2040-2042. 被引量：15

二级参考文献33

1刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
2荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
3袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
4杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
5李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
6李晓光,宋宝燕,于戈,王大玲.一种基于内容特性的文本聚类方法[J].计算机工程,2007,33(14):24-26. 被引量：2
7Guha S,Rastogi R,Shim K.Cure:an efficient clustering algorithm for large database[C]//Proc of ACM-SIGMOND lnt Conf Managemerit on Data, Seattle, Washington, 1998 . 73-84. 被引量：1
8Ester M,Kriegel H P,Sander J.A density-based algorithm tier discovering chlsters in large spatial databases with noise[C]//Proc 2nd Int Conf on Knowledge Discovery and Data Mining.Portland, 1999.20:226-231. 被引量：1
9MacQueen J. Some methods for classification and analysis of multivariate observations [C]. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley:University of California Press, 1967:281-297. 被引量：1
10KARABOGA D, BASTURK B. A powerful and efficient algorithm for numerical function optimization: artificial bee colony(ABC) algorithm [ J]. Journal of Global Optimization,2007,39 (3) :459-171. 被引量：1

共引文献1172

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2刘欣雨.基于弹幕的突发信息安全类事件舆情分析——以“滴滴平台下架”事件为例[J].情报工程,2022,8(4):85-109. 被引量：1
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
10段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1

同被引文献66

1贺建风,李宏煜.大数据背景下基于社交网络的聚类随机游走抽样算法研究[J].统计研究,2021(4):131-144. 被引量：9
2王明珠,王莉华.基于聚类分析的我国各地区综合发展能力评价[J].辽宁石油化工大学学报,2013,33(4):105-108. 被引量：2
3陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
4Yang J.Dynamic clustering of evolving streams with a single pass[C].In:Proc.of IEEE International Conference Data Mining(ICDE′09).Washington:IEEE Computer Society,2009:695-697. 被引量：1
5Beringer J,Hullermeier E.Online clustering of parallel data streams[J].Data&Knowledge Engineering,2006,58(2):180-204. 被引量：1
6Daibr,Huang J W,Ye M Y,et al.Adaptive clustering for multiple evolving streams[J].IEEE Transaction on Knowledge and Data Engineering,2006,18(9):1166-l180. 被引量：1
7Li Sa.An datastream clustering algorithms based on cloud model[C].Wuhan:Engineering and Business Management,2011:2651-2654. 被引量：1
8中华人民共和国环境保护部."十二五"环境监测工作手册[M].北京:中国环境科学出版社,2012. 被引量：1
9边鹏,赵妍,苏玉召.一种改进的K-means算法最佳聚类数确定方法[J].现代图书情报技术,2011(9):34-40. 被引量：12
10廖国琼,吴凌琴,万常选.基于概率衰减窗口模型的不确定数据流频繁模式挖掘[J].计算机研究与发展,2012,49(5):1105-1115. 被引量：15

引证文献7

1李飒,李艳杰.基于同步相关性的多数据流聚类在空气质量评价中的应用[J].辽宁石油化工大学学报,2016,36(2):64-68.
2刘云,陈昌凯,崔自如.LSFR算法在多传感器分布式检测中的优化研究[J].传感器与微系统,2017,36(3):21-24. 被引量：1
3肖铮,董祥千,赵文革.Web网络大数据的聚类中心调度技术研究[J].现代电子技术,2017,40(24):25-27. 被引量：8
4金保林.基于模糊聚类改进的光纤大数据分类算法研究[J].激光杂志,2018,39(7):152-156. 被引量：2
5侯莉莎.大数据集合中冗余特征排除的聚类算法设计[J].现代电子技术,2018,41(14):48-50. 被引量：9
6资和周.优先聚类和高斯混合模型树相融合的递增聚类研究[J].现代电子技术,2017,40(19):177-181. 被引量：2
7张鹏飞,江岸,熊念.Hadoop平台下基于优化X-means算法的大数据聚类研究[J].计算机测量与控制,2023,31(12):284-289. 被引量：1

二级引证文献23

1金朝.基于Web的网络数字视频监控系统的设计与实现[J].电子设计工程,2018,26(21):170-174. 被引量：7
2柴立,解建仓,龚尚福.大数据背景下金保数据中心建设关键技术研究[J].现代电子技术,2019,42(10):136-140. 被引量：8
3刘涛,葛雅静,谢宝荣,史健康.多传感器信息处理与显示系统的设计与实现[J].传感器与微系统,2020,39(1):71-74. 被引量：8
4张昊,赵洋,赵晓红.基于小波分析的网络通信大数据谱聚类算法研究[J].自动化与仪器仪表,2020,0(1):36-39. 被引量：2
5赵云强,韩翼,崔慧茹,郑琳.聚类目标函数下混合属性大数据集分析系统[J].电子设计工程,2020,28(4):73-76. 被引量：3
6刘睿,吴军平.PTN中LAG技术研究与实现[J].电子设计工程,2020,28(7):113-117.
7覃伟荣.云计算中基于遗传算法的数据布局策略[J].计算机与数字工程,2020,48(3):534-539. 被引量：2
8龙虎,梁丽香.基于大数据分析的混合属性图像冗余特征聚类系统设计[J].现代电子技术,2020,43(13):49-52. 被引量：1
9肖铮.利用机器学习算法对羽毛球动作识别的研究[J].武汉职业技术学院学报,2020,19(5):116-120.
10马文,田园.基于聚类方法的工业电气设备大数据特征识别[J].计算机技术与发展,2020,30(11):190-194. 被引量：3

1张洪斌,危胜军.基于超图的并行信息采集系统任务划分方法[J].广西师范大学学报（自然科学版）,2008,26(1):212-215.
2张晓,王红.一种改进的基于超网络的高维数据聚类算法[J].山东师范大学学报（自然科学版）,2015,30(1):24-28.
3Word内存不足问题[J].软件世界（PC任我行）,2003(7):96-96.
4Excel提示内存不足问题[J].家庭电脑世界,2004(06S):49-49.
5刘辉林,刘畅.基于WindowsCE.NET的嵌入式视觉传感器系统的研究[J].计算机应用,2006,26(5):1208-1210.
6Vista拷贝内存不足问题修复仍有其它问题[J].软件指南,2007(11):4-4.
7程玉胜,张春梅,胡学钢.一种递增式归纳学习算法[J].重庆大学学报（自然科学版）,2004,27(4):44-48. 被引量：1
8蒲保兴.如何解决高级语言编程中的内存不足问题[J].计算机应用,2001,21(1):93-94.
9于丰,刘威,李鹏.P2P网络负载调度的超图划分算法[J].沈阳建筑大学学报（自然科学版）,2014,30(5):953-960.
10宋国治,张大坤,马杰超,涂遥,刘畅.异构三维片上网络布局优化的超图划分算法[J].计算机科学与探索,2016,10(6):811-821.

计算机工程与科学

2015年第9期

浏览历史

内容加载中请稍等...

一种改进的基于大数据集的混合聚类算法被引量：7

参考文献6

二级参考文献33

共引文献1172

同被引文献66

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

一种改进的基于大数据集的混合聚类算法 被引量：7

参考文献6

二级参考文献33

共引文献1172

同被引文献66

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

一种改进的基于大数据集的混合聚类算法被引量：7