改进的二分K均值聚类算法被引量：25

IMPROVED BISECTING K-MEANS CLUSTERING ALGORITHM

下载PDF

导出

摘要 K均值算法是一种常用的基于原型的聚类算法。但该算法要求用户随机选择初始质心,使得K均值算法受初始化影响较大。二分K均值算法虽然改善了这个问题,但仍然要求用户指定聚类个数,影响了聚类效果。用层次聚类对二分法进行改进,解决了二分K均值算法受用户指定的聚类个数的影响的问题。并结合Chameleon算法,合并划分过细簇,优化聚类结果。仿真实验证明改进的聚类算法的抱团性和分离性优于二分K均值聚类算法。 K-means algorithm is a kind of commonly used clustering algorithm based on the prototype. But the algorithm requires the user to randomly select initial centre of mass, which makes the K-means algorithm greatly influenced by the initialisation. Although the bisecting K-means algorithm has ameliorated this issue, but it still requires the user to specify clustering number, which impacts clustering effect. We use hierarchical clustering to improve bisecting K-means algorithm, thus solve the problem of impact caused by the bisecting K-means algorithm being affected by the number of clustering the user specified. Moreover, we combine the Chameleon algorithm and unite the clusters being divided too fine and optimise the clustering results. Simulation experiments prove that the unifying nature and separation property of the improved clustering algorithm is better than the bisecting K-means clustering algorithm.

作者刘广聪黄婷婷陈海南

机构地区广东工业大学计算机学院

出处《计算机应用与软件》 CSCD 2015年第2期261-263,277,共4页 Computer Applications and Software

基金广州科技计划项目(7411655926875)

关键词 K均值聚类二分K均值聚类 CHAMELEON算法层次聚类 K-means clustering Bisect K-means clustering Chameleon algorithm Hierarchical clustering

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1张春凯,王丽君.基于遗传算法的一种改进的K-均值聚类算法[J].计算机工程与应用,2012,48(26):144-147. 被引量：5
2白天,冀进朝,何加亮,周春光.混合属性数据聚类的新方法[J].吉林大学学报（工学版）,2013,43(1):130-134. 被引量：6
3Tan Pang·Ning,Michael Steinbach,Vipin Kumar.数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社,2011. 被引量：1
4胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：63
5Krishna B S Vamsi, P Satheesh, Suneel Kumar R. Comparative Study of K-means and Bisecting K-means Techniques in Wordnet Based Document Clustering [ J ]. International Journal of Engineering and Advanced Technology (IJEAT) ,2012,1 (6) :229 -234. 被引量：1
6Liu Xiaozhang, Feng Guocan. Kernel bisecting k-means clustering for SVM training sample reduction [ C ]//International Conference on Pattern Recognition ( 1CPR 2008 ), December,2008 : 1 - 4. 被引量：1
7张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
8裘国永,张娇.基于二分K-均值的SVM决策树自适应分类方法[J].计算机应用研究,2012,29(10):3685-3687. 被引量：8
9Yoo IIIhoi, Hu XiaoHua. A comprehensive comparison study of document clustering for a biomedical digital library MEDLINE [ C ]// Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital Libraries ( JCDL~}6), June ,2006:220 - 229. 被引量：1
10Silva J D A, Hruschka E R. Extending k-Means-Based Algorithms for Evolving Data Streams with Variable Number of Clusters [ C ]// International Conference on Machine Learning and Applications and Workshops ( ICMLA), December,2011 : 14 - 19. 被引量：1

二级参考文献48

1李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
2贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
3谢崇宝,袁宏源,郭元裕.最优分类的模糊划分聚类改进方法[J].系统工程,1997,15(1):58-63. 被引量：12
4Savaresi S M, Boley D. On the Performance of Bisecting K-Means and PDDP[C]//Proc. of the 1st SIAM International Conference on Data Mining. Chicago, USA: [s. n.], 2001: 1-14. 被引量：1
5Steinbach M, Karypis G, Kumar V. A Comparison of Document Clustering Techniques[C]//Proc. of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston, USA: [s. n.], 2000: 525-526. 被引量：1
6Liu Xiaozhang, Feng Guocan. Kernel Bisecting K-Means Clustering for SVM Training Sample Reduction[C]//Proc. of the 19th International Conference on Pattern Recognition. Tampa, USA: [s. n.], 2008: 1-4. 被引量：1
7Han Jiawei,Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2006 被引量：9
8Bandyopadhyay S, Maulik U.An evolutionary technique based on K-means algorithm for optimal clustering in RN[J].Information Sciences,2002,146:221-237. 被引量：1
9Larsen B, Aone C.A new cluster validity indexes for the fuzzy c-mean[C]//KDD-99, San Diego, California, 1999. 被引量：1
10Steinbach M, Karypis G, Kumar V, et al.Don' t worry be messy.Technical Report #00-034[R].2000. 被引量：1

共引文献95

1陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
2张娇,裘国永,张奇.基于二分K均值的SVM决策树的高维数据分类方法[J].赤峰学院学报（自然科学版）,2012,28(7):13-15. 被引量：1
3穆建晔,田碧洁.影响经济发展的文化因素及其扬弃[J].学术交流,2000(3):36-38.
4张宇,刘坡,杨敏华,龚建华,黄明详.基于GPU的二部图联合聚类并行算法研究[J].地理与地理信息科学,2013,29(4):99-103. 被引量：4
5谢璐,金志刚,王颖.基于视频稳像和视角变换的公交客流计数方法[J].计算机应用,2013,33(10):2926-2930. 被引量：6
6宋中山,周腾,周晶平.一种改进的蚁群聚类算法在客户细分中的应用[J].中南民族大学学报（自然科学版）,2013,32(3):77-81. 被引量：4
7韩最蛟.基于数据密集性的自适应K均值初始化方法[J].计算机应用与软件,2014,31(2):182-187. 被引量：19
8魏瑶,朱伟义,龚桃荣,郑浩.基于数据挖掘技术的用电异常分析系统设计[J].电力信息与通信技术,2014,12(5):70-73. 被引量：13
9高芹,陈亚.数据挖掘中一种高效的聚类通用框架研究[J].科学技术与工程,2014,22(16):112-118. 被引量：2
10沈国珍.依赖数据密度的K均值初始化调优[J].计算机工程与应用,2014,50(11):139-144. 被引量：4

同被引文献215

1Gang ZHANG,Zhixuan LI,Kaoshe ZHANG,Lei ZHANG,Xia HUA,Yongqing WANG.Multi-objective interval prediction of wind power based on conditional copula function[J].Journal of Modern Power Systems and Clean Energy,2019,7(4):802-812. 被引量：9
2张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
3孙力威,王艳,方晓,于秀捷,刘力威,刘晓梅.降水自记纸数字化处理系统常见问题及解决方法[J].辽宁气象,2004(4):40-40. 被引量：2
4王伯民,吕勇平,张强.降水自记纸彩色扫描数字化处理系统[J].应用气象学报,2004,15(6):737-744. 被引量：54
5杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：189
6王银辉,熊忠阳.使用BP网络改进K-means聚类效果[J].计算机科学,2006,33(3):194-196. 被引量：3
7刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
8郝占刚,王正欧.基于遗传算法和k-medoids算法的聚类新算法[J].现代图书情报技术,2006(5):44-46. 被引量：5
9朱尽文,王志峻,汪青春.“降水自记纸数字化处理系统”简介及数字化处理时应注意的问题[J].青海气象,2006(2):87-88. 被引量：5
10王珺,刘希玉.基于人工免疫系统aiNet模型的层次聚类算法[J].计算机工程与应用,2006,42(24):167-169. 被引量：8

引证文献25

1穆建晔,田碧洁.影响经济发展的文化因素及其扬弃[J].学术交流,2000(3):36-38.
2亓慧.多中心的非平衡K-均值聚类方法[J].中北大学学报（自然科学版）,2015,36(4):453-457. 被引量：2
3肖锋,冯飞,田鹏辉.多尺度下特征点的目标匹配[J].西安工业大学学报,2017,37(1):22-27. 被引量：1
4贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现,2018,2(2):86-95. 被引量：18
5渠慎明,王青博,刘珊,张东生.基于二分K均值聚类和最近特征线的视频超分辨率重建方法[J].河南大学学报（自然科学版）,2018,48(3):292-298. 被引量：2
6李阳,刘友波,黄媛,刘俊勇,熊军,陈浩珲,宁世超.配电网中长期动态规划投资的标尺激励评价方法[J].电力自动化设备,2018,38(6):95-102. 被引量：19
7吴清寿,刘耿耿,郭文忠.基于部分实例重判的二分K-means算法[J].福州大学学报（自然科学版）,2018,46(3):317-323. 被引量：1
8郁湧,康庆怡,陈长赓,阚世林,骆永军.基于内聚度和耦合度的二分K均值方法[J].计算机科学,2018,45(B06):460-464. 被引量：4
9付泽强,王晓锋.基于变参数的DBSCAN算法[J].网络安全技术与应用,2018(8):34-36. 被引量：1
10王华勇,韩松,肖孝天,杨超.改进的电力负荷曲线集成K-medoids聚类算法[J].电力科学与工程,2019,35(2):38-43. 被引量：3

二级引证文献113

1李奕霖,周艳平.基于孪生网络和字词向量结合的文本相似度匹配[J].计算机系统应用,2022,31(10):295-302. 被引量：2
2佐磊,胡小敏,何怡刚,孙洪凯,李兵.小样本数据处理的加速寿命预测方法[J].电子测量与仪器学报,2020,32(11):26-32. 被引量：8
3陈才,仇阿根,赵习枝,朱月月,张舒.兴趣面数据和随机森林方法的城市功能区划分[J].测绘科学,2022,47(7):160-168. 被引量：2
4唐冬来,田军太,杨俏.基于数据包络分析的配电网投资决策研究与应用[J].科技创新导报,2019,16(12):166-167. 被引量：3
5张金龙,邹裕龙,杨斌,姚灿杰,郑耀宗.基于二阶段双向搜索的解魔方机器人系统[J].计算机与现代化,2019(2):82-87. 被引量：4
6徐馨韬,柴小丽,谢彬,沈晨,王敬平.基于改进TextRank算法的中文文本摘要提取[J].计算机工程,2019,45(3):273-277. 被引量：24
7王闻慧.基于谷歌翻译及Doc2vec的中英句子相似度计算[J].电脑知识与技术,2019,15(5X):224-227.
8李晓峰,马静,李驰,朱恒民.基于XGBoost模型的电商商品品名识别算法研究[J].数据分析与知识发现,2019,3(7):34-41. 被引量：6
9陆爽,陈瑶.探讨信息技术背景下如何提高配电网运维技术水平[J].中国科技纵横,2019,0(15):189-189.
10汪志才,蔡晔,谭玉东,谢欣涛,蒋郑伟,凌明娟.考虑功能差异的输变电项目效益评价及投资优化方法[J].中国电力,2019,52(11):175-184. 被引量：7

1陈小松,崔志明.基于Chameleon算法的用户聚类的设计与实现[J].微机发展,2005,15(4):48-50. 被引量：7
2戚玉娥,刘方爱.一种基于聚类的异常流量检测算法[J].微计算机信息,2010,26(9):133-135. 被引量：2
3谷瑞军,叶宾,须文波.基于谱聚类的两阶段颜色量化算法[J].中国图象图形学报,2007,12(10):1922-1925. 被引量：5
4张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
5张洁玲,白清源.一种高效的K-means聚类改进算法[J].福州大学学报（自然科学版）,2014,42(4):537-542. 被引量：5
6黄文江,李翔,林祥.基于Chameleon算法的文本聚类技术研究[J].计算机技术与发展,2010,20(6):1-4. 被引量：2
7杨彩莲,谢福鼎.基于主题概念聚类的中文文本聚类[J].现代电子技术,2007,30(22):161-163. 被引量：2
8黄雷,郭雷.一种面向态势估计中分群问题的聚类方法[J].计算机应用,2006,26(5):1109-1110. 被引量：18
9曹长虎,李亚非.一种改进的Chameleon聚类算法[J].科学技术与工程,2010,10(33):8160-8163.
10张彤,孙全忠,闫东升.基于日志分析的网络用户行为分类研究[J].广东公安科技,2015,23(1):28-31.

计算机应用与软件

2015年第2期

浏览历史

内容加载中请稍等...

改进的二分K均值聚类算法被引量：25

参考文献10

二级参考文献48

共引文献95

同被引文献215

引证文献25

二级引证文献113

相关作者

相关机构

相关主题

浏览历史

改进的二分K均值聚类算法 被引量：25

参考文献10

二级参考文献48

共引文献95

同被引文献215

引证文献25

二级引证文献113

相关作者

相关机构

相关主题

浏览历史

改进的二分K均值聚类算法被引量：25