基于初始中心优化的遗传K-means聚类新算法被引量：17

New genetic K-means clustering algorithm based on meliorated initial center

下载PDF

导出

摘要一个好的K-means聚类算法至少要满足两个要求:(1)能反映聚类的有效性,即所分类别数要与实际问题相符;(2)具有处理噪声数据的能力。传统的K-means算法是一种局部搜索算法,存在着对初始化敏感和容易陷入局部极值的缺点。针对此缺点,提出了一种优化初始中心的K-means算法,该算法选择相距最远的处于高密度区域的k个数据对象作为初始聚类中心。实验表明该算法不仅具有对初始数据的弱依赖性,而且具有收敛快,聚类质量高的特点。为体现聚类的有效性,获得更高精度的聚类结果,提出了将优化的K-means算法(PKM)和遗传算法相结合的混合算法(PGKM),该算法在提高紧凑度(类内距)和分离度(类间距)的同时自动搜索最佳聚类数k,对k个初始中心优化后再聚类,不断地循环迭代,得到满足终止条件的最优聚类。实验证明该算法具有更好的聚类质量和综合性能。 A good K-means clustering algorithm should meet two requirements at least.First,it can reflect the validity of clustering,in other words,clustering number eonsistents with the practical problems.Second,it has the ability to handle the noise.The traditional K-means algorithm is a local search algorithin,which is sensitive to initialization and easy to search a local maximum. To address this shorteoming,a new K-means algorithin is proposed to optimize the initial center.The algorithin finds k data objects,all of which are belong to high density area and the most far away to each other.Experiments show that the algorithin has not only the weak dependence on initial data,but also fast convergence and high clustering quality.To realize the validity of clustering and get clustering results of higher accuracy,the paper proposes a hybrid algorithin,which combines the optimal K- means algorithm and the genetic algorithm.The algorithm can automatically get the optimal value of k with high compact clusters and large separation between at least two clusters,and optimal k initial center in order to get better clustering,then continue to search iteratively to get the optimal solution.Experiments show that the hybrid method has better clustering quality and general performance.

作者孙秀娟刘希玉

机构地区山东师范大学信息科学与工程学院山东师范大学管理学院

出处《计算机工程与应用》 CSCD 北大核心 2008年第23期166-168,182,共4页 Computer Engineering and Applications

基金山东省自然科学基金重大项目(No.Z2004G02) 山东省中青年科学家奖励基金资助项目(No.03BS003) 山东教育厅科技计划项目(No.J05G01) "泰山学者"建设工程专项经费资助~~

关键词聚类 K—means算法遗传算法 clustering K-means algorithm genetic algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1毛国君等编著..数据挖掘原理与算法[M].北京:清华大学出版社,2005:314.
2MacQueen J.Some methods for classification and analysis of multivariate observations[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, 1967. 被引量：1
3史忠植著..知识发现[M].北京:清华大学出版社,2002:402.
4Wang Wei.Yang Jiong,Muntz R.STING:a statistical information grid approach to spatial data mining[C]//Proc of the 23rd International Conference on Very Large Data Bases,1997. 被引量：1
5Pakhiraa M K,Bandyopadhyayb S I,JjwalMaulikc U.Validity index for crisp and fuzzy clusters[J].Pattern Rccognition,2004,37:487-501. 被引量：1
6唐立新,杨自厚,王梦光.用遗传算法改进聚类分析中的K-平均算法[J].数理统计与应用概率,1997,12(4):350-356. 被引量：23
7Agrawal R,Gehrke J,Gunopulcs D.Automatic subspaee clustering of high dimensional data for data mining application[C]//Proc of ACM SIGMOD Intconfon Management on Data,Seattle,WA,1998:94-205. 被引量：1
8Bandyopadhyay S I,JjwalMaulik U.An evolutionary technique based on K-means algorithm for optimal clustering in RN[J].Information Sciences, 2002,146 : 221-237. 被引量：1
9傅景广,许刚,王裕国.基于遗传算法的聚类分析[J].计算机工程,2004,30(4):122-124. 被引量：49
10Guha S,Rastogi R,Shim K.Cure:an efficient clustering algorithm for large database[C]//Proc of ACM-SIGMOND Int Conf Management on Data,Seattle,Washington,1998:73-84. 被引量：1

二级参考文献14

1AnsariN HouE 李军边肇祺译.用于最优化的计算智能[M].北京：清华大学出版社,1999.. 被引量：2
2HANJW KAMBRM.DataMiningConceptsandTechniques(影印本)[M].北京:高等教育出版社,2001.326-329. 被引量：1
3WU YS, DING XQ. A new clustering method for Chinese character recognition system using artificial neural networks[J]. Chinese Journal of Electronics, 1993, 2(3):1-8. 被引量：1
4MAULIK U, BANDYOPADHYAY S. Genetic Algorithm-based Clustering Technique[J]. Pattern Recognition, 2000, 33(9):1455-1465. 被引量：1
5LIKAS A, VLASSIS N. The Global k-means clustering algorithm[J]. Pattern Recognition, 2003, 36(2):451-461. 被引量：1
6LI J, GAO XB, JI HB. A feature weighted FCM clustering algorithm based on evolutionary strategy[A]. Proceedings of the 4th World Congress on Intelligent Control and Automation[C]. Shanghai, China, 2003.1540-1553. 被引量：1
7Fisher RA. Iris Data[EB/OL]. http://www.gseis.ucla.edu/courses/data/iris, 2004. 被引量：1
8Treshansky A,McGraw R.An overview of clustering algorithms[A].Proceedings of SPIE,The International Society for Optical Engineering[C].2001(4367):41-51. 被引量：1
9Clausi D A.K-means Iterative Fisher (KIF) unsupervised clustering algorithm applied to image texture segmentation[J].Pattern Recognition,2002,35:1959-1972. 被引量：1
10Bezdek J C,Pal N R.Some new indexes of cluster validity[J].IEEE Transactions on Systems,Man,and Cybernetics _ Part B:Cybernetics,1998,28(3):301-315. 被引量：1

共引文献261

1刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：27
2段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
3刘文一,孙伟,朱良明,赵志博.舰载飞行器打击水面舰艇编队队形识别和目标选择方法[J].兵器装备工程学报,2020,41(2):85-89. 被引量：11
4刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：23
5鲜于建川,隽志才.基于遗传聚类算法的出行行为分析[J].计算机应用研究,2009,26(3):836-839.
6万尤宝,褚君浩,于天燕,余丙鲲.铁电晶体铌酸钾锂的二次谐波产生[J].人工晶体学报,2000,29(S1).
7楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
8曹树志,项响琴.基于改进的K_Means算法的城市高架桥交通流分析[J].公路交通科技（应用技术版）,2010,6(10):261-264.
9韩丽苹,孟海东,李海荣.聚类算法在矿产资源与经济发展关系研究中的应用[J].煤炭技术,2015,34(5):290-292.
10武兆慧,张桂娟,刘希玉.基于模拟退火遗传算法的聚类分析[J].计算机应用研究,2005,22(12):24-26. 被引量：15

同被引文献131

1刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：23
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3苏守宝,刘仁金.基于佳点集遗传算法的聚类技术[J].计算机应用,2005,25(3):643-645. 被引量：7
4陈燕,耿国华,郑建国.一种改进的基于密度的聚类算法[J].微机发展,2005,15(3):17-19. 被引量：13
5万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16
6王明春,王正欧.基于粗集与遗传算法相结合的文本模糊聚类方法[J].电子与信息学报,2005,27(4):548-551. 被引量：4
7杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：192
8孙红岩,孙晓鹏,李华.基于K-means聚类方法的三维点云模型分割[J].计算机工程与应用,2006,42(10):42-45. 被引量：24
9冯征.一种基于粗糙集的K-Means聚类算法[J].计算机工程与应用,2006,42(20):141-142. 被引量：16
10田地,王世卿.数据挖掘中基于密度和距离聚类算法设计[J].计算机技术与发展,2006,16(10):49-51. 被引量：5

引证文献17

1曹树志,项响琴.基于改进的K_Means算法的城市高架桥交通流分析[J].公路交通科技（应用技术版）,2010,6(10):261-264.
2潘崇,朱红斌.改进k-means算法在图像标注和检索中的应用[J].计算机工程与应用,2010,46(4):183-185. 被引量：8
3山拜.达拉拜,曹红丽,尤努斯.艾沙.基于遗传算法的K-means初始化EM算法及聚类应用[J].现代电子技术,2010,33(15):102-103. 被引量：1
4洪亮亮,罗可.改进的基于遗传算法的粗糙聚类方法[J].计算机工程与应用,2010,46(25):142-145. 被引量：10
5姚跃华,史秀岭.一种优化初始中心的K-means粗糙聚类算法[J].计算机工程与应用,2010,46(34):126-128. 被引量：14
6曹红丽,山拜.达拉拜.混合EM算法研究及聚类应用[J].通信技术,2010,43(11):150-152. 被引量：1
7周爱武,潘勇,崔丹丹,肖云.AGNES算法在K-means算法中的应用[J].微型机与应用,2011,30(23):79-81. 被引量：2
8陈英,何中市,黄敏.一种优化的K-means聚类中心算法研究[J].制造业自动化,2012,34(8):19-22. 被引量：5
9姚丽娟,罗可,孟颖.一种基于粒子群的聚类算法[J].计算机工程与应用,2012,48(13):150-153. 被引量：14
10朱丽莉,李真真.基于生物地理学模糊C均值聚类的图像分割算法[J].应用科技,2012,39(5):67-70. 被引量：2

二级引证文献86

1洪亮亮,罗可.动态的粗糙增量聚类方法[J].计算机工程与应用,2011,47(24):106-110. 被引量：5
2周爱武,潘勇,崔丹丹,肖云.AGNES算法在K-means算法中的应用[J].微型机与应用,2011,30(23):79-81. 被引量：2
3黄芬,朱艳,梁敬东,伍艳莲,姜海燕.优化初始中心点的小麦品质区域聚类[J].计算机工程与应用,2011,47(36):34-37. 被引量：1
4刘建华,王进,孟颖,王文生.基于模拟退火的粗糙集K均值电力负荷聚类分析[J].现代电力,2012,29(1):10-14. 被引量：5
5岳金柱,王德来.对易县“两山”划分和“四荒”拍卖的思考[J].河北林果研究,2000,15(1):20-23. 被引量：3
6刘城霞.基于MS聚类分析模型的数据挖掘应用探讨[J].计算机与现代化,2012(4):56-60.
7周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：48
8孙君顶,杜娟.图像自动语义标注技术综述[J].计算机系统应用,2012,21(7):258-261. 被引量：3
9郑丹,王潜平.K-means初始聚类中心的选择算法[J].计算机应用,2012,32(8):2186-2188. 被引量：35
10马丽.一种基于降维聚类算法的车辆故障挖掘技术[J].科技通报,2013,29(2):166-168.

1赵京胜,韩凌霄,孙宇航.一种优化初始中心的改进K-means算法[J].青岛理工大学学报,2015,36(6):99-102. 被引量：2
2朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
3唐贤伦,庄陵,李银国,曹长修.基于粒子群优化和模糊c均值聚类的入侵检测[J].计算机工程,2008,34(4):13-15. 被引量：7
4秦福高,王文琴.基于k-means算法改进的蚁群聚类算法[J].常州工学院学报,2013,26(3):39-42. 被引量：2
5孙秀娟.一种初始中心优化的k-means算法[J].电子制作,2014,22(6X):46-46.
6张鲁营,赵晓凡.一种有效的均值聚类初始化方法[J].智能计算机与应用,2016,6(3):17-20. 被引量：3
7张涤,杨燕,唐瑞雪.基于文化算法的混合聚类方法[J].计算机工程与应用,2009,45(4):159-161. 被引量：4
8苗京,黄红星,程卫生,袁启勋.基于蚁群模糊聚类算法的图像边缘检测[J].武汉大学学报（工学版）,2005,38(5):124-127. 被引量：19
9胡恒滔,龙建忠.基于蚁群算法的模糊C-均值聚类算法在声纹识别中的应用[J].四川大学学报（自然科学版）,2007,44(3):543-547. 被引量：10
10曾利军,李泽军,柳佳刚.基于矩阵加权关联规则的区间模糊C均值聚类[J].计算机工程,2010,36(22):52-54. 被引量：1

计算机工程与应用

2008年第23期

浏览历史

内容加载中请稍等...

基于初始中心优化的遗传K-means聚类新算法被引量：17

参考文献14

二级参考文献14

共引文献261

同被引文献131

引证文献17

二级引证文献86

相关作者

相关机构

相关主题

浏览历史

基于初始中心优化的遗传K-means聚类新算法 被引量：17

参考文献14

二级参考文献14

共引文献261

同被引文献131

引证文献17

二级引证文献86

相关作者

相关机构

相关主题

浏览历史

基于初始中心优化的遗传K-means聚类新算法被引量：17