启发式初始化独立的k-均值算法研究被引量：4

Research on heuristic initialization-independent k-means algorithm

下载PDF

导出

摘要针对传统k-均值算法对初始聚类中心敏感的问题,提出了启发式初始化独立的k-均值算法。该算法引入prim算法选择k个初始聚类中心,且通过设置阈值参数θ,避免同一类中的多个数据对象同时作为初始聚类中心,否则将导致聚类迭代次数增加,并得到错误的聚类结果。与传统的k-均值算法和基于遗传算法的k-均值聚类算法相比,实验结果表明改进的算法不仅降低了初始聚类中心选取的随机性对聚类性能产生的影响,有效减少了聚类迭代次数,而且降低了离群点对聚类性能的影响,从而验证了算法的可行性和有效性。 According to the initialization sensitivity problem of the traditional k-means algorithm,a heuristic initializationindependent k-means algorithm is proposed.Prim algorithm is introduced to solve the selection of initial clustering centers,and the threshold parameter θ is set,which can avoid several data objects from the same class as the initial clustering centers simultaneously,otherwise the algorithm increases the iteration times,and the wrong clustering results are got.Compared with the traditional k-means algorithm and k-means clustering analysis based on genetic algorithm,the experimental result shows that the improved algorithm not only reduces the impact of random selection of initial clustering centers,and decreases the iteration times effectively,but also reduces the affect of outliers in the process of clustering,which validates the feasibility and effectiveness of the suggested algorithm.

作者王会青陈俊杰郭凯

机构地区太原理工大学计算机科学与技术学院

出处《计算机工程与应用》 CSCD 2012年第11期129-132,160,共5页 Computer Engineering and Applications

基金国家自然科学基金(No.60970059) 国家科技支撑计划(No.2009BAH42B02) 山西省自然科学基金(No.2008011040) 山西省青年基金项目(No.2011021013-3)

关键词聚类分析 K-均值算法 PRIM算法初始化敏感聚类中心 clustering analysis k-means clustering prim algorithm initialization sensitivity clustering center

分类号 TP311.12 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1毛国君.数据挖掘原理与算法[M].北京:清华大学出版社,2007. 被引量：82
2Likas A,Vlassis M,Verbeek J.The global k-means clusteringalgorithm[J].Pattern Recognition,2003,36(2):451-461. 被引量：1
3任江涛,施潇潇,孙婧昊,黄焕宇,印鉴.一种改进的基于特征赋权的K均值聚类算法[J].计算机科学,2006,33(7):186-187. 被引量：10
4钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
5赖玉霞,刘建平,杨国兴.基于遗传算法的K均值聚类分析[J].计算机工程,2008,34(20):200-202. 被引量：70
6汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：139
7苏锦旗,薛惠锋,詹海亮.基于划分的K-均值初始聚类中心优化算法[J].微电子学与计算机,2009,26(1):8-11. 被引量：33
8王晓东.计算机算法与设计[M].北京:电子工业出版社,2004:86-105. 被引量：1

二级参考文献43

1李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
2潘伟,刁华宗,井元伟.一种改进的实数自适应遗传算法[J].控制与决策,2006,21(7):792-795. 被引量：53
3钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
4王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
5黄光球,王西邓,刘冠.基于网格划分策略的改进人工鱼群算法[J].微电子学与计算机,2007,24(7):83-86. 被引量：18
6Han J W, Kamber M. Data mining concepts and techniques[ M].北京:高等教育出版社,2002:335-394. 被引量：1
7Bradley P S, Fayyad U M. Refining initial points for K- Means clustering [ C ]// Proc. of the 15th International Conf. on Machine Learning. San Franciseo, CA: Morgan Kaufmann, 1998: 91 - 99. 被引量：1
8Mob' d B Al- Daoud, Stuart A Roberts. New methods for the initialization of clusters[J]. Pattern Recognition Letters, 2001(17) :451 - 455. 被引量：1
9Kaufman L, Rousseeuw P J. Finding groups in data:an introduction to cluster analysis[M]. NY:John Wiley&Sons, 1990. 被引量：1
10Moh' d B,Al - Daoud,Stuart A Roberts. New methods for the initialization of clusters[J]. Pattern Recognition Letters,2002(17) :451 - 455. 被引量：1

共引文献333

1张红荣,张峰.传统的K-means聚类算法的研究与改进[J].咸阳师范学院学报,2010,25(4):59-62. 被引量：4
2徐辉,李石君.一种整合粒子群优化和K-均值的数据聚类算法[J].山西大学学报（自然科学版）,2011,34(4):518-523. 被引量：9
3刘伯颖,张素琪,张丽丽.一种引力搜索和K-means的混合聚类算法[J].河北工业大学学报,2013,42(3):23-27. 被引量：3
4姜月秋,牛硕,高宏伟.一种新的基于K均值聚类的色彩量化算法研究[J].计算机科学,2012,39(S3):375-377. 被引量：6
5王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
6周爱武,汪贤惠,刘慧婷.基于HowNet词汇相关性的文本聚类[J].微电子学与计算机,2015,32(4):90-93. 被引量：4
7叶志伟,尹宇洁,王明威,赵伟.一种基于杜鹃搜索算法的聚类分析方法[J].微电子学与计算机,2015,32(5):104-110. 被引量：6
8陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
9陈媛媛,屈志毅,张恒龙,廖绍雯.一种初值优化的K-均值文档聚类算法(英文)[J].江西师范大学学报（自然科学版）,2008,32(2):206-210. 被引量：2
10刘艳丽,刘希玉,孟岩,祖伟.K-均值算法聚类分析及其在人力资源管理中的应用[J].山东科学,2008,21(2):33-38. 被引量：5

同被引文献34

1单梁,强浩,李军,王执铨.基于Tent映射的混沌优化算法[J].控制与决策,2005,20(2):179-182. 被引量：195
2范英,张忠能,凌君逸.聚类方法在通信行业客户细分中的应用[J].计算机工程,2004,30(B12):440-441. 被引量：9
3刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
4Dung X L,Berti E L,Srivastava D.Truth discovery and copying detection in a dynamic world [J].Proceedings of the VLDB En-dowment,2009,2(1):562-573. 被引量：1
5Kopeke H,Thor A,Rahm E.Evaluation of entity resolution ap-proaches on real-world match problems [J].Proceedings of the VLDBEndowment,2010,3(1/2):484-493. 被引量：1
6Fan W F,Geerts F.Capturing missing tuples and missing value [A].Proc of the 29th ACM SIGMOD slGAcT-SIGART Symp c Principles of Database Systems [C].New York:ACM,2010:169-178. 被引量：1
7Li M J,Ng M K,et al.Agglomerative fuzzy K-means clustering algo-rithm with selection of number of clusters [J].IEEE Transactions on Knowledge and Data Engineering,2008,20(11):1519-1534. 被引量：1
8Frank A,Asuncion A.UCI machine learning repository [EB/0L].[2012-05-20]http://archive.ics.uci.edu/mI. 被引量：1
9Li M J,Ng M K. Agglomerative fuzzy K-means clustering algorithm with selection of number of clusters[J].{H}IEEE Transactions on Knowledge and Data Engineering,2008,(11):1519-1534. 被引量：1
10孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1069

引证文献4

1程媛媛.基于Prim最小生成树算法的时间成本研究[J].河北北方学院学报（自然科学版）,2013,29(6):24-28. 被引量：2
2赵凯,李声晋,白雪,赵锋.复合形退火的随机聚类算法[J].计算机应用研究,2013,30(4):1041-1043. 被引量：2
3朱利华.基于混沌PSO和K均值算法的移动用户分类[J].计算技术与自动化,2013,32(4):57-60.
4陈思慧.基于MIP和改进模糊K-Means算法的大数据聚类设计[J].计算机测量与控制,2014,22(4):1270-1272. 被引量：4

二级引证文献8

1郑帅,吕芳.模糊K-means算法在临床路径决策中的应用[J].辽宁师专学报（自然科学版）,2019,21(3):81-88. 被引量：3
2蒲荣富.改进的模拟退火算法求全局优化问题的最优解[J].宜宾学院学报,2013,13(6):78-81. 被引量：2
3李春青.文本聚类算法研究[J].软件导刊,2015,14(1):74-76. 被引量：5
4卢威,戴文娟,黄雅馨,张峰,陈靓瑜.面向表层海水温度的时空数据挖掘研究[J].海洋信息,2015,30(3):9-15.
5蔡洪山,许峰.基于改进预测强度的大数据K-均值聚类方法[J].软件导刊,2016,15(5):4-6. 被引量：1
6代祖浩,陈俊强,代阳.基于OWA多属性决策无线传感网分簇算法[J].电子设计工程,2018,26(2):144-148. 被引量：2
7何庆,易娜,汪新勇,江立斌.基于高斯混合模型的最大期望聚类算法研究[J].微型电脑应用,2018,34(5):50-52. 被引量：15
8贺军忠,崔俊峰.基于Prim的局域网升级改造算法优化[J].廊坊师范学院学报（自然科学版）,2020,20(1):24-26.

1张涤,杨燕,唐瑞雪.基于文化算法的混合聚类方法[J].计算机工程与应用,2009,45(4):159-161. 被引量：4
2何炎祥,刘续乐,陈强,梁伟,孙松涛.社交网络用户兴趣挖掘研究[J].小型微型计算机系统,2014,35(11):2385-2389. 被引量：10
3孙大雷,孟凡荣,闫秋艳.一种初始化不敏感的谱聚类算法[J].微电子学与计算机,2012,29(7):94-97. 被引量：1
4唐贤伦,庄陵,李银国,曹长修.基于粒子群优化和模糊c均值聚类的入侵检测[J].计算机工程,2008,34(4):13-15. 被引量：7
5朱长江,张缨.模糊C-均值聚类算法的改进研究[J].河南大学学报（自然科学版）,2012,42(1):92-95. 被引量：7
6张俊溪,杨海粟.一种新的粒子群优化聚类算法[J].微处理机,2016,37(2):61-64.
7李衍君.基于粒子群的模糊聚类算法研究[J].佳木斯大学学报（自然科学版）,2012,30(2):281-284. 被引量：2
8王会青,陈俊杰.基于图划分的谱聚类方法的研究[J].计算机工程与设计,2011,32(1):289-292. 被引量：16
9朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
10张磊,董惠,杨润玲.基于模糊聚类遗传算法的图像分割方法研究[J].现代电子技术,2009,32(16):120-122. 被引量：4

计算机工程与应用

2012年第11期

浏览历史

内容加载中请稍等...

启发式初始化独立的k-均值算法研究被引量：4

参考文献8

二级参考文献43

共引文献333

同被引文献34

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

启发式初始化独立的k-均值算法研究 被引量：4

参考文献8

二级参考文献43

共引文献333

同被引文献34

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

启发式初始化独立的k-均值算法研究被引量：4