基于维分量簇中心为初始中心的多维k-means聚类算法

Multi Dimensional k-means Algorithm Based on the Clustering Center Value of Each Dimension

下载PDF

导出

摘要数据挖掘中对多维数据的处理时空见惯,分析了传统k-means的不足,通过维简约、聚类前孤点排除,降低数据样本的复杂度与孤点对聚类结果的影响,以数据空间中各维分量的聚类中心作为聚类初始中心值.通过实验结果分析,改进后的k-means算法能在很大程度上提高多维聚类的效率与聚类质量. The processing of multidimensional data in data mining become a common occurrence.This paper analyzes the lack of traditional k-means,through dimension reducing and eliminating outlier before clustering then proposes a new algorithm of using the clustering center value of each dimension as the initial center of the clustering of all data space.Experiments results show the efficiency and clustering quality of this algorithm in clustering.

作者孙平安

机构地区武夷学院实验室管理中心

出处《曲阜师范大学学报（自然科学版）》 CAS 2012年第4期65-69,共5页 Journal of Qufu Normal University(Natural Science)

基金武夷学院青年教师专项科研基金(XQ201110)

关键词 K-MEANS 多维数据维简约孤点排除 k-means multi data dimension reducing eliminating outlier

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献11

1周卫星,廖欢.基于K均值聚类和概率松弛法的图像区域分割[J].计算机技术与发展,2010,20(2):68-70. 被引量：10
2MacQ J. Some methods for classification and analysis of multivariate observations [ C ].//In : P roc. 5th Berkeley Symposium in Mathematics. Berkeley, USA : Univ of Ca li- fornia, 1967. 被引量：1
3GUHA S, RASTOGIR, SHIMK. CURE: An efficient cluste- ring algorithm for large databases [ C ]//Proceedings of the 1998 ACM SIGMOD International Conference on Manage- ment of Data. New York: ACM Press, 1998: 73-84. 被引量：1
4Ester, Martin, Hans Peter Kriege, let al. A Density Based Algorithm for Discovering Clusters in Large Spatial Data- bases with Noise [ C ]//Proceedings of the 2nd International Conference on Knowledge Discovery and DataM ining (KDD-96). Ortland, Oregon: [ s. n. ], 1996. 被引量：1
5Wang W,Yang J, Muntz R. ST ING: A Statistical Informa- tion Grid Approach to Spatial Data Mining [ C ] //Proc of 1997 Intl Conf on Very Large Databases. Athens, Greece: [s. n. ] ,1997: 186-195. 被引量：1
6Kohonen T. Self-Organized Formation of Topologically Cor- rect Feature Maps [ J]. Biological Cybernetics, 1982, 43 ( 1 ) :59-69. 被引量：1
7JiaweiHan,MichelineKamber.数挖掘概念与技术(第2版)[M].范明,孟小峰译.北京:机械工业出版社,2008.251-283. 被引量：1
8周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：134
9万小军,杨建武,陈晓鸥.文档聚类中k-means算法的一种改进算法[J].计算机工程,2003,29(2):102-103. 被引量：29
10陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44

二级参考文献36

1陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
2李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9
3MacQueen J. Some methods for classification and analysis of multivariate observations[ D]. Berkeley, Calif. :University of California Press, 1967. 被引量：1
4Huang Z. Extensions to the k- means algorithm for clustering large data sets with categorical values [ J ]. Data Mining and Knowledge Discovery, 1998(2) : 283 - 304. 被引量：1
5Zucker S W. Relaxation Processes for Scene Labeling: Convergence,Speed, and Stability [J ]. IEEE trans, on SMC, 1978 (1):41-48. 被引量：1
6Rcsenfeld A, Hummel R A, Zucker S W. Scene labeling by relaxation operations [ J ]. IEEE Trans. Syst. Man Cybem, 1976,6 : 420 - 453. 被引量：1
7GARBAY C. Image Structure Representation and Proccssing A Discussion of Some Segmentation Methods in Cytology[ J ] IEEE Tran. on PAMI, 1986,8(2) : 140 - 146. 被引量：1
8Mac Q J. Some methods for classification and analysis of mult- ivariate observations [ C ]//In: Proc. 5th Berkeley Symposium in Mathematics. Berkeley, USA : Univ of California, 1967. 被引量：1
9GUHA S, RASTOGI R, SHIM K. CURE: An efficient clustering algorithm for large databases [ C ]//Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 1998: 73-84. 被引量：1
10Ester,Martin, Hans Peter Kriegel, et al. A Density Based Algoriihm for Discovering Clusters in Large Spatial Databases with Noise [ C ]//Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining(KDD-96). Ortland,Oregon: [ s. n. ] ,.1996. 被引量：1

共引文献213

1赵翠翠,尹春华.K-means和SOM在商品评论中的情感词聚类对比[J].北京信息科技大学学报（自然科学版）,2020,35(1):23-26. 被引量：6
2赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
3楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
4马国俊,贠卫国.基于潜在语义索引的中文文本聚类的研究[J].现代电子技术,2005,28(10):58-59. 被引量：4
5刘天桢,童恒庆.基于投影寻踪和聚类分析的多维数据可视化[J].福建电脑,2005,21(8):113-114. 被引量：1
6谷淑化,吕维先.基于消息传递的并行聚类算法[J].现代计算机,2006,12(1):82-84. 被引量：3
7何兴无.用户兴趣实例模型与K_means算法的改进[J].重庆师范大学学报（自然科学版）,2006,23(2):38-41. 被引量：4
8刘海峰,王元元,王倩.基于分类的VSM模式下文本检索研究[J].情报科学,2006,24(11):1700-1703. 被引量：11
9刘海峰,王元元,丘国防.密度聚类模式下一种基于层次的自动文摘方法研究[J].情报杂志,2007,26(3):55-57. 被引量：2
10李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9

1冀素琴,石洪波.面向海量数据的K-means聚类优化算法[J].计算机工程与应用,2014,50(14):143-147. 被引量：13
2衣治安,王月.基于MapReduce的K_means并行算法及改进[J].计算机系统应用,2015,24(6):188-192. 被引量：4
3姚丽娟,罗可,孟颖.一种新的k-medoids聚类算法[J].计算机工程与应用,2013,49(19):153-157. 被引量：18
4韩虎,张莉莉.神经网络方法在数据挖掘中的应用[J].兰州交通大学学报,2004,23(4):88-90. 被引量：3
5周鑫,张化祥.k-means算法的研究与改进[J].微计算机信息,2008,24(30):269-270. 被引量：7
6步媛媛,关忠仁.基于K-means聚类算法的研究[J].西南民族大学学报（自然科学版）,2009,35(1):198-200. 被引量：23
7刘欢,卢蓓蓉,张瑾.数据挖掘改善校园网体验[J].中国教育网络,2012(7):27-30. 被引量：4
8肖频.基于模糊关联规则和遗传算法的入侵检测[J].电脑编程技巧与维护,2009(10):117-118. 被引量：1
9龙昊,冯剑琳,李曲.R-means:以关联规则为簇中心的文本聚类[J].计算机科学,2005,32(9):156-159. 被引量：3
10李林,李建兵,牛鹏超.基于粒子群算法的RBF神经网络的优化方法[J].山东电力高等专科学校学报,2010,13(1):51-53. 被引量：4

曲阜师范大学学报（自然科学版）

2012年第4期

浏览历史

内容加载中请稍等...

基于维分量簇中心为初始中心的多维k-means聚类算法

参考文献11

二级参考文献36

共引文献213

相关作者

相关机构

相关主题

浏览历史