基于近邻图的k-means初始中心选择调优算法被引量：3

NEIGHBOURHOOD GRAPH-BASED K-MEANS INITIAL CENTRE SELECTION AND TUNING ALGORITHM

下载PDF

导出

摘要 k-means算法以其算法简单、计算效率高而被广泛应用在数据挖掘、机器学习、计算机视觉等领域。然而,k-means算法的性能严重依赖于其初始聚类中心的选取。不同的初始聚类中心导致k-means算法的聚类结果变化很大。一个合理的方式是选取处在数据相对密集区域的数据样本作为初始聚类中心。鉴于此,提出一种基于数据近邻图的k-means初始中心选取算法。该算法分为三个阶段:1)构建数据集的局部近邻图;2)选取初始聚类中心的候选集合;3)确定恰当的初始聚类中心。实验结果表明,该算法选取的初始聚类中心是合理的,同时,可以加快k-means的收敛速度。 K-means clustering algorithm is widely used in the fields of data mining,machine learning and computer vision for its conceptually simplicity and high computation efficiency. However,its performance severely relies on the initial clustering centre selection. Differentinitial clustering centre results in the clustering results of k-means algorithm sharply varying. A reasonable solution is to choose the data sample in the region with relative dense data as the initial clustering centre. In view of this,we propose a data neighbourhood graph-basedinitial centre selection method for k-means algorithm,which takes three steps. The first step is to construct the neighbourhood graph of the dataset. The second step is to choose candidates collection of initial clustering centres. The last step is to decide appropriate initialclustering centre. Experimental results show that the initial clustering centre chosen by the proposed method is reasonable,and can speed up the convergence of k-means at the same time.

作者胡湘萍

机构地区解放军信息工程大学河南经贸职业学院

出处《计算机应用与软件》 CSCD 北大核心 2014年第4期178-181,192,共5页 Computer Applications and Software

关键词聚类 K均值初始化近邻图 Clustering k-means Initialisation Neighbourhood graph

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献20

1Hartigan J A. Clustering Algorithms [ M ]. Wiley, New York, 1975. 被引量：1
2Jain A K. Data clustering: 50 years beyond K-means [J]. Pattern Rec- ognition Letters,2010, 31 (8) : 651 -666. 被引量：1
3Jain A K,Murty M N,Flynn P J. Data Clustering: A Review [J]. ACM Computing Surveys, 1999,31 ( 3 ) : 264 - 323. 被引量：1
4Segundo M P, Silva L, Bellon O R P, et al. Automatic Face Segmenta- tion and Facial Landmark Detection in Range Images [ J]. IEEE Trans- actions on Systems, Man ,and Cybernetics, Part B : Cybernetics, 2010, 40:1319 - 1330. 被引量：1
5Yu S, Tranchevent L C, Liu X, et al. Optimized Data Fusion for Kernel k-Means Clustering [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(5 ) :1031 - 1039. 被引量：1
6Liu Bing, Li Xiaoli, Lee Wee Sun, et al. Text classification by labeling words [ C ]//Prec. 19th national conference on artificial intelligence (AAAI'04) ,Anthony G. Cohn ( Ed. ). AAAI Press,2004:425 -430. 被引量：1
7Lloyd S. Least squares quantizatian in PCM [ J ]. IEEE Transaction on Information Theory, 1982,28 : 129 - 137. 被引量：1
8Celebi M E, Kingravi H A, Vela P A. A comparative study of efficient initialization methods for the k-means clustering algorithm [ J ]. Expert Systems with Applications,2013,40( 1 ) : 200 -210. 被引量：1
9Celebi M E, Kingavi H A. Deterministic Initialization of the K-Means Algorithm Using Hierarchical Clustering [ J ]. International Journal of Patiern Recognition and Artificial Intelligence,2012,26 ( 7 ). 被引量：1
10Belkin M, Niyogi P. Laplacian eigenmaps for dimensionality reduction and data representation [ J]. Neural computation,2003,15 ( 6 ) : 1373 - 1396. 被引量：1

同被引文献16

1李仁义,数据挖掘中聚类分析算法的研究与应用[D].成都:电子科技大学,2009. 被引量：2
2阮桂海.SPSS for windows应用教程[M].北京:电子工业出版社,1998. 被引量：1
3Zhao Chunfang,Wu Yingliang,Gao Haijun.Study on knowledge acquisition of the telecom customers′consuming behavior based on data mining[D].Guangzhou:School of Economics and Commerce South China University of Technology,2008. 被引量：1
4张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
5吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
6陈光平,王文鹏,黄俊.一种改进初始聚类中心选择的K-means算法[J].小型微型计算机系统,2012,33(6):1320-1323. 被引量：39
7王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：21
8熊祖涛.基于稀疏特征的中文微博短文本聚类方法研究[J].软件导刊,2014,13(1):133-135. 被引量：4
9王永贵,林琳,刘宪国.结合双粒子群和K-means的混合文本聚类算法[J].计算机应用研究,2014,31(2):364-368. 被引量：16
10韩俊,谈健,黄河,乔黎伟.基于改进K-means聚类算法的供电块划分方法[J].电力自动化设备,2015,35(6):123-129. 被引量：27

引证文献3

1孙骏.固网漏话用户数据分析[J].微型机与应用,2015,34(1):59-62.
2陈龙,徐建,于亚男,胡建洪.基于话题相似性改进的K-means新闻话题聚类[J].计算机与数字工程,2017,45(8):1560-1565. 被引量：7
3王全民,胡德程.基于Spark的K-means快速聚类算法的优化[J].计算机仿真,2022,39(3):344-349. 被引量：13

二级引证文献20

1陈黎明,黄瑞章,秦永彬,陈艳平.面向新闻事件的故事树构建方法[J].计算机工程与设计,2020,41(7):1910-1919. 被引量：4
2魏家泽,董诚,何彦青,刘志辉,彭柯芸.基于均衡段落和分话题向量的新闻热点话题检测研究[J].数据分析与知识发现,2020,4(10):70-79. 被引量：1
3李天怡,应文豪.基于改进Single-pass 算法的新闻话题演化跟踪算法[J].电脑知识与技术,2021,17(10):26-29.
4陈黎明,黄瑞章,秦永彬,陈艳平,刘丽娟.面向舆情监测的话题追踪方法[J].计算机与数字工程,2021,49(8):1625-1630.
5万倩,朱里越.面向海量新闻数据的舆情分析技术研究[J].广播电视信息,2021,28(10):93-97.
6林静,胡德敏,王揆豪.一种改进的差分隐私聚类位置保护方法[J].软件导刊,2021,20(12):133-137.
7张丽,李菊.基于改进K-means算法的微博舆情热点分析[J].信息技术与信息化,2022(9):103-106. 被引量：2
8于志良.基于Flink的鲸鱼优化K-Means算法[J].互联网周刊,2023(4):83-85. 被引量：2
9舒兆翰,李小龙,黎宇茵.融合聚类法的改进三帧差分车辆检测算法[J].江西科学,2023,41(1):159-166. 被引量：1
10黄凌子.基于Spark的旅游舆情热点发现方法研究[J].信息系统工程,2023(1):14-17.

1胥淘.一种基于改进LBP算子的人脸识别算法研究[J].电脑与信息技术,2010,18(6):36-38. 被引量：3
2吴耀华,张念志.带时间窗车辆路径问题的改进粒子群算法研究[J].计算机工程与应用,2010,46(15):230-234. 被引量：24
3郑希源,张化祥.基于局部近邻相关性的多标记算法[J].计算机科学,2014,41(2):123-126. 被引量：4
4张琳.一种基于局部结构保持的数据降维方法[J].微电子学与计算机,2016,33(5):76-79.
5杨章静,万鸣华,王巧丽,张凡龙,杨国为.多流形的非监督线性差分投影算法[J].计算机科学与探索,2016,10(11):1577-1586. 被引量：1
6唐宋,陈利娟,陈志贤,叶茂.基于目标域局部近邻几何信息的域自适应图像分类方法[J].计算机应用,2017,37(4):1164-1168. 被引量：6
7汪梅,李琳,汪斌,何高明.分水岭算法应用于主动轮廓模型能量分割算法的研究[J].计算机科学,2017,44(5):314-319. 被引量：4
8郭金玉,袁堂明,李元.一种不等长的多模态间歇过程故障检测方法[J].化工学报,2016,67(7):2916-2924. 被引量：13
9张瑶,陈维斌,傅顺开.基于大数据的高校图书馆推荐系统仿真研究[J].计算机工程与设计,2013,34(7):2533-2541. 被引量：23
10李新叶,余晓晔.适用于复杂结构的多路谱聚类算法的改进[J].北京工业大学学报,2013,39(3):425-429. 被引量：1

计算机应用与软件

2014年第4期

浏览历史

内容加载中请稍等...

基于近邻图的k-means初始中心选择调优算法被引量：3

参考文献20

同被引文献16

引证文献3

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于近邻图的k-means初始中心选择调优算法 被引量：3

参考文献20

同被引文献16

引证文献3

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于近邻图的k-means初始中心选择调优算法被引量：3