针对谱聚类算法self-tuning的局部尺度参数σ_i会受噪音点影响,进而影响聚类结果,及其所使用的K-means算法的不稳定,对聚类结果的影响,提出两种完全自适应的谱聚类算法SC_-SD(Spectral Clustering based on Standard Deviation)和SC_-MD...针对谱聚类算法self-tuning的局部尺度参数σ_i会受噪音点影响,进而影响聚类结果,及其所使用的K-means算法的不稳定,对聚类结果的影响,提出两种完全自适应的谱聚类算法SC_-SD(Spectral Clustering based on Standard Deviation)和SC_-MD(Spectral Clustering based on Mean Distance),分别定义样本i的标准差、样本i到其余样本的距离均值,为样本i的邻域半径,统计邻域内的样本数,以样本i的邻域标准差为其局部尺度参数,避免样本i的局部尺度参数受噪音点影响,进而影响聚类结果;以方差优化初始聚类中心的SD_-K-medoids算法代替K-means算法,克服K-means算法的不稳定,发现数据的真实分布.UCI数据集和人工数据集实验测试表明,提出的SC_-SD和SC_-MD算法能得到更优聚类结果,不受噪音点影响,有很好的伸缩性.提出的SC_-SD和SC_-MD能完全自适应地发现数据集的真实分布信息,尤其SC_-MD算法很适合较大规模数据集的聚类分析.展开更多
文摘针对谱聚类算法self-tuning的局部尺度参数σ_i会受噪音点影响,进而影响聚类结果,及其所使用的K-means算法的不稳定,对聚类结果的影响,提出两种完全自适应的谱聚类算法SC_-SD(Spectral Clustering based on Standard Deviation)和SC_-MD(Spectral Clustering based on Mean Distance),分别定义样本i的标准差、样本i到其余样本的距离均值,为样本i的邻域半径,统计邻域内的样本数,以样本i的邻域标准差为其局部尺度参数,避免样本i的局部尺度参数受噪音点影响,进而影响聚类结果;以方差优化初始聚类中心的SD_-K-medoids算法代替K-means算法,克服K-means算法的不稳定,发现数据的真实分布.UCI数据集和人工数据集实验测试表明,提出的SC_-SD和SC_-MD算法能得到更优聚类结果,不受噪音点影响,有很好的伸缩性.提出的SC_-SD和SC_-MD能完全自适应地发现数据集的真实分布信息,尤其SC_-MD算法很适合较大规模数据集的聚类分析.