对于基于划分的聚类算法随机选取初始聚类中心导致初始中心敏感,聚类结果不稳定、集群效率低等问题,提出一种基于MapReduce框架和改进的密度峰值的划分聚类算法(based on MapReduce framework and improved density peak partition clus...对于基于划分的聚类算法随机选取初始聚类中心导致初始中心敏感,聚类结果不稳定、集群效率低等问题,提出一种基于MapReduce框架和改进的密度峰值的划分聚类算法(based on MapReduce framework and improved density peak partition clustering algorithm,MR-IDPACA)。首先,通过自然最近邻定义新的局部密度计算方式,将搜索样本密度峰值点作为划分聚类算法的初始聚类中心;其次针对算法在大规模数据下运行时间复杂,提出基于E2LSH(exact Euclidean locality sensitive hashing)的一种分区方法,即KLSH(K of locality sensitive hashing)。通过该方法对数据分区后结合MapReduce框架并行搜寻初始聚类中心,有效减少了算法在搜索初始聚类中心时的运行时间;对于MapReduce框架中的数据倾斜问题,提出ME(multistage equilibrium)策略对中间数据进行多段均衡分区,以提升算法运行效率;在MapReduce框架下并行聚类,得到最终聚类结果。实验得出MR-IDPACA算法在单机环境下有着较高的准确率和较强的稳定性,集群性能上也有着较好的加速比和运行时间,聚类效果有所提升。展开更多
针对K-means聚类算法存在初始聚类中心敏感,离群点的检测和去除困难的问题,提出基于K-最近邻(K-Nearest Neighbor,KNN)优化密度峰值的K-means聚类算法(K-Nearest Neighbor of Density Peaks Clustering-K-Means,KDPC-K)。首先利用KNN最...针对K-means聚类算法存在初始聚类中心敏感,离群点的检测和去除困难的问题,提出基于K-最近邻(K-Nearest Neighbor,KNN)优化密度峰值的K-means聚类算法(K-Nearest Neighbor of Density Peaks Clustering-K-Means,KDPC-K)。首先利用KNN最近邻思想结合改进的密度函数确定数据样本点局部密度,其次以平均局部密度作为阈值来检测和去除离群点,最后采用一种自适应策略合并相似的聚类簇,获取初始聚类中心。实验在多个UCI数据集和含有噪声的人工数据集上表明,改进的算法与文献中的算法对比,具有更好的抗噪性、鲁棒性和聚类效果。展开更多
文摘对于基于划分的聚类算法随机选取初始聚类中心导致初始中心敏感,聚类结果不稳定、集群效率低等问题,提出一种基于MapReduce框架和改进的密度峰值的划分聚类算法(based on MapReduce framework and improved density peak partition clustering algorithm,MR-IDPACA)。首先,通过自然最近邻定义新的局部密度计算方式,将搜索样本密度峰值点作为划分聚类算法的初始聚类中心;其次针对算法在大规模数据下运行时间复杂,提出基于E2LSH(exact Euclidean locality sensitive hashing)的一种分区方法,即KLSH(K of locality sensitive hashing)。通过该方法对数据分区后结合MapReduce框架并行搜寻初始聚类中心,有效减少了算法在搜索初始聚类中心时的运行时间;对于MapReduce框架中的数据倾斜问题,提出ME(multistage equilibrium)策略对中间数据进行多段均衡分区,以提升算法运行效率;在MapReduce框架下并行聚类,得到最终聚类结果。实验得出MR-IDPACA算法在单机环境下有着较高的准确率和较强的稳定性,集群性能上也有着较好的加速比和运行时间,聚类效果有所提升。
文摘针对K-means聚类算法存在初始聚类中心敏感,离群点的检测和去除困难的问题,提出基于K-最近邻(K-Nearest Neighbor,KNN)优化密度峰值的K-means聚类算法(K-Nearest Neighbor of Density Peaks Clustering-K-Means,KDPC-K)。首先利用KNN最近邻思想结合改进的密度函数确定数据样本点局部密度,其次以平均局部密度作为阈值来检测和去除离群点,最后采用一种自适应策略合并相似的聚类簇,获取初始聚类中心。实验在多个UCI数据集和含有噪声的人工数据集上表明,改进的算法与文献中的算法对比,具有更好的抗噪性、鲁棒性和聚类效果。