期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种海量数据快速聚类算法 被引量:7
1
作者 何倩 李双富 +1 位作者 黄焕 徐红 《北京邮电大学学报》 EI CAS CSCD 北大核心 2020年第3期118-124,共7页
为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少Kmeans的欧氏距离计算次数.该算法基于S... 为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少Kmeans的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法. 展开更多
关键词 快速 SPARK 最佳初始 网格划分
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部