摘要
为解决传统聚类算法K-means在处理海量数据聚类时对初始中心点的选取十分的依赖,容易得到部分最优而非全局最优的聚类后果,提出了一种基于Spark改进的聚类优化DMCK-means算法。DMCK-means算法首先应用密度法排除孤立点和噪声点使初始聚类中心选取趋于最优化;采用Canopy算法和最大最小距离原则,粗略聚类降低运算规模同时避免中心选取的盲目性。实验结果表明:该改进算法不仅降低了对初始聚类中心点选取的依赖,而且降低了聚类的时间,具有良好的扩展性和可行性,在处理大规模海量数据时能展示出较大的优势。
出处
《福建电脑》
2017年第11期1-4,共4页
Journal of Fujian Computer
基金
国家自然科学基金资助项目"网络零售交易风险动态评估及预警研究"(71571021)