期刊文献+

基于Spark的K-means聚类的并行实现与优化 被引量:1

下载PDF
导出
摘要 为解决传统聚类算法K-means在处理海量数据聚类时对初始中心点的选取十分的依赖,容易得到部分最优而非全局最优的聚类后果,提出了一种基于Spark改进的聚类优化DMCK-means算法。DMCK-means算法首先应用密度法排除孤立点和噪声点使初始聚类中心选取趋于最优化;采用Canopy算法和最大最小距离原则,粗略聚类降低运算规模同时避免中心选取的盲目性。实验结果表明:该改进算法不仅降低了对初始聚类中心点选取的依赖,而且降低了聚类的时间,具有良好的扩展性和可行性,在处理大规模海量数据时能展示出较大的优势。
出处 《福建电脑》 2017年第11期1-4,共4页 Journal of Fujian Computer
基金 国家自然科学基金资助项目"网络零售交易风险动态评估及预警研究"(71571021)
  • 相关文献

参考文献11

二级参考文献82

共引文献145

同被引文献13

引证文献1

二级引证文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部