期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Spark的大数据聚类研究及系统实现 被引量:24
1
作者 王磊 邹恩岑 +2 位作者 曾诚 奚雪峰 陆悠 《数据采集与处理》 CSCD 北大核心 2018年第6期1077-1085,共9页
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不... 传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。 展开更多
关键词 SPARK 聚类 大数据
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部