随着大数据时代的到来,面对数据量剧增,传统的聚类算法将面临极大的挑战.为了提高聚类算法的效率,本文基于Hadoop平台设计与实现了并行化的Partitioning Around Medoid聚类算法,并从优化聚类单元和聚类中心的角度,结合视觉聚类的核心思...随着大数据时代的到来,面对数据量剧增,传统的聚类算法将面临极大的挑战.为了提高聚类算法的效率,本文基于Hadoop平台设计与实现了并行化的Partitioning Around Medoid聚类算法,并从优化聚类单元和聚类中心的角度,结合视觉聚类的核心思想提出了粗粒度聚类单元策略(Coarse-Grained Clustering Unit Strategy).通过多组实验比较,结果表明,在粗粒度聚类单元策略的优化下算法在运行效率,计算能力等方面提高6%以上,所实现的并行算法具有良好的加速比,扩展比和伸缩率.研究结果为以后的大数据集下的聚类分析奠定了基础.展开更多
文摘随着大数据时代的到来,面对数据量剧增,传统的聚类算法将面临极大的挑战.为了提高聚类算法的效率,本文基于Hadoop平台设计与实现了并行化的Partitioning Around Medoid聚类算法,并从优化聚类单元和聚类中心的角度,结合视觉聚类的核心思想提出了粗粒度聚类单元策略(Coarse-Grained Clustering Unit Strategy).通过多组实验比较,结果表明,在粗粒度聚类单元策略的优化下算法在运行效率,计算能力等方面提高6%以上,所实现的并行算法具有良好的加速比,扩展比和伸缩率.研究结果为以后的大数据集下的聚类分析奠定了基础.