一种基于MapReduce高效K-means并行算法被引量：3

An efficient K-means parallel algorithm based on MapReduce

下载PDF

导出

摘要针对K-means算法对初值选取的依赖,收敛速度慢,聚类精度低,以及对海量数据的处理存在内存瓶颈的问题,提出一种基于MapReduce的高效K-means并行算法.该算法在MapReduce框架基础上,结合K选择排序算法进行并行采样,提高采样效率;采用基于样本预处理策略获取初始中心点;使用权值替换策略对迭代中心进行更新;此外,通过调整Hadoop集群,对算法的运行效率作出进一步提升.实验结果表明,该算法不仅具有良好的收敛性、准确率、加速比,算法性能也得到进一步改善. Focusing on the problem of K-means algorithm that has dependence of initial value selection, slow convergence, lower clustering accuracy, slow operating speed and overflow memory when dealing with large data, an efficient K-means parallel algorithm based on Map Reduce is proposed. Firstly, the algorithm is based on the Map Reduce framework, and combined with K selective sorting algorithm to improve the sampling efficiency; Secondly, the initial center point is obtained based on the sample pretreatment strategy; Finally, the iterative center is updated by using the weight replacement policy; In addition, by adjusting the Hadoop cluster, the efficiency of the algorithm is further enhanced. Experimental results show that the proposed algorithm not only has good convergence, accuracy and speedup, but also can improve performance of the algorithm.

作者王永贵崔鹏

机构地区辽宁工程技术大学软件学院

出处《辽宁工程技术大学学报（自然科学版）》 CAS 北大核心 2017年第11期1204-1211,共8页 Journal of Liaoning Technical University (Natural Science)

基金国家自然科学基金(61404069) 辽宁省科技厅博士启动基金(20141140)

关键词 K-MEANS MAPREDUCE HADOOP 并行采样 K选择排序 k-means hadoop mapreduce parallel sampling K selection sort

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
2贾瑞玉,管玉勇,李亚龙.基于MapReduce模型的并行遗传k-means聚类算法[J].计算机工程与设计,2014,35(2):657-660. 被引量：22
3慈祥,马友忠,孟小峰.一种云环境下的大数据Top-K查询方法[J].软件学报,2014,25(4):813-825. 被引量：17
4肖雪平,倪建成,曹博.基于Map-Reduce模型的BCkmeans并行聚类算法[J].电子技术（上海）,2016,0(5):26-30. 被引量：2
5虞倩倩,戴月明,李晶晶.基于MapReduce的ACO-K-means并行聚类算法[J].计算机工程与应用,2013,49(16):117-120. 被引量：13

二级参考文献50

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
3刘星,毕奇龙,郑付刚.基于蚁群K均值聚类算法的边坡稳定性分析[J].水电能源科学,2010,28(8):108-109. 被引量：5
4张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
6陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
7韩家炜,堪博擞据挖掘概念与技术[M].北京:机械工业出版社,2007:5-6. 被引量：1
8Ngazimbi M.Data clustering using mapreduce[D].Idaho: Bosie State University, 2009. 被引量：1
9Dean J, Ghemawat S.MapReduce: simplified data processing on large clusters[J].Communications of the ACM, 2005,51 (1) : 107-113. 被引量：1
10Fagin R. Combining fuzzy information from multiple systems. Journal of Computer and System Sciences, 1999,58(1):83-99. [doi: 10.1006/jcss.1998.1600]. 被引量：1

共引文献81

1田进华,张韧志.基于MapReduce数字图像处理研究[J].电子设计工程,2014,22(15):93-95. 被引量：7
2张广蓉,陈庆奎,章刚,赵海燕,高丽萍,霍欢.基于MapReduce的并行化模糊划分算法[J].计算机应用,2014,34(11):3073-3077.
3余伟,李石君,杨莎,胡亚慧,刘晶,丁永刚,王骞.Web大数据环境下的不一致跨源数据发现[J].计算机研究与发展,2015,52(2):295-308. 被引量：24
4孙兵率.一种基于MapReduce的频繁项集挖掘算法[J].软件导刊,2015,14(4):75-77. 被引量：1
5武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
6陈钦荣,刘顺来.基于Top-k查询算法改进的储存与NSDL调度算法研究[J].现代计算机（中旬刊）,2015(5):28-32.
7王永贵,戴伟,武超.一种基于Hadoop的高效K-Medoids并行算法[J].计算机工程与应用,2015,51(16):47-54. 被引量：4
8孟海东,任敬佩.基于云计算平台的聚类算法[J].计算机工程与设计,2015,36(11):2990-2994. 被引量：10
9罗恩韬,王国军.大数据中一种基于语义特征阈值的层次聚类方法[J].电子与信息学报,2015,37(12):2795-2801. 被引量：8
10单留举,王晓东,马英运.基于大数据的用户学习偏好建模及应用[J].计算机应用与软件,2016,33(1):77-80. 被引量：8

同被引文献19

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：71
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1069
4毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
5虞倩倩,戴月明,李晶晶.基于MapReduce的ACO-K-means并行聚类算法[J].计算机工程与应用,2013,49(16):117-120. 被引量：13
6赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
7程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：735
8宋旭东,朱文辉,邱占芝.大数据k-Means聚类挖掘优化算法[J].大连交通大学学报,2015,36(3):91-94. 被引量：6
9郭平,王可,罗阿理,薛明志.大数据分析中的计算智能研究现状与展望[J].软件学报,2015,26(11):3010-3025. 被引量：58
10孟海东,任敬佩.基于云计算平台的聚类算法[J].计算机工程与设计,2015,36(11):2990-2994. 被引量：10

引证文献3

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
2刘燕.基于抽样和最大最小距离法的并行K-means聚类算法[J].智能计算机与应用,2018,8(6):37-39. 被引量：10
3王法玉,刘志强.Spark框架下分布式K-means算法优化方法[J].计算机工程与设计,2019,40(6):1595-1600. 被引量：13

二级引证文献43

1徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
2宋阳,石鸿雁.基于MapReduce框架下的K-means聚类算法的改进[J].计算机与现代化,2019,0(8):28-32. 被引量：7
3韩存鸽,刘长勇.一种改进的K-Means算法[J].闽江学院学报,2019,40(5):49-54. 被引量：6
4崔艺馨,陈晓东.Spark框架优化的大规模谱聚类并行算法[J].计算机应用,2020,40(1):168-172. 被引量：10
5刘语婵,姚奕,黄松,骆润.移动应用众包测试报告自动化评估算法设计[J].软件导刊,2020,19(3):104-110.
6孙彬,王欣,徐春.一种基于劳动密集度的剩余劳动力资源聚类方法[J].地域研究与开发,2020,39(3):53-58.
7Qing Hou,Guangjian Wang,Xiaozheng Wang,Jiaxi Xu,Yang Xin.Research and Application on Spark Clustering Algorithm in Campus Big Data Analysis[J].Journal of Computer Science Research,2020,2(1):16-20. 被引量：1
8徐雨婷,陈世平.面向云数据中心资源均衡分配需求的聚类调度算法研究[J].上海理工大学学报,2020,42(4):404-410. 被引量：4
9钟章生,陈世炉,陈志龙.利用并行惯性权重OOL-FA的大数据分类[J].计算机工程与设计,2020,41(10):2818-2824.
10杨娴,汪柳兵,李德林.基于自适应预测箱的风电场景分析方法[J].电网与清洁能源,2020,36(8):82-90. 被引量：3

1周晓峰.替换策略的教学设计与思考[J].小学教学参考（数学版）,2018,0(1):46-46.
2康高强,李春茂,秦莉娟.基于激光摄像技术的钢轨波磨检测方法研究[J].城市轨道交通研究,2017,20(10):84-87. 被引量：5
3李琪,张欣,张平康,张航.基于密度峰值优化的Canopy-Kmeans并行算法[J].通信技术,2018,51(2):312-317. 被引量：7
4冯立强,刘晓悦.基于遗传算法的神经网络PID控制方法研究[J].物联网技术,2017,7(10):40-42. 被引量：4
5饶东宁,王军星,魏来,王雅丽.并行最小割算法及其在金融社交网络中的应用[J].广东工业大学学报,2018,35(2):46-50. 被引量：1
6原建伟,何玉辉,丁洁.大数据实验云平台的设计与实现[J].信息技术,2018,42(2):68-71. 被引量：8
7何俊,时文俊.基于背景值和初值改进的灰色Verhulst模型[J].吉首大学学报（自然科学版）,2017,38(6):12-14.
8沈毅斌,徐晋.基于TIADC的信号频谱分析系统设计[J].自动化与仪器仪表,2017(10):55-57. 被引量：3
9凌杰,黄刚.基于Docker的Hadoop集群网络性能分析[J].信息技术,2018,42(2):15-18. 被引量：6
10肖洋,曾明.应用软件的内存性能瓶颈分析方法研究[J].甘肃科技,2018,34(2):19-21. 被引量：1

辽宁工程技术大学学报（自然科学版）

2017年第11期

浏览历史

内容加载中请稍等...

一种基于MapReduce高效K-means并行算法被引量：3

参考文献5

二级参考文献50

共引文献81

同被引文献19

引证文献3

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

一种基于MapReduce高效K-means并行算法 被引量：3

参考文献5

二级参考文献50

共引文献81

同被引文献19

引证文献3

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

一种基于MapReduce高效K-means并行算法被引量：3