一种基于MapReduce的改进k-means聚类算法研究被引量：2

An improved k-means clustering algorithm based on MapReduce

下载PDF

导出

摘要传统k-means算法的聚类中心需要经过多次迭代运算才能最终稳定,而MapReduce计算框架下的k-means聚类算法在处理迭代运算时效率并不理想.针对上述问题,提出一种新的基于MapReduce的k-means聚类算法.该算法对传统k-means算法进行了改进,通过将k-means聚类问题转化为Map和Reduce两阶段的k-means++算法聚类问题,并将权值概念和单通道技术引入到传统k-means++算法中,提升了算法在MapReduce框架中的执行效率.实验分析表明,该方法较之传统方法具有更好的加速比和可扩展性. The clustering centers of the traditional K-means algorithm need many iterations to be stable, and the efficiency of the K-means clustering algorithm in the MapReduce computing framework is not ideal. In view of the above problems,a new K-means clustering algorithm based on MapReduce is proposed. This algorithm has improved the traditional Kmeans algorithm. By sing-pass method, the K-means clustering problem is transformed into Mapand Reduce two stages of k-mean algorithm clustering problem. And the concept of the weights is introduced into the traditional k-means＋＋ algorithm, which improves the efficiency of the algorithm in the MapReduce framework. Experimental results show that the proposed method is better than the traditional method and has a better speedup and scalability.

作者郭晨晨朱红康 GUO Chenchen ZHU Hongkang(School of Mathematics and Computer Science, Shanxi Normal University, Shanxi Linfen 041000, China)

机构地区山西师范大学数学与计算机科学学院

出处《河北工业大学学报》 CAS 2016年第5期35-43,共9页 Journal of Hebei University of Technology

基金山西省自然科学基金(2015011040)

关键词 K-MEANS MAPREDUCE 两阶段单通道并行化加速比 k-means MapReduce two stages single pass parallelization speedup

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：83
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79

二级参考文献17

1Han J W, Kamber M. Data mining: concepts and techniques [M]. San Francisco, US: Morgan Kaufmann, 2001. 被引量：1
2Buyya R, Yeo C S, Venugopal S. Market-oriented cloud computing: vision,hype, and reality for delivering IT services as computing utilities, Keynote Paper [C] // Proceedings of the 10th IEEE International Conference on High Performance Computing and Communications. Dalian, China, 2009 :25-27. 被引量：1
3Armbrust M, Fox A. Above the clouds: a Berkeley view of cloud computing[R]. USA: University of California at Berkeley, 2009. 被引量：1
4Erdogmus H. Cloud computing., does nirvana hide behind the nebula[J]. IEEE Software, 2009,26 (2) : 4-6. 被引量：1
5Ghemawat S,Gobioff H, Leung S. The google file system[J].S ACM SIGOPS Operating Systems Review, 2003,37 (5) : 29-43. 被引量：1
6Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters [C] /// Proceedings of Operating Systems Design and Implementation. San Franciseo, CA, 2004 : 137-150. 被引量：1
7Xu X W, Jager J, Kriegel H P. A fast parallel clustering algorithm for large spatial databases[J]. Data Mining and Knowledge Discovery,1999,3(3) :263-290. 被引量：1
8郑纬民.云计算的大幕已经拉开.中国计算机学会通讯,2009,5(6):6-7. 被引量：4
9Apache Hadoop.Hadoop. http:∥hadoop.apache.org . 2011 被引量：1
10Wikipedia.k-means clustering. http:∥en.wikipedia.org/wiki/k-means-cluste-ring . 2011 被引量：1

共引文献140

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
3桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
4张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
5原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
6徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
7杨阳,张为群,刘枫,黄仁杰.基于MapReduce自适应参数的粗糙K-modes算法研究[J].计算机科学,2012,39(11):149-152.
8刘树仁,宋亚奇,朱永利,王德文.基于Hadoop的智能电网状态监测数据存储研究[J].计算机科学,2013,40(1):81-84. 被引量：51
9张磊,张公让,张金广.一种网格化聚类算法的MapReduce并行化研究[J].计算机技术与发展,2013,23(2):60-64. 被引量：3
10张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33

同被引文献27

1吴晓波,陈琦,盛玲玲.移动商务产业价值链研究[J].重庆大学学报（社会科学版）,2007,13(6):22-26. 被引量：19
2王德文,宋亚奇,朱永利.基于云计算的智能电网信息平台[J].电力系统自动化,2010,34(22):7-12. 被引量：194
3童恩栋,沈强,雷君,刘宇,唐晖.物联网情景感知技术研究[J].计算机科学,2011,38(4):9-14. 被引量：40
4傅鹤岗,李冉.基于用户实时反馈的协同过滤算法[J].计算机应用,2011,31(7):1744-1747. 被引量：12
5李改,李磊.一种解决协同过滤系统冷启动问题的新算法[J].山东大学学报（工学版）,2012,42(2):11-17. 被引量：14
6李聪,梁昌勇.基于n序访问解析逻辑的协同过滤冷启动消除方法[J].系统工程理论与实践,2012,32(7):1537-1545. 被引量：16
7张沛,吴潇雨,和敬涵.大数据技术在主动配电网中的应用综述[J].电力建设,2015,36(1):52-59. 被引量：48
8吴凯峰,刘万涛,李彦虎,苏伊鹏,肖政,裴旭斌,虎嵩林.基于云计算的电力大数据分析技术与应用[J].中国电力,2015,48(2):111-116. 被引量：134
9于洪,李俊华.一种解决新项目冷启动问题的推荐算法[J].软件学报,2015,26(6):1395-1408. 被引量：98
10宫志晨,李学俊,张晶晶,张以文,刘慧婷.基于多向测度和属性相似度的混合协同过滤[J].计算机应用与软件,2015,32(6):62-65. 被引量：3

引证文献2

1董辉,方晓,马健,盛魁,姚宏亮.基于情景感知的移动电商用户-项目聚类协同过滤推荐算法[J].广西民族大学学报（自然科学版）,2018,24(2):61-68. 被引量：1
2高强,郑乐为,童存智.输变电设备集中监控大数据研究及应用[J].电力大数据,2019,22(3):13-18. 被引量：16

二级引证文献17

1李英,钱建国,方响,杨翾,董航,杨兴超.基于大数据背景的集中监控辅助决策系统研究[J].浙江电力,2019,38(10):34-39. 被引量：8
2陈志勇.智能电网的大数据处理技术应用[J].集成电路应用,2020,37(2):78-79. 被引量：5
3孙云岭,徐建建,李飞,李少博,苏玉京,李芸.基于大数据挖掘的电网监控信息智能监控研究[J].电力大数据,2020,23(1):45-50. 被引量：11
4陈锐,吴应双,曹杰,刘明顺.基于Hadoop和HBase的输变电设备数据聚合平台[J].电力大数据,2020,23(3):62-68. 被引量：7
5韦彪,刘天琪,苏学能.依托Hadoop架构的海量变压器实时监测与存储方案构建[J].电测与仪表,2020,57(10):6-12. 被引量：15
6王惠群.电网调控运行大数据储存与处理技术研究与应用分析[J].IT经理世界,2019,22(7):53-53.
7严绍奎,田瑞,张翔.智能电网环境下电能计量大数据智能多维分析[J].信息技术,2021,45(4):90-96. 被引量：10
8何蕾,葛鑫,郝晨煜,张磊,常帅.基于YOLO v5的变电站作业人员着装规范性识别[J].电力大数据,2021,24(10):1-8. 被引量：10
9李波,杨明.贵州大气环境中耐候钢在输变电设备中的应用探讨[J].电力大数据,2021,24(10):86-92. 被引量：2
10张磊.基于情景感知技术的网络信息资源个性化推荐方法[J].河北北方学院学报（自然科学版）,2022,38(1):21-26. 被引量：4

1钱政.Android平台下基于改进的K-means酒店信息聚类算法[J].淮海工学院学报（自然科学版）,2014,23(4):22-25. 被引量：2
2刘海峰,刘守生,姚泽清,张学仁.一种基于改进K-means聚类的文本特征选择模型[J].微电子学与计算机,2009,26(6):29-31. 被引量：2
3陈海彬,郭金玉,谢彦红.基于改进K-means聚类的kNN故障检测研究[J].沈阳化工大学学报,2013,27(1):69-73. 被引量：8
4王欢,李红辉,张骏温.改进K-means聚类的云任务调度算法[J].计算机与现代化,2017(2):1-5. 被引量：10
5肖进胜,程显,李必军,高威,彭红.基于Beamlet和K-means聚类的车道线识别[J].四川大学学报（工程科学版）,2015,47(4):98-103. 被引量：11
6夏火松,李保国,杨培.基于改进K-means聚类的在线新闻评论主题抽取[J].情报学报,2016,35(1):55-65. 被引量：15
7张蕾,崔志坤,李井泉,白涛.改进K-means模型在电力系统用户行为分析中的应用[J].无线电工程,2017,47(3):12-14. 被引量：2
8董阳,王瑾,柏鹏.基于改进K-means聚类和量子粒子群算法的多航迹规划[J].电讯技术,2014,54(9):1249-1253. 被引量：5
9乔丽,姜慧霖,贾世杰.基于改进K-means聚类的案例检索策略[J].计算机工程,2011,37(5):193-195. 被引量：10
10闫新庆,王换换,栗青霞,傅喆.基于改进K-Means聚类的煤炭交易者信誉度划分[J].计算机工程与应用,2014,50(2):231-236. 被引量：1

河北工业大学学报

2016年第5期

浏览历史

内容加载中请稍等...

一种基于MapReduce的改进k-means聚类算法研究被引量：2

参考文献2

二级参考文献17

共引文献140

同被引文献27

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

一种基于MapReduce的改进k-means聚类算法研究 被引量：2

参考文献2

二级参考文献17

共引文献140

同被引文献27

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

一种基于MapReduce的改进k-means聚类算法研究被引量：2