基于MapReduce的分布式网络数据聚类算法被引量：9

Distributed Clustering Algorithm for Network Data Based on MapReduce

下载PDF

导出

摘要时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法。根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利用Map内合并技术对网络流量进行控制,在进行中间结果合并时仅对社团合并,而不考虑社团内部节点,以控制内存开销。使用模拟生成的数据在集群中进行实验,结果表明,当数据规模和集群规模增大时,该算法具有较好的加速比和扩展性。 Due to the high time and space complexity and physical machines out of memory, traditional clustering algorithms usually can not effectively analyze and deal with large data network. To solve this problem, this paper proposes a distributed clustering algorithm for network data based on MapReduce model. It adopts the theory of MRC theory to design limited round number of MapReduce to control the time in shuffle stage, and utilizes the Map inner merging technology to control network flow. It proposes an idea that if merge the intermediate results, only merge clusters and do not consider the internal nodes, which can control memory overhead. It utilizes the data sets generated by simulation to do experiment. Experimental results show that when the data size and cluster scale increases, the CAMR algorithm has good speedup ratio and scalability.

作者陈东明刘健王冬琦徐晓伟

机构地区东北大学软件学院阿肯色大学小石城分校信息科学系

出处《计算机工程》 CAS CSCD 2013年第7期76-82,共7页 Computer Engineering

基金辽宁省自然科学基金资助项目(20102059)

关键词聚类算法分布式聚类 MapReduce编程模型数据挖掘社团结构 clustering algorithm distributed clustering MapReduce programming model data mining community structure

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1Xu Xiaowei, Yuruk N, Feng Zhidan. SCAN: A Structural Clustering Algorithm for Networks[C]//Proc. of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2007. 被引量：1
2Johnson H O, Teter A J. News and Announcements Changes: Share Your News Online with the Chemical Education Com- munity[J]. Journal of Chemical Education, 2012, 89(1): 12. 被引量：1
3Wooldridge J M. Cluster-sample Methods in Applied Econo- metrics[C]//Proc. of the American Economic Review. Washington D. C., USA: American Economic Association, 2003: 133-138. 被引量：1
4Younis O, Fahmy S. HEED: A Hybrid, Energy-efficient, Distri- buted Clustering Approach for Ad Hoc Sensor Networks[J]. IEEE Transactions on Mobile Computing, 2004, 3(4): 366- 379. 被引量：1
5Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Cluster[J]. Communications of the ACM, 2005, 51(1): 107-113. 被引量：1
6Lee K, Lee Y, Choi H. Parallel Data Processing with Map- Reduce: A Survey[J]. ACM SIGMOD Record, 2011, 40(4): 11-20. 被引量：1
7Han Jiawei,Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.2版.北京:机械工业出版社,2007. 被引量：5
8Newman M E J. Networks: An Introduction[M]. Oxford, UK: Oxford University Press, 2010. 被引量：1
9Ambrosini E, Aloisi F. Chemokines and Glial Cells: A Complex Network in the Central Nervous System[J]. Neurochemical Research, 2004, 29(5): 1017-1038. 被引量：1
10Girvan M, Newman M E J. Community Structure in Social and Biological Networks[J]. Proceedings of the National Academy of Sciences, 2002, 99(12): 7821-7826. 被引量：1

共引文献4

1王灿伟,于治楼,张化祥.一种适合不平衡数据集的新型提升算法[J].计算机工程与应用,2011,47(28):169-172. 被引量：3
2梁成军,虞丽娟,王继红.网球技战术关联分析数据挖掘研究[J].计算机工程与应用,2012,48(7):246-248. 被引量：5
3林伟.基于贝叶斯分类的邮件过滤系统研究与实现[J].陕西理工学院学报（自然科学版）,2012,28(4):36-40. 被引量：1
4葛蓉,胡勤友,涂兴华,徐铁.水上交通加权安全评价中权重向量的异常分析[J].上海海事大学学报,2014,35(1):14-17. 被引量：1

同被引文献93

1张树国.高等院校大学生创新教育研究与实践初探[J].华中师范大学学报（人文社会科学版）,2012,51(S1):168-170. 被引量：14
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3洪月华.一种具有学习能力的人工蜂群优化算法[J].微电子学与计算机,2015,32(6):154-158. 被引量：2
4栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：112
5胡建军,唐常杰,李川,彭京,元昌安,陈安龙,蒋永光.基于最近邻优先的高效聚类算法[J].四川大学学报（工程科学版）,2004,36(6):93-99. 被引量：24
6孙微微,胡月明,刘才兴,薛月菊.基于决策树的土壤质量等级研究[J].华南农业大学学报,2005,26(3):108-110. 被引量：23
7王鑫,王洪国,张建喜,谷建军.基于数据分区的最近邻优先聚类算法[J].计算机科学,2005,32(12):188-190. 被引量：4
8张书慧,马成林,李伟,徐岩.变量施肥对玉米产量及土壤养分影响的试验[J].农业工程学报,2006,22(8):64-67. 被引量：34
9孙士保,秦克云.改进的k-平均聚类算法研究[J].计算机工程,2007,33(13):200-201. 被引量：50
10李艳,史舟,吴次芳,李锋,程街亮.基于模糊聚类分析的田间精确管理分区研究[J].中国农业科学,2007,40(1):114-122. 被引量：32

引证文献9

1原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
2武森,卢丹,冯小东,杜彦南.基于大规模复杂网络社区发现的科研合著网络分析[J].中国科技论文,2014,9(4):474-478. 被引量：4
3陈东明,马毅.研究生创新型学习教学研究[J].计算机教育,2014(17):84-87.
4林浩,苑超,王增辉.基于加权算法的土壤肥力状况的分析与研究[J].中国农机化学报,2015,36(6):315-318. 被引量：1
5牛丽媛,张桂芸.基于Storm的分布式实时数据流密度聚类算法[J].天津师范大学学报（自然科学版）,2018,38(3):72-76. 被引量：3
6宁可,孙同晶,徐洁洁.面向海量数据的改进最近邻优先吸收聚类算法[J].计算机工程,2018,44(4):35-40. 被引量：5
7洪月华.分布式大数据的群体行为模式挖掘算法[J].玉林师范学院学报,2019,40(2):145-151.
8李果,袁小凯,许爱东,张乾坤,张福铮.基于MapReduce的人工蜂群算法在大数据中的应用[J].计算机与数字工程,2020,48(1):124-129. 被引量：3
9李炜,翁晓军,李洪云,张家海,夏铁新.大数据分析模型的输变电设备智能运维研究[J].信息技术,2021,45(7):54-58. 被引量：5

二级引证文献22

1李纲,李岚凤,毛进,叶光辉.作者合著网络中研究兴趣相似性实证研究[J].图书情报工作,2015,59(2):75-81. 被引量：26
2刘彩虹.基于模块密度的差分进化社区发现技术[J].沈阳大学学报（自然科学版）,2016,28(2):132-140.
3马慧,赵捧未,王婷婷.语义减法聚类研究[J].计算机工程与科学,2016,38(9):1924-1929.
4纪开祝,许冲,陈宝兴.复杂网络重叠社区结构发现的演化算法研究[J].计算机工程与科学,2016,38(10):2077-2082. 被引量：2
5牛岩.作物产量指标综合评价的数据标准化处理[J].农村经济与科技,2017,28(19):16-19. 被引量：8
6明拓思宇,陈鸿昶,黄瑞阳,柳杨.基于加权AMR图的语义子图预测摘要算法[J].计算机工程,2018,44(10):292-297. 被引量：4
7何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报（理工版）,2019,36(1):4-17. 被引量：9
8向程冠,熊世桓,王东,熊伟程.基于关联规则与相似度的社交好友推荐算法[J].计算机工程,2019,45(4):175-180. 被引量：14
9黄恺彤,周开东,李凯,钟苏生.基于信息分散算法的分布式数据实时存储方法[J].电子设计工程,2020,28(5):12-16. 被引量：11
10桑遥,尹君,王迪,王皓,景康.基于增强重引力搜索的高维数据协同聚类算法[J].计算机应用与软件,2020,37(10):300-306. 被引量：2

1周傲英,崇志宏.数据流中基于计数的频繁模式挖掘[J].计算机应用,2004,24(10):4-6. 被引量：1
2术语解析[J].网管员世界,2008(2):106-106.
3王冬秀,李辉.基于概要数据结构的高维数据流聚类算法[J].广西工学院学报,2011,22(4):59-64.
4王磊,黄志球,朱小栋,沈国华,程亮.数据流中基于事务链表组的频繁闭项集挖掘[J].计算机工程与设计,2008,29(8):1896-1899.
5杨金良.解析Symbian操作系统内存管理机制[J].电脑编程技巧与维护,2010(8):3-4. 被引量：1
6宋振方.职责分明控指针[J].电脑知识与技术,2011,7(4):2327-2329.
7ocer.打破零延迟神话内存tRAS参数设置变化分析[J].电脑迷,2007,0(4):37-37.
8孙涛,张华春.基于MIL-STD-1553B协议的远程终端的FPGA实现[J].电子器件,2010,33(3):353-356. 被引量：3
9杨潇宇.Intel的特权:用好弹性双通道[J].电脑爱好者,2008,0(4):64-64.
10冯永茂,徐秀知,王骞,丁铁夫.基于FPGA的数字视频异步帧频转换器设计[J].电子器件,2007,30(3):1064-1067. 被引量：1

计算机工程

2013年第7期

浏览历史

内容加载中请稍等...

基于MapReduce的分布式网络数据聚类算法被引量：9

参考文献12

共引文献4

同被引文献93

引证文献9

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的分布式网络数据聚类算法 被引量：9

参考文献12

共引文献4

同被引文献93

引证文献9

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的分布式网络数据聚类算法被引量：9