基于节点数据密度的分布式K-means聚类算法研究被引量：5

Distributed K-means clustering by learning data density in local peer

下载PDF

导出

摘要 P2P(peer-to-peer)网络分布式聚类算法是利用P2P网络上各个节点的计算、存储能力以及网络的带宽,将算法的时间复杂度和空间复杂度平摊到各个节点,使处理和分析海量分布式数据成为可能,从而克服传统基于单个服务器的集中式聚类算法在数据处理能力等方面的限制。提出一种基于节点置信半径的分布式K-means聚类算法,该算法通过计算节点上数据分布的密度,找到同一类数据在节点的稠密和稀疏分布,从而确定聚类置信半径并指导下一步的聚类。实验表明,该算法能够有效地减少迭代次数,节省网络带宽;同时聚类结果也接近集中式聚类算法的结果。 The distributed clustering algorithm over the P2P（peer-to-peer） network can share the time and space complexity equally to each peer with utilizing computing and storage capacitates in them,as well as the bandwidth of the network.It overcomes the limitation of traditional central clustering algorithms in processing distributed data and makes it possible to process and analyze mass distributed data.This paper presented a distributed K-means clustering algorithm based on the confidence radius in local peer.The algorithm calculated the data density in local peer to find the dense and sparse distribution in the same cluster,which was used to deduce the confidence radius to guide the next clustering processing.Experimental results show that the algorithm can effectively reduce the number of iterations and save network bandwidth.Meanwhile,the clustering results in this algorithm are closed to those in the centralized clustering algorithm.

作者张科泽杨鹤标沈项军蒋中秋

机构地区江苏大学计算机科学与通信工程学院

出处《计算机应用研究》 CSCD 北大核心 2011年第10期3643-3645,3655,共4页 Application Research of Computers

基金国家自然科学基金资助项目(61005017) 国家科技创新基金资助项目(10C26213200946) 江苏省自然科学基金资助项目(BK2009199) 江苏省高校自然科学基础研究资助项目(10KJB520005) 江苏大学高级人才资助项目(1283000347) 江苏省科技创新资助项目(BC2009265)

关键词点对点技术 K-MEANS聚类自适应置信半径 P2P K-means clustering self-adjustment confidence radius

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1JAIN A K, MURTY M N, FLYNN P J. Data clustering: a review [J]. ACM Computing Surveys, 1999,31 (3): 264-323. 被引量：1
2郑苗苗,吉根林.DK-Means——分布式聚类算法K-Dmeans的改进[J].计算机研究与发展,2007,44(z2):84-88. 被引量：9
3DHILLON I, MODHA D. A data-clustering algorithm on distributed memory multiprocessors [ C ]. Proc of Workshop on Large-Scale Paral- lel Data Mining. Berlin : Springer, 2000 : 802- 802. 被引量：1
4KRUENGKRAI C, JARUSKULCHAI C. A parallel learning algorithm for text classification[ C ]//Proc of the 8th ACM SIGKDD Internatio- nal Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2002:201-206. 被引量：1
5LOPEZ-de-TERUEL P E, GARCIA J M, ACACIO M. The parallel EM algorithm and its application in computer vision[ EB/OL]. 1999. http ://ditec. urn. es/- jmgarcia/papers/em. pdf. 被引量：1
6FORMAN G, ZHANG Bin. Distributed data clustering can be effi- Cient and exact [ J ]. ACM SIGKDD Explorations Newsletter, 2000,2(2) :34-38. 被引量：1
7EISENHARDT M, MULLER W, HENRICH A. Classifying docu- ments by distributed P2P clustering [ C ]//Proc of Jahrestagung der Gesellschaft fur Informatik. 2003 : 286-291. 被引量：1
8SAMATOVA N F, OSTROUCHOV G, GEIST A, et al. RACHET:an efficient cover-based merging of clustering hierarchies from distri- buted datasets [ J ]. Distributed and Parallel Databases, 2002,11 (2) :157-180. 被引量：1
9PARTHASARATHY S, OGIHARA M. Clustering distributed homo- geneous datasets [ M ]. Berlin : Springer,2000:566- 574. 被引量：1
10KARGUPTA H, HUANG Wei-yun, SIVAKUMAR K, et al. Distribu- ted clustering using collective principal component analysis [ J ]. Knowledge and Information Systems,2001,3 (4) : 422-448. 被引量：1

二级参考文献24

1郑苗苗,吉根林.DK-Means——分布式聚类算法K-Dmeans的改进[J].计算机研究与发展,2007,44(z2):84-88. 被引量：9
2Han Jiawei, Kamber M. Data Mining: Concepts and Techniques [D]. San Francisco: Morgan Kaufmann Publishers, 2000: 232- 233. 被引量：1
3Ester M,Kriegel H P,Sander J,et al. A density based algorithm of discovering clusters in large spatial databases with noise[C]//Proc. the 2nd Int'l Conf. Knowledge Discovery and Data Mining. Portland: AAAI Press, 1996:226-231. 被引量：1
4Zhang Tian, Ramakrishnan R, Livny M. BRICH:An efficient data clustering method for very large database[C]//Proc. ACM SIGMOD Int' 1 Conf. Management of Data. New York: ACM Press, 1996 : 73-84. 被引量：1
5Guha S, Rostogi R, Shim K. CURE.. An efficient clustering algorithm for large databases[C]//Proc. The ACM SIGMOD Int'l Conf. Management of Data Seattle. New York: ACM Press, 1998 : 73-84. 被引量：1
6Wang Wei, et al. STING:A statistical information grid approach to spatial data mining[C]//Proc. 23rd VLDB Conf. San Francisco: Morgan Kaufmann, 1997 : 186-195. 被引量：1
7Kantabutra S,Couch A L. Parallel k-means clustering algorithm on Nows[J]. NECTEC Technical Journal, 1999,1 (1): 243- 247. 被引量：1
8Prodio H, Lawrence H. Scalable clustering :A distributed ap - proach[C]//The IEEE Int'l Conf. on Fuzzy Systems. Budapest, Hungary, 2004. 被引量：1
9Tasoulis D K, Vrahatis M N. Unsupervised distributed cluste - ring[C]//The IASTED Int'l Conf. on the Parallel and Distributed Computing and Networks. Innsbruek,2004. 被引量：1
10Januzaj E, Kriegel H P, Pfeifle M. DBDC: Density based distributed clustering[C]//Proc, of the 9th Int'l Conf. on Extending Database Technology. Berlin: Springer, 2004 : 88-105. 被引量：1

共引文献12

1姚瑶,吉根林.一种基于隐私保护的分布式聚类算法[J].计算机科学,2009,36(3):100-102. 被引量：5
2REN Hong,ZHENG Yan,WU Ye-rong.Clustering analysis of telecommunication customers[J].The Journal of China Universities of Posts and Telecommunications,2009,16(2):114-116. 被引量：2
3李榴,唐九阳,葛斌,肖卫东,汤大权.k-DmeansWM:一种基于P2P网络的分布式聚类算法[J].计算机科学,2010,37(1):39-41. 被引量：6
4李小武,邵剑飞,廖秀玲.一种基于K-means的分布式聚类算法[J].桂林电子科技大学学报,2011,31(6):460-463. 被引量：7
5毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
6海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：13
7彭长生.基于Fisher判别的分布式K-Means聚类算法[J].江苏大学学报（自然科学版）,2014,35(4):422-427. 被引量：5
8王小妮.具有资源约束的自适应聚类算法[J].计算机工程与设计,2015,36(1):246-249.
9马晓慧.一种改进的可并行的K-medoids聚类算法[J].智能计算机与应用,2016,6(3):100-102. 被引量：1
10姚禹丞,宋玲,鄂驰.同态加密的分布式K均值聚类算法研究[J].计算机技术与发展,2017,27(2):81-85. 被引量：6

同被引文献46

1周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：71
2李杰,贾瑞玉,张璐璐.一个改进的基于DBSCAN的空间聚类算法研究[J].计算机技术与发展,2007,17(1):114-116. 被引量：13
3贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
4胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：26
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
6彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
7汤九斌,陆建峰,唐振民,杨静宇.基于层次的K-means初始化算法[J].中国工程科学,2007,9(11):74-79. 被引量：2
8王翠茹,朵春红.一种改进的基于密度的DBSCAN聚类算法[J].广西师范大学学报（自然科学版）,2007,25(4):104-107. 被引量：4
9Chehreghani M H, Abolhassani H, Chehreghani M H. Improving density based methods for hierarchical clus- tering of Web pagesl-J~. Data and Knowledge Engi- neering, 2008,67 (1) .. 30-50. 被引量：1
10黄权,陆昌辉.数据之魅:基于开源工具的数据分析[M].北京:清华大学出版社,2012:313-314. 被引量：1

引证文献5

1安计勇,高贵阁,史志强,孙磊.一种改进的K均值文本聚类算法[J].传感器与微系统,2015,34(5):130-133. 被引量：19
2安计勇,韩海英,侯效礼.一种改进的DBscan聚类算法[J].微电子学与计算机,2015,32(7):68-71. 被引量：13
3杨丹,朱世玲,卞正宇.基于改进的K-means算法在文本挖掘中的应用[J].计算机技术与发展,2019,29(4):68-71. 被引量：9
4葛倩,侯守明,赵文涛.基于卡尔曼滤波和改进DBSCAN聚类组合的GPS定位算法[J].全球定位系统,2021,46(1):28-35. 被引量：7
5杨帆,苏理云.红酒品种聚类分析[J].统计学与应用,2021,10(1):31-46.

二级引证文献48

1王筱远.数据挖掘中的聚类算法分析[J].中国新通信,2018,20(23):110-111. 被引量：2
2许鹏飞.基于Guide-filter的中国书法作品中印章信息的提取[J].传感器与微系统,2016,35(12):125-128. 被引量：2
3王潘潘,钱谦,王锋.改进加权Slope one协同过滤推荐算法研究[J].传感器与微系统,2017,36(7):138-141. 被引量：10
4赵君君,王小鹏,渠燕红.基于分水岭和区域面积加权的粘连枸杞分级方法[J].传感器与微系统,2017,36(9):49-52. 被引量：3
5杨美菊,龙华,李宇昊,邵玉斌,杜庆治,杨晓红.云南省河流污染源排查系统设计与实现[J].软件导刊,2017,16(11):58-61.
6石鸿雁,马晓娟.改进的DBSCAN聚类和LAOF两阶段混合数据离群点检测方法[J].小型微型计算机系统,2018,39(1):74-77. 被引量：15
7王日宏,崔兴梅.融合集群度与距离均衡优化的K-均值聚类算法[J].计算机应用,2018,38(1):104-109. 被引量：3
8杨震,王红军,周宇.一种截断距离和聚类中心自适应的聚类算法[J].数据分析与知识发现,2018,2(3):39-48. 被引量：16
9陈永波,徐静波,王云峰,张海英.基于改进K均值聚类生成匹配模板的心搏分类方法[J].传感器与微系统,2018,37(4):20-23. 被引量：3
10赵怀鑫,邓然然,张英杰,丁明航,孙朝云,李伟.一种用于高速公路通行情况分析的收费数据挖掘方法[J].中国公路学报,2018,31(8):155-164. 被引量：12

1彭长生.基于Fisher判别的分布式K-Means聚类算法[J].江苏大学学报（自然科学版）,2014,35(4):422-427. 被引量：5
2安计勇,高贵阁,史志强,孙磊.一种改进的K均值文本聚类算法[J].传感器与微系统,2015,34(5):130-133. 被引量：19
3王军.巧设路由器BT大提速[J].计算机应用文摘,2007(05S):99-99.
4王蕾,厉征鑫,刘建立,高卫东.FFT和Hough变换在织物纹理方向检测上的应用[J].计算机工程与应用,2014,50(18):39-43. 被引量：12
5谢珊珊,白光伟,曹磊.基于区域划分的连通支配集协议[J].计算机工程与设计,2012,33(4):1319-1323. 被引量：4
6王法波,许信顺.文本分类中一种新的特征选择方法[J].山东大学学报（工学版）,2010,40(4):8-11. 被引量：3
7李斌,杨国庆.一种基于稀疏分布记忆模型的汉字联想记忆方法[J].计算机研究与发展,1994,31(4):61-65. 被引量：1
8刘甜甜.基于稀疏和低秩表示的显著性目标检测[J].电子科技,2015,28(2):112-115. 被引量：3
9孙利娟,张继栋,杨新锋.基于多稀疏分布特征和最近邻分类的物体识别方法[J].计算机应用研究,2016,33(10):3156-3159. 被引量：1
10邢园丁,马树元,吴平东,陈之龙,孙长江,黄杰.基于转台系列照片三维重建算法的研究[J].计算机测量与控制,2007,15(1):124-126.

计算机应用研究

2011年第10期

浏览历史

内容加载中请稍等...

基于节点数据密度的分布式K-means聚类算法研究被引量：5

参考文献14

二级参考文献24

共引文献12

同被引文献46

引证文献5

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于节点数据密度的分布式K-means聚类算法研究 被引量：5

参考文献14

二级参考文献24

共引文献12

同被引文献46

引证文献5

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于节点数据密度的分布式K-means聚类算法研究被引量：5