基于距离和密度的多阶段聚类

Multi-stage Clustering Based on Distance and Density

下载PDF

导出

摘要随着聚类技术的发展,对不同密度的数据集的聚类需求也越来越迫切。为了解决不同密度数据集的聚类问题,提出一种基于距离和密度的多阶段聚类算法MCDD。该算法主要采用多阶段密度处理技术提取不同密度的聚类,同时使用密度因子提高聚类的精度,最后通过使用距离阈值的方法去除孤立点和噪声数据。实验表明,该算法在扩展性方面表现良好,对任意形状和大小的聚类都可以很好地处理,并能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。 With the development of clustering technology, the demand of clustering of different density data sets is more and more urgent. In order to solve the clustering problem of different density data sets, proposes a multi-stage clustering algorithm based on distance and density （MCDD）. The algorithm adopts multi-stage density processing technology to extract clustering of different density, while using the density factor to improve the precision of clustering, removes the outlier and noise data by using the distance threshold method. Scanning the dataset only once, the MCDD can discover clusters of arbitrary shapes. The experiment results show that it can discover outliers or noises effectively and get good cluster quality for multi-density data sets.

作者张西芝李涛刘敏娟

机构地区郑州升达经贸管理学院信息工程系河南广播电视大学信息工程系郑州成功财经学院信息工程系

出处《现代计算机（中旬刊）》 2014年第1期15-18,共4页 Modern Computer

基金郑州市科技攻关项目(No.20130737)

关键词密度阈值阶段聚类密度因子距离阈值孤立点 Density Threshold Multi-Stage Clustering Density Factor , Distance Threshold Outlier

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1赵艳厂,宋梅,谢帆,宋俊德.用于不同密度聚类的多阶段等密度线算法[J].北京邮电大学学报,2003,26(2):42-47. 被引量：14
2邱保志,刘洋,陈本华.基于网格熵的边界点检测算法[J].计算机应用,2008,28(3):732-734. 被引量：7
3邱保志,曹鹤玲.一种高效的基于联合熵的边界点检测算法[J].控制与决策,2011,26(1):71-74. 被引量：5
4邱保志,岳峰.基于引力的边界点检测算法[J].小型微型计算机系统,2008,29(2):279-282. 被引量：3

二级参考文献19

1邱保志,沈钧毅.网格聚类中的边界处理技术[J].模式识别与人工智能,2006,19(2):277-280. 被引量：13
2邱保志,张西芝.基于网格的参数自动化聚类算法[J].郑州大学学报（工学版）,2006,27(2):91-93. 被引量：14
3邱保志,沈钧毅.基于扩展和网格的多密度聚类算法[J].控制与决策,2006,21(9):1011-1014. 被引量：25
4Han J W, Kamber M. Data mining: Concepts and techniques[M]. 2nd ed. New York: Morgan Kaufmann, 2006: 384. 被引量：1
5Xia C Y, Hsu W, Lee M L, et al. Border: Efficient computation of boundary point[J]. IEEE Trans on Knowledge and Data Engineering, 2006, 18(3): 289-303. 被引量：1
6Ester M, Kriegel H P, Sander J. A density-based algorithm for discovering clusters in large spatial databases with noise[C]. Proc of the 2nd Int Conf on Knowledge Discovery and Data Mining. Portland: AAAI Press, 1996: 226-231. 被引量：1
7Qiu B Z, Yue F, Shen J Y. BRIM: An efficient boundary points detecting algorithm[C], Proc of Advances in Knowledge Discovery and Data Mining. Heidelberg: SDrin~,er, 2007: 761-768. 被引量：1
8Karypis G, Han E H, Kumar V. Chameleon: A hierarchical clustering algorithm using dynamic modeling[J]. IEEE Computer, 1999, 32(8): 68-75. 被引量：1
9Hsu C M, Chen M S. Subspace clustering of high dimensional spatial data with noises[C]. Proc of Advances in Knowledge Discovery and Data Mining. Heidelberg: Springer, 2004: 31-40. 被引量：1
10Han J W Kamber M 范明孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版杜,2001.147-158. 被引量：113

共引文献22

1张西芝,姬波,邱保志.基于网格的多密度聚类算法[J].微计算机信息,2005,21(12X):101-103. 被引量：7
2刘敏娟,柴玉梅.基于网格的共享近邻聚类算法[J].计算机应用,2006,26(7):1673-1675. 被引量：7
3邱保志,沈钧毅.基于扩展和网格的多密度聚类算法[J].控制与决策,2006,21(9):1011-1014. 被引量：25
4牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：16
5夏英,李克非,丰江帆.基于网格梯度的多密度聚类算法[J].计算机应用研究,2008,25(11):3278-3280. 被引量：4
6庞春江,程伟想,牛为华.基于优化网格的最小生成树聚类算法[J].计算机应用与软件,2009,26(8):262-264.
7薛丽香,邱保志.基于密度可达的多密度聚类算法[J].计算机工程,2009,35(17):66-68. 被引量：7
8黄添强,余养强,秦小麟.结构复杂数据的半监督聚类[J].控制与决策,2010,25(1):14-19. 被引量：6
9杨竹苹,黄琦志,梁海珍,陈琪.一种可用于数据集优化的网格相似度聚类算法研究[J].军事交通学院学报,2010,12(3):77-80.
10章晟,张启飞,潘雪增,朱旭辉.搜索引擎中基于密度聚类的混合编码检测算法[J].数据采集与处理,2011,26(1):95-100.

1梁斌梅.孤立点检测改进径向基神经网络动态预测模型[J].计算机工程与应用,2009,45(28):52-54.
2张西芝,朱小艳,刘敏娟.一种基于网格的K-Means聚类算法[J].软件导刊,2012,11(7):120-121.
3罗军锋,锁志海.一种基于密度的k-means聚类算法[J].微电子学与计算机,2014,31(10):28-31. 被引量：12
4孙锋利,何明一,高全华.一种引入密度因子的改进粒子群优化算法[J].计算机应用研究,2011,28(8):2828-2830.
5周文刚,陈雷霆,Lubomir Bic,董仕.基于半监督的网络流量分类识别算法[J].电子测量与仪器学报,2014,28(4):381-386. 被引量：12
6王万良,王震宇,郑建炜,郑泽萍.密度诱导型数据描述单类分类机[J].控制与决策,2011,26(11):1665-1669. 被引量：1
7薛国新,王岳.一种改进的蚁群算法求解车辆的最短路径问题[J].常州大学学报（自然科学版）,2012,24(1):78-81. 被引量：5
8肖旺新,严新平,张雪.基于混合密度因子的路面破损自动识别研究[J].交通运输工程与信息学报,2005,3(2):19-26. 被引量：3
9陈根方,张立印.基于串行计算的排序算法实证分析[J].杭州师范大学学报（自然科学版）,2010,9(2):135-138. 被引量：1
10王瑞.基于睡眠机制的WSN簇维护算法改进[J].广东通信技术,2016,36(2):42-47.

现代计算机（中旬刊）

2014年第1期

浏览历史

内容加载中请稍等...

基于距离和密度的多阶段聚类

参考文献4

二级参考文献19

共引文献22

相关作者

相关机构

相关主题

浏览历史