高维分类属性的子空间聚类算法被引量：6

Clustering Algorithm for Mining Subspace Clusters in Categorical Datasets

下载PDF

导出

摘要高维分类数据的处理一直是数据挖掘研究所面临的巨大挑战.传统聚类算法主要针对低维连续性数据的聚类,难以处理高维分类属性数据集.本文提出一种处理高维分类数据集的子空间聚类算法(FP-Tree-based SUBspace clustering algorithm,FPSUB),利用频繁模式树将聚类问题转化为寻找属性值的频繁模式发现问题,得到的频繁模式即候选子空间,然后基于这些子空间进行聚类.针对真实数据集的实验结果表明,FPSUB算法比其他算法具有更高的准确度. High-dimensional categorical datasets play an important role, so it＇s significant to cluster these datasets. However, traditional clustering algorithms mainly aim at lower-dimensional continuous datasets, whereas they are difficult to deal with categorical datasets. A new subspace clustering algorithm -FPSUB is proposed. R stores the information of datasets with a FP-Tree framework, which transforms clustering clusters into finding the frequent patterns, and then utilizes them to cluster the objects. The experiment results demonstrate the feasibility and robusmess of this algorithm.

作者单世民王新艳张宪超

机构地区大连理工大学软件学院

出处《小型微型计算机系统》 CSCD 北大核心 2009年第10期2016-2021,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(70671016 60673066)资助

关键词分类属性子空间聚类频繁模式 FP-树 categorical data subspace clustering frequent-pattern FP-Tree

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献16

1Ordonez C. Clustering binary data streams with k-means[ C]. In: SIGMOD DMKD Workshop, 2003,12-19. 被引量：1
2Wang K, Xu C, Liu B. Clustering transactions using large items [C]. In:CIKM Conf, 1999,483-490. 被引量：1
3Koyuturk M, Grama A. PROXIMUS : a framework for analyzing very high-dimensional discrete attributed datasets[ C ]. In:SIGKDD Conf,2003,147-156. 被引量：1
4Han E, Karypis G, Kumar V, et al. Clustering based on association rule hypergraphs[ C]. In: SIGMOD DMKD Workshop, 1997,252- 271. 被引量：1
5Ganti V, Gehrke J, Ramakrishnan R. CACTUS: clustering categorical data using summaries[ C ]. In: SIGKDD Conf, 1999,73-83. 被引量：1
6Guha S, Rastogi R, Shim K. Rock: a robust clustering algorithm for categorical attributes [ J ]. Information System, 2000,25 ( 5 ) : 345-366. 被引量：1
7Andritsos P, Tsaparas P, Miller R J, et al. LIMBO: scalable clustering of categorical data[ C ]. In:9th Int'l Conf. on Extending Database Technology,2004:531-532. 被引量：1
8Barbara D, Li Y, Couto J. Coolcat: an entropy-based algorithm for categorical clustering[ C]. In : CIKM Conf,2002,582-589. 被引量：1
9Darshit Parmar, Teresa Wu * , Jennifer Blackhurst. MMR:An algorithm for clustering categorical data using trough set theory[ C]. In Data & Knowledge Engineering,2007,63 ( 3 ) : 879 -893. 被引量：1
10Agrawal R, Gehrke J, Gunopulos D, et al. Automatic subspace clustering of high dimensional data for data mining applications [C]. In:SIGMOD Record ACM Special Interest Group on Management of Data, 1998,94-105. 被引量：1

二级参考文献1

1路松峰,卢正鼎.快速开采最大频繁项目集[J].软件学报,2001,12(2):293-297. 被引量：113

共引文献163

1谢志强,朱孟杰,杨静.基于改进FP-树的最大项目集挖掘算法[J].计算机应用研究,2009,26(2):502-505. 被引量：1
2姜晗,贾泂.基于标记域FP-Tree快速挖掘最大频繁项集[J].计算机研究与发展,2007,44(z2):334-349. 被引量：4
3杨种学.基于并行FP-growth算法挖掘网上关联交易规则[J].南京晓庄学院学报,2005,21(5):65-70.
4王盛,董黎刚,李群.一种基于逆序编码的关联规则挖掘研究[J].杭州电子科技大学学报（自然科学版）,2010,30(5):169-172. 被引量：1
5朱玉全,宋余庆,陈耿.约束最大频繁项目集的增量式更新算法[J].计算机工程,2004,30(18):31-32.
6杨君锐,赵群礼.一种不产生候选集的最大频繁集快速挖掘算法[J].微电子学与计算机,2004,21(11):125-128. 被引量：4
7张莹,韩芳溪,柴乔林.基于频繁模式树的AOI聚类算法[J].计算机工程与应用,2004,40(35):178-179.
8李清峰,杨路明,张晓峰.关联规则中最大频繁项目集的研究[J].计算机应用研究,2005,22(1):93-95. 被引量：3
9吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
10陈天敏,姜丽红.基于预制数据库的FP-tree构造算法[J].计算机工程,2004,30(B12):58-61.

同被引文献87

1刘岩,岳应娟,李言俊,张科.基于粗糙集的图像聚类分割方法研究[J].红外与激光工程,2004,33(3):300-302. 被引量：10
2Sen Wu,Xuedong Gao Management School, University of Science and Technology Beijing, Beijing 100083, China.CABOSFV algorithm for high dimensional sparse data clustering[J].Journal of University of Science and Technology Beijing,2004,11(3):283-288. 被引量：7
3李道国,苗夺谦,张红云.粒度计算的理论、模型与方法[J].复旦学报（自然科学版）,2004,43(5):837-841. 被引量：41
4钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
5徐峰,张铃.基于商空间的非均匀粒度聚类分析[J].计算机工程,2005,31(3):26-28. 被引量：14
6徐峰,张铃,王伦文.基于商空间理论的模糊粒度计算方法[J].模式识别与人工智能,2004,17(4):424-429. 被引量：11
7何明,冯博琴,马兆丰,傅向华.基于熵和信息粒度的粗糙集聚类算法[J].西安交通大学学报,2005,39(4):343-346. 被引量：6
8朱树人,匡芳君,王艳华.基于粒度原理的蚁群聚类算法[J].计算机工程,2005,31(23):162-163. 被引量：6
9王伦文.聚类的粒度分析[J].计算机工程与应用,2006,42(5):29-31. 被引量：19
10李订芳,章文,何炎祥.一种新的带模糊权的粗糙聚类算法[J].信息与控制,2006,35(1):120-125. 被引量：3

引证文献6

1武森,魏桂英,白尘,张桂琼.分类属性高维数据基于集合差异度的聚类算法[J].北京科技大学学报,2010,32(8):1085-1089.
2陈铭,吉根林.一种基于相似维的高维子空间聚类算法[J].南京师大学报（自然科学版）,2010,33(4):119-122. 被引量：3
3徐丽,丁世飞.粒度聚类算法研究[J].计算机科学,2011,38(8):25-28. 被引量：11
4武森,王静,谭一松.考虑数据排序的改进CABOSFV聚类[J].计算机工程与应用,2011,47(34):127-129. 被引量：2
5陈雪云,卢伟胜.GSwMKnn:基于类别基尼系数子空间的加权互K近邻算法[J].计算机系统应用,2014,23(2):137-141. 被引量：1
6孙浩军,李惊涛,张磊,张崇锐,肖婷.一种高维分类型数据的子空间聚类算法[J].汕头大学学报（自然科学版）,2014,29(3):51-59.

二级引证文献17

1汪仁红,王家伟,梁宗保.基于投影和密度的高维数据流聚类算法[J].重庆交通大学学报（自然科学版）,2013,32(4):725-728. 被引量：1
2周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
3魏玲玲,邱桃荣.一种粗关系数据结构数据排序方法[J].微电子学与计算机,2013,30(4):149-151.
4武森,王蔷,姜敏,魏青.考虑加权排序的分类数据聚类算法[J].北京科技大学学报,2013,35(8):1093-1098. 被引量：2
5徐绪堪,郑昌兴,蒋勋.基于粒度原理的知识组织模型构建[J].图书与情报,2013(6):8-12. 被引量：10
6潘楚,罗可.基于改进粒计算的K-medoids聚类算法[J].计算机应用,2014,34(7):1997-2000. 被引量：11
7江楠,徐秦.数据流聚类算法在数据处理中的应用[J].电子科技,2015,28(1):155-157. 被引量：2
8颜宏文,周雅梅,潘楚.基于宽度优先搜索的K-medoids聚类算法[J].计算机应用,2015,35(5):1302-1305. 被引量：5
9陈婷,郭凯,陈卫.基于非均匀粒度聚类的电子目标多传感器识别[J].无线电工程,2016(3):18-21.
10韦瑞录,覃能杰.机器学习法在计量系统告警信息中的研究与应用[J].价值工程,2016,35(11):171-174.

1贾俊芳,李德玉.一种有效的高维分类数据聚类方法研究[J].微电子学与计算机,2011,28(6):88-91. 被引量：2
2张伟,张泽洪.基于最大频繁项集的聚类算法[J].江南大学学报（自然科学版）,2007,6(3):288-292. 被引量：1

小型微型计算机系统

2009年第10期

浏览历史

内容加载中请稍等...

高维分类属性的子空间聚类算法被引量：6

参考文献16

二级参考文献1

共引文献163

同被引文献87

引证文献6

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

高维分类属性的子空间聚类算法 被引量：6

参考文献16

二级参考文献1

共引文献163

同被引文献87

引证文献6

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

高维分类属性的子空间聚类算法被引量：6