期刊文献+

近似k-median分类属性数据聚类

Approximate k-median Clustering for Categorical Data
下载PDF
导出
摘要 数据挖掘中解决分类属性数据聚类的算法有很多种,但大多数基于划分的方法得到的聚类中心一般不是数据集中的实际数据对象,缺乏实际的物理意义,有时会导致某一聚类为空。该文研究了近似k-median的求解算法,用数据的近似中值来代替模式进行聚类,提出了分类属性数据的近似k-median聚类算法,克服了一般基于划分的可分类属性数据聚类中所遇到的问题,仿真实验证明该算法有效。 Based on the approximate k-median algorithm, an approximate k-median clustering algorithm for categorical data is developed. The algorithm replaces the modes in k-modes algorithm with the approximate medians of data set, and optimizes the center of cluster with the approximate k-median algorithm. The center of cluster is an actual sample of data set, which prevents the empty cluster. The experiments indicate the algorithm is effective.
作者 赵恒 张高煜
出处 《计算机工程》 CAS CSCD 北大核心 2007年第8期66-67,70,共3页 Computer Engineering
关键词 数据挖掘 近似k-median聚类 分类属性数据 Data mining Approximate k-median clustering Categorical data
  • 相关文献

参考文献8

  • 1Huang Zhexue. Extensions to the k-means Algorithms for Clustering Large Data Sets with Categorical Values[J]. Data Mining and Knowledge Discovery, 1998, 2(3): 283-304. 被引量:1
  • 2Huang Z. A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining[C]//Proc. of Research Issues on Data Mining and Knowledge Discovery. 1997. 被引量:1
  • 3De la Higuera C, Casacuberta F. Topology of Strings: Median String is NP-complete[J]. Theoretical Computer Science, 2000, 230(1/2): 39-48. 被引量:1
  • 4Martinez C, Juan A, Casacuberta F. Improving Classification Using Median String and NN Rules[C]//Proceedings of IX Simposium Nacional de Reconocimiento de Formasy Anlisis de Imgenes. 2001:391-394. 被引量:1
  • 5Diday E. The Symbolic Approach in Clustering, Classification and Related Methods of Data Analysis[M]. North Holland Publishing,1988. 被引量:1
  • 6Milligan G W, Soon S C, Sokol L M. The Effect of Cluster Size,Dimensionality and the Number of Clusters on Recovery of True Cluster Structure[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1983, 5(1): 40-47. 被引量:1
  • 7Halkidi M, Batistakis Y, Vazirgiannis M. On Clustering Validation Techniques[J]. Intelligent Information Systems, 2001, 17(2/3): 107-145. 被引量:1
  • 8赵恒,杨万海.模糊K-Modes聚类精确度分析[J].计算机工程,2003,29(12):27-28. 被引量:14

二级参考文献1

共引文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部