摘要
为了提高分类型数据集聚类的准确性和对广泛数据集聚类的适应性,引入3种核函数,再利用基于山方法的核K-means作分类型的数据聚类,核函数把分类型数据映射到高维特征空间,从而给缺乏测度的分类型数据引入了数值型数据的测度。改进后用多个公开数据集对这些方法进行了实验评测,结果显示这些方法对分类型数据的聚类是有效的。
To enhance the veracity of clustering categorical data and the adaptability of clustering datasets. The kernel K-means with mountain functions is introduced to cluster categorical data. Three new kernel functions are proposed to embed categorical data in a high dimensions feature space where the data set is clustered. The kernel K-means on real datasets are carried out to evaluate the quality of the motheds. Results indicated the effectiveness of kernel K-means using the kernel functions to discover dusters in embedded feature space.
出处
《计算机工程与设计》
CSCD
北大核心
2008年第11期2915-2917,共3页
Computer Engineering and Design
基金
广东省教育厅自然科学基金项目(04J012)。
关键词
核聚类
分类型数据
核函数
山方法
K均值
kernel clustering
categorical data
kernel function
mountain method
K-means