摘要
聚类集成是机器学习中的新问题.它是利用同一数据集的多个聚类划分集成在一起,以提高聚类分析的性能.如何发现从多个划分中得到“consensusclustering”是一个很困难的问题.很多学者对此作了研究.本文提出了一种基于互信息的模糊聚类集成算法.该算法主要扩展了Strehl&Ghosh提出的基于互信息的聚类集成目标函数,将其应用到模糊划分的集成,同时利用类似于信息瓶颈聚类的算法进行求解.实验结果表明,在4个UCI的数据集上,基于互信息的聚类集成能获得良好的性能.
Clustering ensemble is a new topic in machine learning. It can find a combined clustering with better quality from multiple partitions. But how to finding the consensus clustering is a difficult problem, In this paper, we proposed a new algorithm for "fuzzy" clustering ensemble, This ensemble algorithm is base on the mutual information for clustering ensemble and is similar to Information Bottleneck clustering(IB). Experiments on four real-world data sets indicate that our algorithm provides solutions with improved quality.
出处
《小型微型计算机系统》
CSCD
北大核心
2007年第6期1068-1071,共4页
Journal of Chinese Computer Systems
基金
国家自然科学基金重点项目(60234030)资助.
关键词
聚类集成
互信息
信息瓶颈
clustering ensemble
mutual information
information bottleneck