基于密度峰值的聚类集成被引量：15

Clustering Ensemble Based on Density Peaks

下载PDF

导出

摘要聚类集成的目的是为了提高聚类结果的准确性、稳定性和鲁棒性.通过集成多个基聚类结果可以产生一个较优的结果.本文提出了一个基于密度峰值的聚类集成模型,主要完成三个方面的工作:1)在研究已有的各聚类集成算法和模型后发现各基聚类结果可以用密度表示;2)使用改进的最大信息系数(Rapid computation of the maximal information coefficient,Rapid Mic)表示各基聚类结果之间的相关性,使用这种相关性来衡量原始数据在经过基聚类器聚类后相互之间的密度关系;3)改进密度峰值(Density peaks,DP)算法进行聚类集成.最后,使用一些标准数据集对所设计的模型进行评估.实验结果表明,相比经典的聚类集成模型,本文提出的模型聚类集成效果更佳. Clustering ensemble aims to improve the accuracy, stability and robustness of clustering results. A good ensemble result is achieved by integrating multiple base clustering results. This paper proposes a clustering ensemble model based on density peaks. First, this paper discovers that the base clustering results can be expressed with density after studying and analyzing the existing clustering algorithms and models. Second, rapid computation of the maximal information coefficient （RapidMic） is introduced to represent the correlation of the base clustering results, which is then used to measure the density of these original datasets after base clustering. Third, the density peak （DP） algorithm is improved for clustering ensemble. ~rthermore, some standard datasets are used to evaluate the proposed model. Experimental results show that our model is effective and greatly outperforms some classical clustering ensemble models.

作者褚睿鸿王红军杨燕李天瑞

机构地区西南交通大学信息科学与技术学院

出处《自动化学报》 EI CSCD 北大核心 2016年第9期1401-1412,共12页 Acta Automatica Sinica

基金国家科技支撑计划课题(2015BAH19F02) 国家自然科学基金(61262058 61572407) 教育部在线教育研究中心在线教育研究基金(全通教育)(2016YB158) 西南交通大学中央高校基本科研业务费专项基金(A0920502051515-12)资助~~

关键词聚类集成近邻传播密度峰值相似性矩阵 Clustering ensemble, affinity propagation, density peaks, similarity matrix

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1周晨曦,梁循,齐金山.基于约束动态更新的半监督层次聚类算法[J].自动化学报,2015,41(7):1253-1263. 被引量：20
2王卫卫,李小平,冯象初,王斯琪.稀疏子空间聚类综述[J].自动化学报,2015,41(8):1373-1384. 被引量：78
3唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
4周林,平西建,徐森,张涛.基于谱聚类的聚类集成算法[J].自动化学报,2012,38(8):1335-1342. 被引量：62
5陈晋音,何辉豪.基于密度的聚类中心自动确定的混合属性数据聚类算法研究[J].自动化学报,2015,41(10):1798-1813. 被引量：38
6徐森,卢志茂,顾国昌.解决文本聚类集成问题的两个谱算法[J].自动化学报,2009,35(7):997-1002. 被引量：20

二级参考文献159

1唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
2TIAN Zheng,LI XiaoBin,JU YanWei.Spectral clustering based on matrix perturbation theory[J].Science in China(Series F),2007,50(1):63-81. 被引量：19
3罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36
4Estivill-Castro V. Why so many clustering algorithms-A position paper. SIGKDD Explorations, 2002,4(1):65-75. 被引量：1
5Dietterich TG. Machine learning research: Four current directions. AI Magazine, 1997,18(4):97-136. 被引量：1
6Breiman L. Bagging predicators. Machine Learning, 1996,24(2):123-140. 被引量：1
7Zhou ZH, Wu J, Tang W. Ensembling neural networks: Many could be better than all. Artificial Intelligence, 2002,137(1-2):239-263. 被引量：1
8Strehl A, Ghosh J. Cluster ensembles-A knowledge reuse framework for combining partitionings. In: Dechter R, Kearns M,Sutton R, eds. Proc. of the 18th National Conf. on Artificial Intelligence. Menlo Park: AAAI Press, 2002. 93-98. 被引量：1
9MacQueen JB. Some methods for classification and analysis of multivariate observations. In: LeCam LM, Neyman J, eds. Proc. of the 5th Berkeley Symp. on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967,1:281-297. 被引量：1
10Blake C, Keogh E, Merz CJ. UCI Repository of machine learning databases. Irvine: Department of Information and Computer Science, University of California, 1998. http://www.ics.uci.edu/～mlearn/MLRepository.html 被引量：1

共引文献288

1杜淑颖,丁世飞,邵长龙.基于簇间连接的元聚类集成算法[J].南京大学学报（自然科学版）,2023,59(6):961-969.
2高琰,谷士文,唐琎,蔡自兴.一种基于互信息的模糊聚类集成算法[J].小型微型计算机系统,2007,28(6):1068-1071. 被引量：2
3李士进,朱跃龙,刘净.一种基于k-prototype的多层次聚类改进算法[J].河海大学学报（自然科学版）,2007,35(3):342-347. 被引量：1
4张莉,陈恭和.一种适合大规模数据集的特征选择方法[J].计算机工程,2007,33(4):184-186. 被引量：1
5罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36
6张妤,王文剑,康向平.一种回归SVM选择性集成方法[J].计算机科学,2008,35(4):178-180. 被引量：7
7刘明,袁保宗,苗振江,唐晓芳,李昆仑.从局部分类精度到分类置信度的变换[J].计算机研究与发展,2008,45(9):1612-1619. 被引量：6
8罗会兰,孔繁胜,李一啸.基于添加人工数据的高差异性聚类集体生成方法[J].模式识别与人工智能,2008,21(5):682-688.
9王红军,李志蜀,成飏,周鹏,周维.基于隐含变量的聚类集成模型[J].软件学报,2009,20(4):825-833. 被引量：14
10郭红玲,程显毅.多分类器选择集成方法[J].计算机工程与应用,2009,45(13):186-187. 被引量：7

同被引文献92

1ZHANG Zhenyue & ZHA Hongyuan Department of Mathematics, Zhejiang University, Yuquan Campus, Hangzhou 310027, China,Department of Computer Science and Engineering, The Pennsylvania State University, University Park, PA 16802, U.S.A..Linear low-rank approximation and nonlinear dimensionality reduction[J].Science China Mathematics,2004,47(6):908-920. 被引量：2
2陈富国.多维标度法的理论与方法[J].心理科学通讯,1990,13(4):38-42. 被引量：24
3张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
4许彬,郑链,王克勇,宋承天.基于局域灰度概率分布的小目标检测方法[J].激光与红外,2005,35(3):187-189. 被引量：9
5张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
6张建明,林亚平,吴宏斌,杨格兰.独立成分分析的研究进展[J].系统仿真学报,2006,18(4):992-997. 被引量：31
7胡庆林,叶念渝,朱明富.数据挖掘中聚类算法的综述[J].计算机与数字工程,2007,35(2):17-20. 被引量：36
8罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36
9孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1069
10杨燕,靳蕃,KAMEL Mohamed.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632. 被引量：117

引证文献15

1徐森,皋军,徐秀芳,花小朋,徐静,安晶.一种基于二部图谱划分的聚类集成方法[J].控制与决策,2018,33(12):2208-2212.
2邹臣嵩,杨宇.基于最大距离积与最小距离和协同K聚类算法[J].计算机应用与软件,2018,35(5):297-301. 被引量：15
3徐森,花小朋,徐静,徐秀芳,皋军,安晶.一种基于T-分布随机近邻嵌入的聚类集成方法[J].电子与信息学报,2018,40(6):1316-1322. 被引量：16
4费博雯,邱云飞,刘万军,刘大千.距离决策下的模糊聚类集成模型[J].电子与信息学报,2018,40(8):1895-1903. 被引量：1
5杜洪波,白阿珍,朱立军.基于改进的密度峰值算法的K-means算法[J].统计与决策,2018,0(18):20-24. 被引量：11
6王帅,杜欣慧,姚宏民,王凤萍.面向含多种用户类型的负荷曲线聚类研究[J].电网技术,2018,42(10):3401-3412. 被引量：41
7徐森,皋军,花小朋,李先锋,徐静.一种改进的自适应聚类集成选择方法[J].自动化学报,2018,44(11):2103-2112. 被引量：8
8赵小强,刘晓丽.基于密度敏感的改进自适应谱聚类算法[J].兰州理工大学学报,2018,44(6):102-106. 被引量：3
9王跃飞,于炯,苏国平,钱育蓉,廖彬,刘粟.ODIC-DBSCAN:一种新的簇内孤立点分析算法[J].自动化学报,2019,45(11):2107-2127. 被引量：7
10皋军,黄欣辰,邵星.基于成对约束的半监督选择性聚类集成[J].江苏科技大学学报（自然科学版）,2020,34(4):57-63. 被引量：2

二级引证文献113

1段桂芹,邹臣嵩.基于K-medoids算法的学生成绩聚类研究[J].微型电脑应用,2020,0(2):64-66. 被引量：1
2夏飞,张洁,张浩,陆剑峰.基于BIC准则和加权皮尔逊距离的居民负荷模式精细识别及预测[J].电子测量与仪器学报,2020,32(11):33-42. 被引量：15
3孙程远,杜奕航,张涛,杨小蒙.基于零样本学习的未知辐射源个体识别研究[J].电子测量技术,2023,46(22):41-48.
4段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
5宋军英,崔益伟,李欣然,钟伟,邹鑫,李培强.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法[J].电力系统自动化,2020(15):87-98. 被引量：31
6吴伟农.科学对待转基因农产品[J].知识经济,2000(6):73-73.
7张莉,李长红.银杏早产嫁接三法[J].科技致富向导,2000(4):19-19.
8马津.斯卡帕神秘华美的层叠——以建构角度分析布里昂家族墓园中的混凝土线脚[J].建筑师,2012(2):38-43. 被引量：1
9潘和平.大偏心量精密滚筒的静平衡[J].四川真空,2000(1):44-50.
10段桂芹.基于全局中心聚类算法的学生成绩评价研究[J].智能计算机与应用,2019,9(1):80-83.

1陈凯俊.自适应快速最大信息系数算法实现[J].微电子学与计算机,2016,33(9):70-73.
2Yan Hong WU.Localization of Frames[J].Journal of Mathematical Research and Exposition,2010,30(1):78-86.
3魏中强,徐宏喆,李文,桂小林.基于最大信息系数的贝叶斯网络结构学习算法[J].计算机应用研究,2014,31(11):3261-3265. 被引量：4
4王红军,李志蜀,成飏,周鹏,周维.基于隐含变量的聚类集成模型[J].软件学报,2009,20(4):825-833. 被引量：14
5曾安,郑齐弥.基于MIC的深度置信网络研究[J].计算机科学,2016,43(8):249-253. 被引量：2
6李敏,梁久祯,廖翠萃.基于聚类信息的活动轮廓图像分割模型[J].模式识别与人工智能,2015,28(7):665-672. 被引量：11
7陈云风,王红军,杨燕.基于聚类集成的高铁故障诊断分析[J].计算机科学,2015,42(6):233-238. 被引量：6
8马海峰,刘宇熹.基于相关随机子空间的分类数据聚类集成[J].计算机应用研究,2013,30(4):1082-1084. 被引量：2
9HAN Jin-shu.Fast fractal image compression by pixel peaks and valleys classification[J].通讯和计算机（中英文版）,2007,4(3):69-75.
10王鹏,张善从.基于最大信息系数的时延数据相关性分析方法[J].电子测量技术,2015,38(9):112-115. 被引量：6

自动化学报

2016年第9期

浏览历史

内容加载中请稍等...

基于密度峰值的聚类集成被引量：15

参考文献6

二级参考文献159

共引文献288

同被引文献92

引证文献15

二级引证文献113

相关作者

相关机构

相关主题

浏览历史

基于密度峰值的聚类集成 被引量：15

参考文献6

二级参考文献159

共引文献288

同被引文献92

引证文献15

二级引证文献113

相关作者

相关机构

相关主题

浏览历史

基于密度峰值的聚类集成被引量：15