相对邻域与剪枝策略优化的密度峰值聚类算法被引量：15

Relative Neighborhood and Pruning Strategy Optimized Density Peaks Clustering Algorithm

下载PDF

导出

摘要针对Science发表的密度峰值聚类(Density peaks clustering,DPC)算法及其改进算法效率不高的缺陷,提出一种相对邻域和剪枝策略优化的密度峰值聚类(Relative neighborhood and pruning strategy optimized DPC,RP-DPC)算法.DPC聚类算法主要有两个阶段:聚类中心点的确定和非聚类中心点样本的类簇分配,并且时间复杂度集中在第1个阶段,因此RP-DPC算法针对该阶段做出改进研究.RP-DPC算法去掉了DPC算法预先计算距离矩阵的步骤,首先利用相对距离将样本映射到相对邻域中,再从相对邻域来计算各样本的密度,从而缩小各样本距离计算及密度统计的范围;然后在计算各样本的δ值时加入剪枝策略,将大量被剪枝样本δ值的计算范围从样本集缩小至邻域以内,极大地提高了算法的效率.理论分析和在人工数据集及UCI数据集的对比实验均表明,与DPC算法及其改进算法相比,RP-DPC算法在保证聚类质量的同时可以实现有效的时间性能提升. In order to overcome the low efficiency defect of density peaks clustering(DPC)algorithm published in Science and its improvement algorithms,a new relative neighborhood and pruning strategy optimized DPC(RP-DPC)algorithm is proposed in this paper.There are two main phases in DPC:determination of cluster centers and cluster assignation for remaining samples.The time complexity of DPC is determined by the first phase,so the improvements for the determination of cluster centers are proposed in this paper.Firstly,the RP-DPC algorithm maps samples to their relative neighborhoods,then computes the local density of every sample on the basis of relative neighborhood.This method shrinks the range of distance computing and density counting of every sample,thus avoiding a lot of unnecessary distance calculations.Secondly,the pruning strategy is led into theδvalue computing of every sample,which restricts theδcomputing of massive pruned samples to within their own neighborhoods,so as to greatly improve the efficiency.We demonstrate that:our RP-DPC algorithm can improve the time performance significantly on the basis of having same clustering quality compared with the DPC algorithm and its improvement algorithms through the theory analysis and the experiments on several popular test cases that include both synthetic and real-world data sets from the UCI machine learning repository.

作者纪霞姚晟赵鹏 JI Xia;YAO Sheng;ZHAO Peng(School of Computer Science and Technology,Anhui University,Hefei 230601;Key Laboratory of Intelligent Computing and Signal Processing of the Ministry of Education,Anhui University,Hefei 230601)

机构地区安徽大学计算机科学与技术学院安徽大学计算智能与信号处理教育部重点实验室

出处《自动化学报》 EI CSCD 北大核心 2020年第3期562-575,共14页 Acta Automatica Sinica

基金国家自然科学基金(61602004,61672034) 安徽省重点研究与开发计划(1804d8020309) 安徽省自然科学基金(1708085MF160,1908085MF188) 安徽省高等学校自然科学研究重点项目(KJ2016A 041,KJ2017A011) 安徽大学信息保障技术协同创新中心公开招标课题(ADXXBZ201605)资助。

关键词聚类算法密度峰值相对邻域剪枝策略 Clustering algorithm density peaks relative neighborhood pruning strategy

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1巩树凤,张岩峰.EDDPC:一种高效的分布式密度中心聚类算法[J].计算机研究与发展,2016,53(6):1400-1409. 被引量：17
2谢娟英,高红超,谢维信.K近邻优化的密度峰值快速搜索聚类算法[J].中国科学：信息科学,2016,46(2):258-280. 被引量：104

二级参考文献40

1Han J W, Kamber M. Data Mining Concepts and Techniques. 2nd ed. New York:Elsevier Inc, 2006. 383-424. 被引量：1
2Jain A K. Data clustering:50 years beyond K-means. Pattern Recogn Lett, 2010, 31:651-666. 被引量：1
3Williamson B, Guyon I. Clustering:science or art?. J Mach Learn Res, 2012, 27:65-80. 被引量：1
4Frey B J, Dueck D. Clustering by passing messages between data points. Science, 2007, 315:972-976. 被引量：1
5Rodri?uez A, Laio A. Clustering by fast search and find of density peaks. Science, 2014, 344:1492-1496. 被引量：1
6Xu R, Wunsch D. Survey of clustering algorithms. IEEE Trans Neural Netw Learn Syst, 2005, 16:645-678. 被引量：1
7McQueen J. Some methods for classification and analysis of multivariate observations. In:Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. Los Angeles:University of California, 1967. 281-297. 被引量：1
8Likas A, Vlassis N, Verbeek J J. The global K-means clustering algorithm. Pattern Recogn, 2003, 36:451-464. 被引量：1
9Xie J Y, Jiang S, Xie W, et al. An efficient global K-means clustering algorithm. J Comput, 2011, 6:271-279. 被引量：1
10Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise. In:Proceedings of ACM SIGKDD'96, Portland, 1996. 226-231. 被引量：1

共引文献114

1夏飞,张洁,张浩,陆剑峰.基于BIC准则和加权皮尔逊距离的居民负荷模式精细识别及预测[J].电子测量与仪器学报,2020,32(11):33-42. 被引量：15
2杨磊,吴涛.一种常用的二维任意域的Delaunay三角剖分算法的健壮性补充[J].中国图象图形学报（A辑）,2000,5(4):323-326. 被引量：4
3贾培灵,樊建聪,彭延军.一种基于簇边界的密度峰值点快速搜索聚类算法[J].南京大学学报（自然科学版）,2017,53(2):368-377. 被引量：6
4罗嗣卿,刘璐.改进K-means算法对大兴安岭蓝莓干销售预测的应用[J].黑龙江大学自然科学学报,2017,34(2):139-144. 被引量：2
5程汝峰,刘奕志,梁永全.基于互近邻相对距离的最小生成树聚类算法[J].郑州大学学报（理学版）,2017,49(3):20-27. 被引量：2
6杨洁,王国胤,庞紫玲.密度峰值聚类相关问题的研究[J].南京大学学报（自然科学版）,2017,53(4):791-801. 被引量：12
7张宜,谢娟英,李静,陈媛媛,贺瑞瑞,李燕.红斑鳞状皮肤病的聚类分析[J].济南大学学报（自然科学版）,2017,31(3):181-187. 被引量：4
8王星,呙鹏程,王玉冰,程越.基于线性回归分析的快速搜索聚类中心算法[J].系统工程与电子技术,2017,39(11):2614-2622. 被引量：4
9王博,吴智群.电站风机故障智能预警技术的应用研究[J].热能动力工程,2017,32(10):66-70. 被引量：6
10钟能,杨文,杨祥立,郭威.基于混合Wishart模型的极化SAR图像非监督分类[J].雷达学报（中英文）,2017,6(5):533-540. 被引量：9

同被引文献106

1赵明,郑泽宇,么庆丰,潘怡君,刘智.基于改进人工势场法的移动机器人路径规划方法[J].计算机应用研究,2020,37(S02):66-68. 被引量：30
2吴行斌,郭强,张林兵,梁耀洲,刘建国.基于网络社团划分方法的多维数据聚类研究[J].计算机应用研究,2020,37(2):421-423. 被引量：6
3池丽萍,辛自强.大学生学习动机的测量及其与自我效能感的关系[J].心理发展与教育,2006,22(2):64-70. 被引量：358
4岳佳,王士同.高斯混合模型聚类中EM算法及初始化的研究[J].微计算机信息,2006,22(11X):244-246. 被引量：51
5孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1069
6杨燕,靳蕃,KAMEL Mohamed.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632. 被引量：117
7李雪松,谢军.改进Dijkstra算法在雷达突防中的应用[J].火力与指挥控制,2009,34(11):102-103. 被引量：1
8王敏,赵晓雷.基于遍历搜索二叉树中最长路径的算法研究[J].现代电子技术,2010,33(8):54-55. 被引量：7
9黎明,李军华.噪声环境下遗传算法的性能评价[J].电子学报,2010,38(9):2090-2094. 被引量：5
10傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011,31(2):432-434. 被引量：76

引证文献15

1王卫东,徐金慧,张志峰,杨习贝.基于密度峰值聚类的高斯混合模型算法[J].计算机科学,2021,48(10):191-196. 被引量：10
2朱二周,孙悦,张远翔,高新,马汝辉,李学俊.一种采用新型聚类方法的最佳类簇数确定算法[J].软件学报,2021,32(10):3085-3103. 被引量：8
3丁松阳,田青云.Ball-Tree优化的密度峰值聚类算法[J].计算机工程与应用,2021,57(20):90-96. 被引量：3
4王霞,王耀民,施心陵,高莲,李鹏.噪声环境下基于蒲丰距离的依概率多峰优化算法[J].自动化学报,2021,47(11):2691-2714.
5彭涛,单志龙.基于双路聚类的在线学习行为分析研究[J].华南师范大学学报（自然科学版）,2021,53(6):122-128. 被引量：5
6张思松,张明.基于模糊聚类算法的高维大数据增量处理方法[J].蚌埠学院学报,2022,11(2):55-59. 被引量：1
7卢建云,张蔚,李林.一种基于动态局部密度和聚类结构的聚类算法[J].山东大学学报（工学版）,2022,52(2):118-127. 被引量：1
8赵力衡,王建,陈虹君.去中心化加权簇归并的密度峰值聚类算法[J].计算机科学与探索,2022,16(8):1910-1922. 被引量：3
9陈磊,吴润秀,李沛武,赵嘉.加权K近邻和多簇合并的密度峰值聚类算法[J].计算机科学与探索,2022,16(9):2163-2176. 被引量：9
10张新元,贠卫国.共享K近邻和多分配策略的密度峰值聚类算法[J].小型微型计算机系统,2023,44(1):75-82. 被引量：4

二级引证文献46

1张霞,杨勇,赵力.基于复数帧段特征的语音情感识别方法[J].电子器件,2022,45(2):479-482.
2唐风扬,覃仁超,熊健.基于局部密度信息熵均值的密度峰值聚类算法[J].计算机测量与控制,2022,30(3):192-197. 被引量：5
3刘云龙,孟凤莹,周蓉.基于经验模态分解的室内指纹定位算法[J].计算机应用,2022,42(S01):247-251.
4李沛武,张永芳,黄逸翠,刘紫亮,居翔.基于双重密度和簇间近邻度的密度峰值聚类算法[J].南昌工程学院学报,2022,41(4):29-36. 被引量：1
5刘铭,于子奇.一种改进的期望最大化算法[J].吉林大学学报（理学版）,2022,60(5):1176-1182.
6刁俊琴,詹学军.新形势下高校在线教学模式的实施与探索[J].北京城市学院学报,2022(5):43-48. 被引量：1
7张宇博.一种基于聚类算法的可疑交易识别方法[J].软件,2022,43(11):61-64.
8蹇旭,陈婷.基于k-means算法的学生在线学习行为研究[J].高师理科学刊,2022,42(12):39-43. 被引量：1
9路太宇,李晓会,张馨予,吕维新,邓倩.社交网络中一种基于偏好的隐私度量方法研究[J].辽宁工业大学学报（自然科学版）,2022,42(6):393-398.
10苏东斌,李开开.紫外分光光度法结合化学计量学方法检验烟丝香精[J].化学研究与应用,2023,35(2):267-273. 被引量：2

1胡静,陶洋,郭坦,孙雨浩,胡昊,王进.基于低秩矩阵恢复的群稀疏表示人脸识别方法[J].计算机工程与设计,2019,40(12):3588-3593. 被引量：4
2张旭,孙玉伟,成颖.不同特征对文本聚类效果的比较研究——以新闻文本为例[J].情报理论与实践,2020,43(1):169-176. 被引量：8
3张庆朔,何强,张长伦,王恒友.模糊多核一类支持向量机[J].北京建筑大学学报,2020,36(1):82-90. 被引量：8
4Li Fangfang.Fighting as One[J].Beijing Review,2020,63(15):20-21.
5贾东立,申飞,崔新宇.基于人工蜂群优化的数据流聚类算法[J].计算机系统应用,2020,29(2):145-150.
6闻辉,贾冬顺,严涛,陈德礼,林元模.势函数聚类的优化下采样SVM分类方法[J].计算机集成制造系统,2020,26(1):152-160. 被引量：1
7喻昕,伍灵贞,汪炎林.一种解决受约束的非光滑伪凸优化问题的新型神经网络方法[J].小型微型计算机系统,2020,41(3):544-550. 被引量：2
8张亚伟,吕晓军,李明,吴兴华,杨栋.智能视频监控系统在铁路旅客服务系统的研究与应用[J].中国铁路,2020(1):109-113. 被引量：6
9吴国林,程文.技术预测的哲学分析[J].自然辩证法研究,2020,0(2):114-118.
10江俊佳,沈建新,周喆,韩鹏.基于改进的概率Hough变换的转鼓装校技术研究[J].应用光学,2020,41(2):394-399. 被引量：6

自动化学报

2020年第3期

浏览历史

内容加载中请稍等...

相对邻域与剪枝策略优化的密度峰值聚类算法被引量：15

参考文献2

二级参考文献40

共引文献114

同被引文献106

引证文献15

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

相对邻域与剪枝策略优化的密度峰值聚类算法 被引量：15

参考文献2

二级参考文献40

共引文献114

同被引文献106

引证文献15

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

相对邻域与剪枝策略优化的密度峰值聚类算法被引量：15