基于Hubness现象的高维数据混合聚类算法被引量：3

A hybrid clustering algorithm for high dimensional data based on Hubness phenomenon

下载PDF

导出

摘要高维数据聚类是聚类分析中的难点。K-hubs聚类算法是在K-means方法基础上,结合高维数据空间的Hubness现象对数据进行聚类。针对K-hubs聚类算法需要随机确定初始聚类中心,不适用于非超球状簇等问题,本文提出了基于多阶段层次聚类和划分聚类的高维数据混合聚类算法。该算法将数据点按其Hub值分为Hub点,Midhub点和Antihub点三类,然后对Hub点和Midhub点分别采用层次聚类,接着进一步采用层次聚类合并簇,最后,对Antihub点利用划分聚类合并到最近的簇。在UCI数据集上的实验结果表明,与其它最新的聚类算法相比,本文提出的算法在高维数据集上得到了较好的聚类结果。 High dimensional data clustering is a difficult task in clustering analysis.Based on K-means algorithm,K-hubs algorithm performs the clustering for the data combining the Hubness phenomenon in high dimensional data space.To tackle the issues such as random selection of initial clustering centers and not being adaptive to nonhyperspherical clusters,this paper proposes a hybrid clustering algorithm for high dimensional data based on multi-stage hierarchical clustering and partition clustering.The data points are classified into three categories including Hub points,Midhub points and Antihub points.Then,we conduct hierarchical clustering for Hub points and Midhub points.Next,the clusters are further merged with hierarchical clustering.Finally,Antihub points are merged into the nearest clusters with partition clustering.The experimental results on UCI data sets show that the proposed algorithm can achieve better clustering results on the high dimensional data set compared with the state of the art method.

作者王妍马燕黄慧李顺宝张玉萍 WANG Yan;MA Yan;HUANG Hui;LI Shunbao;ZHANG Yuping(College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai 200234,China)

机构地区上海师范大学信息与机电工程学院

出处《电视技术》 2019年第6期17-23,共7页 Video Engineering

基金国家自然科学基金(61373004,61501297)资助项目

关键词高维数据聚类 Hubness现象层次聚类 K-MEANS算法 high dimensional data clustering Hubness phenomenon hierarchical clustering K-means algorithm

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1逯瑞强,马福民,张腾飞.基于区间2-型模糊度量的粗糙K-means聚类算法[J].模式识别与人工智能,2018,31(3):265-274. 被引量：6
2刘铭,王晓龙,刘远超.基于语义的高维数据聚类技术[J].电子学报,2009,37(5):925-929. 被引量：6
3贺玲,蔡益朝,杨征.高维数据的相似性度量研究[J].计算机科学,2010,37(5):155-156. 被引量：7

二级参考文献15

1刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
2Damminda A,Saman K H.Dynamic self-organizing maps with controlled growth for knowleage discovery[J].IEEE Transactions on Neural Networks,2000,11(3):601-614. 被引量：1
3Rauber A,Merkl D.Tie growing hierarchical self-organizing map:exploratory analysis of high-dimensional data[J].IEEE Transactions on Neural Neural Networks,2002,13(6):1331-1341. 被引量：1
4Xu Y D,Xu Z M,et al.Using multiple features and stalistical model to calculate text units similarity[A].Proceedings of 2006 International Conference on Machine Learning and Cybernetics[C].China:IEEE Press,2005.3834-3839. 被引量：1
5Gonenc E,Ilyas C.Using lexical chains for keyword extraction[J].Informtion Processing and Management,2007,43(6):1705-1714. 被引量：1
6Kohonen T,Kaski S,et al.Self organization of a massive document collection[J].IEEE Transactions on Neural Networks,2000,11(3):574-585. 被引量：1
7Shahpurkar S S,Sundareshan M K.Cornparison of self-organizing map with k-means hierarchical clustering for bioinformatics applications[A].International Joint Conference on Neural Networks[C].Hungary;IEEE Press,2004.1221-1226. 被引量：1
8Hinneburg A, Aggarwal C C, Keim D A. What is the nearest neighbor in high dimensional spaces[C]//26^th VLDB Conference. 2000 : 506-515. 被引量：1
9Kriegel H-P, Kroger P, Zimek A. Clustering high-dimensional data: a Survey on subspace clustering, pattern-based clustering, and correlation clustering[J]. ACM Transactions on Knowledge Discovery from Data,2009,3(1) : 1-58. 被引量：1
10盛骤谢式千潘承毅.概率论与数理统计[M].北京：高等教育出版社,1989.. 被引量：209

共引文献16

1李雄飞,孙涛,武佳薇.对象间矢量感应聚类算法[J].电子学报,2011,39(6):1347-1352.
2王李冬,魏宝刚,袁杰.基于概率主题模型的文档聚类[J].电子学报,2012,40(11):2346-2350. 被引量：24
3吴健,崔志明,时玉杰,盛胜利,龚声蓉.基于局部密度构造相似矩阵的谱聚类算法[J].通信学报,2013,34(3):14-22. 被引量：14
4盛开元,钱雪忠,吴秦.基于可变网格划分的密度偏差抽样算法[J].计算机应用,2013,33(9):2419-2422. 被引量：7
5娄圣金,张继福,刘爱琴.一种基于p权值的离群数据挖掘算法[J].小型微型计算机系统,2014,35(1):55-59. 被引量：6
6蒋盛益,王连喜.聚类分析研究的挑战性问题[J].广东工业大学学报,2014,31(3):32-38. 被引量：6
7马菲,朱昌杰,郑颖,邓杰.一种基于可变网格划分的离群点检测算法[J].江南大学学报（自然科学版）,2015,14(6):751-757. 被引量：1
8冯艳红,于红,孙庚,彭松.基于非对称多值特征杰卡德系数的高维语义向量差异性度量方法[J].计算机科学,2018,45(6):57-66. 被引量：3
9王万良,吕闯,赵燕伟,高楠,杨小涵,张兆娟.基于正序迭代选择策略的聚类中心自动选择方法[J].模式识别与人工智能,2019,32(2):151-160. 被引量：4
10江平平,曾庆鹏.一种基于网格划分的密度峰值聚类改进算法[J].计算机应用与软件,2019,36(8):268-274. 被引量：13

同被引文献33

1寇广,汤光明,何嘉婧,张恒巍.一种基于变异蝙蝠算法的高维聚类方法[J].系统仿真学报,2018,30(4):1253-1259. 被引量：4
2仇功达,何明,祝朝政,杨杰,刘勇.基于稀疏交界最大密度连通的模糊聚类方法[J].计算机工程与应用,2018,54(14):82-88. 被引量：3
3刘晨赫,刘小晴,刘青,苏蕉,杨楠,肖林.针对高维数据的动态网格子空间聚类算法HDGCLUS[J].小型微型计算机系统,2018,39(9):1895-1899. 被引量：3
4黎万英,黄瑞章,丁志远,陈艳平,徐立洋.基于用户行为特征的多维度文本聚类[J].计算机应用,2018,38(11):3127-3131. 被引量：6
5刘玉馨,何光辉.k近邻约束的稀疏子空间聚类[J].计算机工程与应用,2019,55(3):39-45. 被引量：11
6朱毅,杨航,吕泽华,陈传波,邹小威.一种基于禁忌搜索的全局最优化模糊聚类算法[J].电子学报,2019,47(2):289-295. 被引量：16
7李凯,王艳军.基于WebGIS的历史人文地理信息系统设计与实现[J].地理空间信息,2019,17(3):59-61. 被引量：6
8江子皓,王慧亮,吴泽宁,胡润停.城市暴雨洪涝敏感性因素数据仓库构建与应用[J].人民黄河,2019,41(4):27-30. 被引量：4
9刘庆珍,张晓燕,蔡金锭.基于降维技术与K-means聚类的油纸绝缘状态综合灰评估[J].电力系统保护与控制,2019,47(8):62-70. 被引量：25
10黄珊,黎明,陈昊,李军华,张聪炫.基于维度扩展和重排的类圆映射可视化聚类方法[J].模式识别与人工智能,2019,32(4):326-335. 被引量：2

引证文献3

1周燕茹.基于模糊数学的高维稀疏数据聚类统计方法设计[J].德州学院学报,2021,37(6):60-65.
2武雪梅.基于数据聚类算法的地理信息系统多模块化设计[J].经纬天地,2021(6):66-69.
3朱春.基于聚类分析的大学生体质异常数据提取方法[J].长春大学学报,2022,32(8):28-32.

1刘擘龙,李喆.基于拓扑数据分析的高维数据隐藏模式挖掘[J].系统仿真学报,2019,31(9):1755-1762. 被引量：2
2王晔,王翰琦,苑博伟.基于层次聚类模型的《红楼梦》作者解析[J].中国新通信,2019,21(13):191-191. 被引量：1
3凌静,江凌云,赵迎.结合模拟退火算法的遗传K-Means聚类方法[J].计算机技术与发展,2019,29(9):61-65. 被引量：6
4赵迎利,王凯明,肖玉柱,宋学力.基于l1,2惩罚典型相关分析的特征选择[J].计算机应用与软件,2019,36(10):279-284. 被引量：1
5许力分,倪志伟,朱旭辉,贾凯,伍章俊.融合基于MapReduce并行改进二元蚁群算法与分形维数的属性选择方法[J].系统科学与数学,2019,39(6):918-933. 被引量：11
6王保锋,麻晓璇,李金星.一种自适应模糊连接点聚类算法[J].计算机与现代化,2019,0(10):55-59.
7陈莉,陈晓云.特征组合和多模块学习的视网膜血管分割[J].计算机工程与应用,2019,55(17):214-220. 被引量：3
8曲红艳,王化琨,周影,田甜,岳宇巍.基于稳定稀疏主成分的基因表达数据聚类分析方法[J].黑龙江大学自然科学学报,2019,36(4):401-408. 被引量：3
9冯晓荣,瞿国庆.基于深度学习与随机森林的高维数据特征选择[J].计算机工程与设计,2019,40(9):2494-2501. 被引量：16
10代雪珍,乔亚琴,曹高飞.逐步判别分析法在鸢尾花分类中的研究[J].科技经济导刊,2019,0(23):175-175. 被引量：3

电视技术

2019年第6期

浏览历史

内容加载中请稍等...

基于Hubness现象的高维数据混合聚类算法被引量：3

参考文献3

二级参考文献15

共引文献16

同被引文献33

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Hubness现象的高维数据混合聚类算法 被引量：3

参考文献3

二级参考文献15

共引文献16

同被引文献33

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Hubness现象的高维数据混合聚类算法被引量：3