基于密度的聚类中心自动确定的混合属性数据聚类算法研究被引量：38

Research on Density-based Clustering Algorithm for Mixed Data with Determine Cluster Centers Automatically

下载PDF

导出

摘要面对广泛存在的混合属性数据,现有大部分混合属性聚类算法普遍存在聚类质量低、聚类算法参数依赖性大、聚类类别个数和聚类中心无法准确自动确定等问题,针对这些问题本文提出了一种基于密度的聚类中心自动确定的混合属性数据聚类算法.该算法通过分析混合属性数据特征,将混合属性数据分为数值占优、分类占优和均衡型混合属性数据三类,分析不同情况的特征选取相应的距离度量方式.在计算数据集各个点的密度和距离分布图基础上,深入分析获得规律:高密度且与比它更高密度的数据点有较大距离的数据点最可能成为聚类中心,通过线性回归模型和残差分析确定奇异点,理论论证这些奇异点即为聚类中心,从而实现了自动确定聚类中心.采用粒子群算法(Particle swarm optimization,PSO)寻找最优dc值,通过参数dc能够计算得到任意数据对象的密度和到比它密度更高的点的最小距离,根据聚类中心自动确定方法确定每个簇中心,并将其他点按到最近邻的更高密度对象的最小距离划分到相应的簇中,从而实现聚类.最终将本文提出算法与其他现有的多种混合属性聚类算法在多个数据集上进行算法性能比较,验证本文提出算法具有较高的聚类质量. For mixed data clustering, mostly current clustering algorithms have shortcomings such as low clustering efficiency, clustering parameter sensibility, clustering center number initialization and center determination difficulty. A density based cluster center self-determination mixed data clustering algorithm is proposed in this paper. Firstly, mixed data are divided into three types, including numeric dominant data, categorical dominant data and balanced data based on their data attributes analysis, and corresponding similarity metrics are designed for these three types of mixed data. Then, based on the density and distance relationship for each data object, an important conclusion is achieved that those data objects that have both higher density and larger distance than other data objects are more likely to be the cluster centers. So the linear regression model and residuals analysis are used to find those outliers that are fixed to be cluster centers automatically. The initialization value of dcis most crucial to clustering efficiency, so particle swarm optimization （PSO） algorithm is adopted to search the optimal dc by calculating the distance and density of each data object according to the automatic method for determining the cluster centers. After the cluster centers have been found, each remaining point is assigned to the same cluster as its nearest neighbor of higher density. Finally, the performance of the proposed method is testified by a series of simulations on real-world datasets in comparison with other excellent clustering algorithms.

作者陈晋音何辉豪

机构地区浙江工业大学信息工程学院

出处《自动化学报》 EI CSCD 北大核心 2015年第10期1798-1813,共16页 Acta Automatica Sinica

基金浙江省自然科学基金(Y14F020092) 宁波市自然科学基金(2013A610070)资助~~

关键词数据挖掘混合属性数据聚类密度混合距离度量 Data mining, mixed attributes, data clustering, peak density, mixed distance measure methods

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献30

1Huang Z X. Extensions to the K-means algorithm for clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 1998, 2(3): 283-304. 被引量：1
2Jain A K, Dubes R C. Algorithms for Clustering Data. New Jersey: Prentice-Hall, 1988. 被引量：1
3Han J, Kamber M. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann, 2001. 被引量：1
4Chen W F, Feng G C. Spectral clustering: a semi-supervised approach. Neurocomputing, 2012, 77(1): 229-242. 被引量：1
5Zhang W, Yoshida T, Tang X J, Wang Q. Text clustering using frequent itemsets. Knowledge-Based Systems, 2010, 23(5): 379-388. 被引量：1
6Hsu C C, Chen C L, Su Y W. Hierarchical clustering of mixed data based on distance hierarchy. Information Sciences, 2007, 177(20): 4474-4492. 被引量：1
7Hsu C C, Huang Y P. Incremental clustering of mixed data based on distance hierarchy. Expert Systems with Applications, 2008, 35(3): 1177-1185. 被引量：1
8Lloyd S P. Least squares quantization in PCM. IEEE Transactions on Information Theory, 1982, 28(2): 129-137. 被引量：1
9Berget I, Mevik B H, Nas T. New modifications and applications of fuzzy C-means methodology. Computational Statistics & Data Analysis, 2008, 52(5): 2403-2418. 被引量：1
10Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases. In: Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. Washington: ACM Press, 1998. 73-84. 被引量：1

二级参考文献6

1唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
2何建华,刘耀林,俞艳,唐新明.基于模糊贴近度分析的不确定拓扑关系表达模型[J].测绘学报,2008,37(2):212-216. 被引量：7
3Jianhua Jia (12) jjh163yx@163.com Bingxiang Liu (1) Licheng Jiao (2).Soft spectral clustering ensemble applied to image segmentation[J].Frontiers of Computer Science,2011,5(1):66-78. 被引量：6
4王羡慧,覃征,张选平,高洪江.采用仿射传播的聚类集成算法[J].西安交通大学学报,2011,45(8):1-6. 被引量：10
5周林,平西建,徐森,张涛.基于谱聚类的聚类集成算法[J].自动化学报,2012,38(8):1335-1342. 被引量：62
6卢志茂,李纯,张琦.近邻传播的文本聚类集成谱算法[J].哈尔滨工程大学学报,2012,33(7):899-905. 被引量：9

共引文献16

1陈烜,刘晓燕,赵泉华,李玉.结合多特征和模糊偏好关系的高分辨率遥感影像分割[J].控制与决策,2020,35(4):781-790. 被引量：3
2徐向艺,薛瑞.基于粒子群适应度控制的通信信道均衡优化算法[J].微电子学与计算机,2015,32(7):138-141. 被引量：4
3赵雪梅,李玉,赵泉华.参数自适应的可变类FLICM灰度图像分割算法[J].控制与决策,2017,32(2):262-268. 被引量：10
4储岳中,刘恒,张学锋,潘祥.基于选择性聚类集成的图像目标分类方法[J].微电子学与计算机,2017,34(11):58-62.
5赵洁,薛瑞,唐德玉.决策距离修正下的弱决策证据合成方法[J].控制与决策,2018,33(1):1-15. 被引量：2
6刘晋胜,周靖.混合属性对象的类别关系修正的模糊聚类方法[J].计算机应用研究,2018,35(2):367-371.
7曾碧,黄文.一种融合多特征聚类集成的室内点云分割方法[J].计算机工程,2018,44(3):281-286. 被引量：8
8王伟伟,孙嘉晨,蒙肇阳,郭燕妮.用户行为与情境导向下的产品便携化设计研究[J].机械设计,2018,35(9):123-128. 被引量：10
9王伟,徐文彦.基于单信息初始搜索的特征选择方法研究[J].河南科学,2018,36(10):1511-1515.
10罗兰,肖建于.一种有效折扣证据源的冲突证据合成方法[J].计算机工程与应用,2019,55(4):154-158. 被引量：9

同被引文献272

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
2刘友超,张曦煌.基于自然最近邻相似图的谱聚类[J].计算机应用研究,2020,37(1):30-33. 被引量：6
3肖宇,于剑.Gap statistic与K-means算法[J].计算机研究与发展,2007,44(z2):176-180. 被引量：7
4陈富国.多维标度法的理论与方法[J].心理科学通讯,1990,13(4):38-42. 被引量：24
5唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
6阳春华,段小刚,王雅琳,桂卫华.烧结法生产氧化铝生料浆的配料专家系统设计[J].中南大学学报（自然科学版）,2005,36(4):648-652. 被引量：17
7董明,屈彦明,周孟戈,严璋.基于组合决策树的油浸式电力变压器故障诊断[J].中国电机工程学报,2005,25(16):35-41. 被引量：41
8宋斌,于萍,罗运柏,文习山.基于灰关联熵的充油变压器故障诊断方法[J].电力系统自动化,2005,29(18):76-79. 被引量：33
9张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
10李强,裘正定,孙冬梅,刘陆陆.基于改进二维主成分分析的在线掌纹识别[J].电子学报,2005,33(10):1886-1889. 被引量：36

引证文献38

1李晓庆,唐昊,司加胜,苗刚中.面向混合属性数据集的改进半监督FCM聚类方法[J].自动化学报,2018,44(12):2259-2268. 被引量：8
2徐正国,郑辉,贺亮,姚佳奇.基于局部密度下降搜索的自适应聚类方法[J].计算机研究与发展,2016,53(8):1719-1728. 被引量：6
3褚睿鸿,王红军,杨燕,李天瑞.基于密度峰值的聚类集成[J].自动化学报,2016,42(9):1401-1412. 被引量：15
4张宇献,彭辉灯,王建辉.基于异构值差度量的SOM混合属性数据聚类算法[J].仪器仪表学报,2016,37(11):2555-2562. 被引量：5
5谭侃,高旻,李文涛,田仁丽,文俊浩,熊庆宇.基于双层采样主动学习的社交网络虚假用户检测方法[J].自动化学报,2017,43(3):448-461. 被引量：13
6黄大荣,陈长沙,孙国玺,赵玲.电力变压器故障的客观熵权识别及诊断方法[J].电力系统自动化,2017,41(12):206-211. 被引量：36
7陈雷,肖创柏,禹晶,王真理,李学良.基于相似性传播聚类与主成分分析的断层识别方法[J].石油地球物理勘探,2017,52(4):826-833. 被引量：9
8费贤举,李虹,田国忠.基于特征加权理论的数据聚类算法[J].沈阳工业大学学报,2018,40(1):77-81. 被引量：40
9邹臣嵩,杨宇.基于最大距离积与最小距离和协同K聚类算法[J].计算机应用与软件,2018,35(5):297-301. 被引量：15
10陈晋音,郑海斌,保星彤.基于自适应密度聚类非线性流形学习降维方法研究与实现[J].小型微型计算机系统,2018,39(8):1641-1645. 被引量：2

二级引证文献302

1夏雪,金勇根,段和平,周洁晨.江西省雷灾灾情和闪电活动时空分布特征及灾情等级划分研究[J].自然灾害学报,2022,31(2):252-260. 被引量：5
2吴清寿,郭磊,余文森.基于网络社区发现的标签传播聚类算法[J].计算机系统应用,2020,29(12):135-143. 被引量：1
3张政,严哲,顾汉明.基于残差网络与迁移学习的断层自动识别[J].石油地球物理勘探,2020(5):950-956. 被引量：23
4侯婕,田学法,孔淑麒.基于LSTM的铝电解槽况预测[J].轻金属,2021(1):33-37. 被引量：5
5段桂芹,邹臣嵩.基于K-medoids算法的学生成绩聚类研究[J].微型电脑应用,2020,0(2):64-66. 被引量：1
6冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：11
7夏飞,张洁,张浩,陆剑峰.基于BIC准则和加权皮尔逊距离的居民负荷模式精细识别及预测[J].电子测量与仪器学报,2020,32(11):33-42. 被引量：15
8段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
9宋军英,崔益伟,李欣然,钟伟,邹鑫,李培强.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法[J].电力系统自动化,2020(15):87-98. 被引量：31
10秦亮亮.基于MMED+TQWT算法的轴承机电故障信号识别分析[J].工程机械文摘,2023(4):10-13.

1张娜,王素芳.基于距离划分与剩余能量的无线传感器网络分簇算法[J].河南科学,2013,31(1):70-73. 被引量：1
2刘波,刘伟,余小华.一种改进的主动队列管理算法[J].计算机工程,2008,34(20):118-120. 被引量：1
3张新莲.任意数的高精度乘法[J].电子与电脑,1993(3):20-21. 被引量：1
4面部描述与物体分析技术[J].电脑与电信,2012(8):34-34.
5张新莲.任意数的高精度除法运算程序[J].电子与电脑,1993(5):20-22. 被引量：1
6面部描述与物体分析技术[J].电脑与电信,2012(5):25-25.
7田地,王世卿.数据挖掘中基于密度和距离聚类算法设计[J].计算机技术与发展,2006,16(10):49-51. 被引量：5
8AdobeBridge菜单功能[J].数码摄影,2012(9):163-163.
9刘兵,张鸿.基于卷积神经网络和流形排序的图像检索算法[J].计算机应用,2016,36(2):531-534. 被引量：13
10孟海东,马娜娜,宋宇辰,徐贯东.基于密度函数加权的模糊C均值聚类算法研究[J].计算机工程与应用,2012,48(27):123-127. 被引量：11

自动化学报

2015年第10期

浏览历史

内容加载中请稍等...

基于密度的聚类中心自动确定的混合属性数据聚类算法研究被引量：38

参考文献30

二级参考文献6

共引文献16

同被引文献272

引证文献38

二级引证文献302

相关作者

相关机构

相关主题

浏览历史

基于密度的聚类中心自动确定的混合属性数据聚类算法研究 被引量：38

参考文献30

二级参考文献6

共引文献16

同被引文献272

引证文献38

二级引证文献302

相关作者

相关机构

相关主题

浏览历史

基于密度的聚类中心自动确定的混合属性数据聚类算法研究被引量：38