一种有效的高维分类数据聚类方法研究被引量：2

An Effective High Dimensional Categorical Data Clustering Method Research

下载PDF

导出

摘要随着数据规模的不断增大,提高K-modes聚类算法或模糊K-modes聚类算法的运行效率成为了一个重要问题.为了提高其算法执行效率,提出了一种基于分治法的高维分类数据聚类方法.该方法并不是一次性对所有的数据进行聚类,而是将分类数据集分成若干个子集,对每个子集同时进行聚类,最后对聚类结果进行融合以形成最终的聚类结果.实验结果表明大多数情况下较传统的方法在聚类的速度上有显著的提高. With the increasing size of data set,improving the efficiency of K-modes clustering algorithm or fuzzy K-modes clustering algorithm is becoming a critical issue.In order to improve the efficiency of the algorithm,a clustering method based on divided and conquered method was proposed.This method,not a one-time clustering of all data,divided the data set into several subsets,and each subset was clustered at the same time;the fusion results of each subset cluster form the final clustering results.The results show that the efficiency of clustering has been increased greatly compared with traditional clustering method in most cases.

作者贾俊芳李德玉

机构地区山西大学计算机与信息技术学院山西大学计算智能与中文信息处理教育部重点实验室山西大同大学数学与计算机科学学院

出处《微电子学与计算机》 CSCD 北大核心 2011年第6期88-91,共4页 Microelectronics & Computer

基金国家自然科学基金资助项目(60970014) 教育部高等学校博士点基金(200801080006) 教育部科学技术研究重点项目(207018) 山西省重点实验室开放基金项目(2007031017) 太原市科技明星专项基金项目(09121001)

关键词聚类分析模糊聚类分治法分类数据评价指标 clustering analysis fuzzy clustering divided and conquered method large categorical data sets evaluation index

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
2Jain A K, Murty M N, Flynn P J. Data clustering: a re- view [J]. ACM Computing Surveys, 1999, 31(3) : 274 -289. 被引量：1
3Huang Zhexue. Extensions to the k means algorithms for clustering large data sets with categorical values[J]. Data Mining and Knowledge Discovery, 1998, 2(3): 283-304. 被引量：1
4Michael K Ng, Mark Junjie Li,Joshua Zhexue Huang,et al. On the impact of dissimilarity measurein k- modes clustering algorithm[J]. IEEE Transactions On Pattren Analysis and Machine Intelligence, 2007,29(3): 503-507. 被引量：1
5吕国英,任瑞征,钱宇华.算法设计与分析[M].2版.北京:清华大学出版社,2009:139-150. 被引量：2
6蔡自兴,徐光祐.人工智能及其应用[M].3版.北京:清华大学出版社,2006. 被引量：2
7Fuyuan Cao, Jiye Liang, Liang Bai. A new initialization method for categorical data clustering[J]. Expert Sys- tems with Applications. 2009(36):10223-10228. 被引量：1
8白亮,梁吉业,曹付元.基于粗糙集的改进K-Modes聚类算法[J].计算机科学,2009,36(1):162-164. 被引量：15
9白亮,曹付元,梁吉业.基于新的相异度量的模糊K-Modes聚类算法[J].计算机工程,2009,35(16):192-194. 被引量：5

二级参考文献20

1张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
2李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
3Han Jiawei,Kamber M. Data Mining:Concepts and Techniques. San Francisco, US: Morgan Kaufmann, 2001 被引量：1
4MacQueen J B. Some methods for classification and analysis of multivariate observation//Proceeding 5^th Berkley Symposium, on Mathematical Statistics and Probability. 1967, I:281-297. University of California Press, 1967, Xvii, 666 被引量：1
5Huang Zhexue. Clustering Large Data Sets with Mixed Numeric and Categorical Values//PAKDD'97. Singapore, World Scientific, 1997:21-35 被引量：1
6Huang Zhexue. Extensions to the k Means algorithm for clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 1998,2 : 283-304 被引量：1
7Michael K, Ng M, Li Junjie, et al. On the impact of dissimilarity measure in K-Modes clustering algorithm. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007,29 (3) : 503-507 被引量：1
8Li Cen, Biswas Gautam. Unsupervised learning with mixed numeric and nominal data. IEEE Transactions on Knowledge and Data Engineering, 2002,14 :673-690 被引量：1
9Hsu C C, Chen Chinlong, Su Yuwei. Hierarchical clustering of mixed data based on distance hierarchy. Information Sciences, 2007 :4474-4492 被引量：1
10Hsu C C. Generalizing self-organizing map for categorical data. IEEE Transaction on Neural Network, 2006,17 (2) : 294-304 被引量：1

共引文献1095

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85. 被引量：1
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献9

1陈孝新.熵权法在股票市场的应用[J].商业研究,2004(16):139-140. 被引量：9
2汪加才,朱艺华.模糊K-Prototypes算法中的加权指数研究[J].计算机应用,2005,25(2):348-351. 被引量：4
3赵立江,黄永青,刘玉龙.改进的混合属性数据聚类算法[J].计算机工程与设计,2007,28(20):4850-4852. 被引量：8
4高孝伟.熵权法在教学评优中的应用研究[J].中国地质教育,2008,17(4):100-104. 被引量：12
5贺玲,蔡益朝,杨征.高维数据聚类方法综述[J].计算机应用研究,2010,27(1):23-26. 被引量：42
6陈韡,王雷,蒋子云.基于K-prototypes的混合属性数据聚类算法[J].计算机应用,2010,30(8):2003-2005. 被引量：16
7陈宁,陈安,周龙骧.数值型和分类型混合数据的模糊K-Prototypes聚类算法(英文)[J].软件学报,2001,12(8):1107-1119. 被引量：47
8范黎林,王娟.基于粗糙集的混合属性数据聚类算法[J].计算机应用,2010,30(A12):3377-3379. 被引量：4
9王宇,杨莉.模糊k-prototypes聚类算法的一种改进算法[J].大连理工大学学报,2003,43(6):849-852. 被引量：11

引证文献2

1孙浩军,游俊斌,吴廷发.基于粗糙集的高维分类型数据子空间聚类算法[J].汕头大学学报（自然科学版）,2012,27(4):46-53.
2孙浩军,高玉龙,闪光辉,袁婷.基于熵权法的混合属性聚类算法[J].汕头大学学报（自然科学版）,2013,28(4):58-65. 被引量：5

二级引证文献5

1高翠芳,黄珊维,沈莞蔷,殷萍.基于信息熵加权的协同聚类改进算法[J].计算机应用研究,2015,32(4):1016-1018. 被引量：6
2蔡臣,李晓,赵颖文,陈春燕.川西地区经济发展与农业现代化协同发展研究[J].山西农业科学,2015,43(9):1183-1187. 被引量：2
3赵俊杰,王平.一种面向于混合属性数据的聚类改进算法及其在客户细分中的应用[J].南昌大学学报（工科版）,2017,39(3):284-288. 被引量：2
4李晔,陈奕延,张淑芬.基于密度峰值的混合型数据聚类算法设计[J].计算机应用,2018,38(2):483-490. 被引量：6
5韩文,余照阳,刘飞.基于熵权和层次分析法的高层建筑火灾风险评价研究——以贵阳某高层建筑为例[J].项目管理技术,2024,22(4):12-17.

1单世民,王新艳,张宪超.高维分类属性的子空间聚类算法[J].小型微型计算机系统,2009,30(10):2016-2021. 被引量：6
2张伟,张泽洪.基于最大频繁项集的聚类算法[J].江南大学学报（自然科学版）,2007,6(3):288-292. 被引量：1
3张月琴,陈彩棠.基于新相异度量的模糊K-Modes聚类算法[J].电脑开发与应用,2012,25(5):32-34. 被引量：2
4白亮,曹付元,梁吉业.基于新的相异度量的模糊K-Modes聚类算法[J].计算机工程,2009,35(16):192-194. 被引量：5
5王洪波,刘希玉.基于差分进化计算的K—Modes聚类算法[J].高性能计算技术,2012,0(1):25-30.
6赵恒,杨万海.基于属性加权的模糊K-Modes聚类算法[J].系统工程与电子技术,2003,25(10):1299-1302. 被引量：12
7李伟卫,赵航,张阳,王勇.基于MapReduce的海量数据挖掘技术研究[J].计算机工程与应用,2013,49(20):112-117. 被引量：35
8赵兴旺,梁吉业,曹付元.符号数据最佳聚类个数的确定方法[J].广西师范大学学报（自然科学版）,2009,27(3):130-133.
9李彦,王颖,廖一鸣,赵文硕.MapReduce框架下运用K-modes聚类算法进行日负荷曲线预测[J].计算机与数字工程,2016,44(2):230-232.
10赵亮,刘建辉,张昭昭.基于贝叶斯距离的K-modes聚类算法[J].计算机工程与科学,2017,39(1):188-193. 被引量：5

微电子学与计算机

2011年第6期

浏览历史

内容加载中请稍等...

一种有效的高维分类数据聚类方法研究被引量：2

参考文献9

二级参考文献20

共引文献1095

同被引文献9

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种有效的高维分类数据聚类方法研究 被引量：2

参考文献9

二级参考文献20

共引文献1095

同被引文献9

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种有效的高维分类数据聚类方法研究被引量：2