基于孤立点和初始质心选择的k均值算法的改进与应用被引量：4

Application of an improved k-means algorithm based on outliers and original clustering center

下载PDF

导出

摘要针对聚类中广泛应用的经典k均值算法随机选择初始质心和易受孤立点影响的不足,给出了二次改进的k均值算法。首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行改进,并做了改进前后的对比实验。结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择质心的影响也有所降低。 The classic algorithm of in clustering, including both strong points k-means is discussed, which is one of the most widespread methods and weak points. Not only is it sensitive to the original clustering center,but also it may be affected by the outliers. Given these shortages, an improved algorithm is discussed, which makes improvements in outliers and selection of original clustering center. The outlier detection based on the distance method. To select original clustering center based on the nearest neighbour is assimilated. Checking experiment has been done, which indicates the improved one is more stable, more accurate and the affection by the oufliers is down to a much low figure.

作者顾洪博苏冬娜

机构地区大庆石油学院计算机与信息技术学院

出处《陕西理工学院学报（自然科学版）》 2009年第3期45-49,共5页 Journal of Shananxi University of Technology:Natural Science Edition

基金黑龙江省教育厅科学技术研究项目(No.11521008) 黑龙江省自然科学基金资助项目(No.F200603)

关键词 K均值算法孤立点初始质心距离 algorithm of k-means outliers original clustering center distance

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1杨小兵..聚类分析中若干关键技术的研究[D].浙江大学,2005:
2连凤娜,吴锦林,唐琦.一种改进的K-means聚类算法[J].电脑与信息技术,2008,16(1):38-40. 被引量：23
3Marques J P.模式识别-原理、方法及应用[M].吴逸飞译.第2版.北京:清华大学出版社.2002.51-74. 被引量：1
4Huang Z. A fast clustering algorithm to cluster very large categorical data sets in data mining[A]. Prec. of the SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery[C]. Tucson, 1997. 146-151. 被引量：1
5Sambasivam S,Theodosopoulos N. Advanced data clustering methods of mining Web documents[J]. Issues in Informing Science and Information Technology,2006, (3) :563-579. 被引量：1
6Sanjay Chawla,Pei Sun. SLOM: a new measure for local spatial outliers[J] . Knowledge and Information Systems, 2006, (4) :412-429. 被引量：1
7尹珧人,王德广.一种改进的k-means聚类算法在入侵检测中的应用[J].科学技术与工程,2008,8(16):4701-4705. 被引量：7
8Sudipto G, Rajeev R, Kyuseok S. Cure:an effieient Elustering algorithm forlarge databases [ J ]. InformationSystems ,2001, 261:35-58. 被引量：1

二级参考文献7

1陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：47
3[1]Agrawalr S.Database mining:a performance perspective.IEEE Transctions on Knowledge and Data Engineering,1993:5(6):914-925 被引量：1
4Han J W Kamber M 范明孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版杜,2001.147-158. 被引量：113
5Kaufan L, Rousseeuw Pj. Finding Groups in Data: an Introduction to Cluster Analysis[M]. New York: John Wiley & Sons, 1990. 被引量：1
6Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databased[C]. In Haas LM, Tiwary A eds. Proceedings of the ACM SIGMOD International Conference on Management of Data, Sesttle: ACM Press, 1998:73-84. 被引量：1
7张玉芳,毛嘉莉,熊忠阳.一种改进的K-means算法[J].计算机应用,2003,23(8):31-33. 被引量：72

共引文献26

1步媛媛,关忠仁.基于K-means聚类算法的研究[J].西南民族大学学报（自然科学版）,2009,35(1):198-200. 被引量：22
2顾洪博,张继怀.基于孤立点和初始质心选择的k-均值改进算法[J].长江大学学报（自科版）（上旬）,2009,6(1):60-62. 被引量：7
3雷宏,张著洪.受约束的两类数据分割算法及其应用[J].贵州大学学报（自然科学版）,2009,26(2):85-89.
4顾洪博,赵万平.数据挖掘算法性能优化的研究与应用[J].长春理工大学学报（自然科学版）,2010,33(1):164-166. 被引量：9
5王德荣,李卫华.网络号百用户兴趣模型挖掘算法[J].现代计算机,2010,16(4):44-48. 被引量：1
6顾洪博,张继怀.聚类算法初始聚类中心的优化[J].西安工程大学学报,2010,24(2):222-226. 被引量：7
7于丽.一种改进的K-means聚类算法[J].辽宁师专学报（自然科学版）,2010,12(2):1-1. 被引量：3
8孙祥,赵勇.基于就业吸引力的大学生区域流向分类研究[J].黄冈师范学院学报,2010,30(3):46-51. 被引量：6
9顾洪博,张继怀.改进的k-均值算法在聚类分析中的应用[J].西安科技大学学报,2010,30(4):484-489. 被引量：3
10钟晓旭,胡学钢.基于数据挖掘的Web招聘信息相关性分析[J].安徽建筑工业学院学报（自然科学版）,2010,18(4):93-96. 被引量：11

同被引文献23

1叶志伟,尹宇洁,王明威,赵伟.一种基于杜鹃搜索算法的聚类分析方法[J].微电子学与计算机,2015,32(5):104-110. 被引量：6
2李宁,孙德宝,岑翼刚,邹彤.带变异算子的粒子群优化算法[J].计算机工程与应用,2004,40(17):12-14. 被引量：60
3淦文燕,李德毅,王建民.一种基于数据场的层次聚类方法[J].电子学报,2006,34(2):258-262. 被引量：82
4李灏,丁晓东.基于最速下降最优解参考的粒子群算法[J].计算机工程与应用,2006,42(16):44-45. 被引量：4
5余炳辉,袁晓辉,王金文,权先璋.随机摄动粒子群优化算法[J].计算机工程,2006,32(12):189-190. 被引量：12
6吴军,李为吉.改进的粒子群算法及在结构优化中的应用[J].陕西理工学院学报（自然科学版）,2006,22(4):36-39. 被引量：4
7刘金洋,郭茂祖,邓超.基于雁群启示的粒子群优化算法[J].计算机科学,2006,33(11):166-168. 被引量：23
8袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
9HANJia-wei,Micheline Kanber著.数据挖掘概念与技术[M].北京:机械工业出版社,2007 被引量：15
10STEINBACH M,KARYPIS G,KUMAR V.A comparison of document clustering techniques[C] //Proc of KDD.Boston,MA:Workshop on Text Mining,2000:109-111. 被引量：1

引证文献4

1简艳,贾洪勇.一种基于数据场的K-均值算法[J].计算机应用研究,2010,27(12):4498-4501. 被引量：11
2李辉.禁忌粒子群算法[J].陕西理工学院学报（自然科学版）,2011,27(1):85-90. 被引量：4
3顾洪博.改进的聚类分析算法的研究[J].黑龙江科技信息,2017(11):166-166.
4顾洪博.一种MDHD-K-means算法的研究[J].牡丹江大学学报,2018,27(6):110-113.

二级引证文献15

1康燕,张雪英.基于ZCPA参数的语音情感识别研究[J].山西电子技术,2011(3):80-82.
2赵凯,李声晋,白雪,赵锋.复合形退火的随机聚类算法[J].计算机应用研究,2013,30(4):1041-1043. 被引量：2
3陈义雄,梁昔明,黄亚飞.基于佳点集构造的改进量子粒子群优化算法[J].中南大学学报（自然科学版）,2013,44(4):1409-1414. 被引量：27
4王建龙,孙合明.基于EM算法和PSO算法的混合优化算法[J].计算机仿真,2013,30(5):330-333. 被引量：1
5吴憬琳,徐保国.一种改进粒子群算法及其在Wiener模型辨识中的应用[J].计算机应用研究,2014,31(11):3337-3339. 被引量：4
6董志强,秦月霞,姜小会.人工智能技术在排样技术上的发展现状[J].锻压装备与制造技术,2015,50(2):80-83. 被引量：1
7邹建武,祝明波,王炜,李相平.双采样点角估计筛选均值法对舰船的角估计[J].中国电子科学研究院学报,2015,10(5):518-522.
8张冉,夏厚培.一种新的k-means聚类雷达信号分选算法[J].现代防御技术,2015,43(6):136-141. 被引量：18
9玉坤.空间数据聚类在气象灾害预警中的应用[J].电子技术与软件工程,2018(9):164-165. 被引量：1
10冯鑫,胡晓曦,匡银.基于数据场的多模雷达信号分选算法[J].电子设计工程,2018,26(23):139-142. 被引量：6

1顾洪博,张继怀.基于孤立点和初始质心选择的k-均值改进算法[J].长江大学学报（自科版）（上旬）,2009,6(1):60-62. 被引量：7
2屈新怀,高万里,丁必荣,李朕.基于聚类数和初始值的K-means算法改进研究[J].组合机床与自动化加工技术,2011(4):42-46. 被引量：6
3刘明术.基于K-均值聚类的混合聚类算法[J].安庆师范学院学报（自然科学版）,2016,22(1):40-42. 被引量：3
4安建成,史德增.一种改进的K-means算法[J].电脑开发与应用,2011,24(4):39-40. 被引量：6
5马仕玉,李益才,蓝章礼.一种具有优良抗噪性能的初始聚类质心选择算法[J].计算机科学,2014,41(S1):406-408.
6孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15
7田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：25
8张真,任贺宇.一种基于动态网格技术的K-means初始质心选取算法[J].微电子学与计算机,2013,30(6):101-104. 被引量：2
9顾洪博,赵万平.基于MMD聚类算法及在高校成绩分析中的应用[J].河北工程大学学报（自然科学版）,2010,27(1):96-98. 被引量：7
10杨忠勇.数据挖掘算法在入侵检测中的应用[J].科学技术与工程,2007,7(6):1027-1031. 被引量：1

陕西理工学院学报（自然科学版）

2009年第3期

浏览历史

内容加载中请稍等...

基于孤立点和初始质心选择的k均值算法的改进与应用被引量：4

参考文献8

二级参考文献7

共引文献26

同被引文献23

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于孤立点和初始质心选择的k均值算法的改进与应用 被引量：4

参考文献8

二级参考文献7

共引文献26

同被引文献23

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于孤立点和初始质心选择的k均值算法的改进与应用被引量：4