基于孤立点和初始质心选择的k-均值改进算法被引量：7

An Improved k-means Algorithm Based on Outliers and Original Clustering Center

下载PDF

导出

摘要介绍了在聚类中广泛应用的经典k-均值算法,针对其随机选择初始质心和易受孤立点的影响的不足,给出了一种改进的k-均值算法。首先使用距离法移除孤立点,然后采用邻近吸收法对初始质心的选择上进行了改进,并做了改进前后的对比试验。试验结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择质心的影响也有所降低。 The classic algorithm of k-means was discussed,that was one of the most widespread methods in clustering,including both strongpoints and shortages.Not only is it sensitive to the original clustering center,but also it may be affected by the outliers.Given these shortages,an improved algorithm is discussed,which makes improvements in outliers and selection of original clustering center.The outlier detection is based on the distance method.To select original clustering center is assimilated based on the nearest neighbour.Experiment is checked,which indicates the improved one is more stable,more accurate.

作者顾洪博张继怀

机构地区大庆石油学院计算机与信息技术学院大庆市让胡路区政府

出处《长江大学学报（自科版）（上旬）》 CAS 2009年第1期60-62,共3页 JOURNAL OF YANGTZE UNIVERSITY (NATURAL SCIENCE EDITION) SCI ＆ ENG

基金黑龙江省教育厅科学技术研究项目(11521008) 黑龙江省自然科学基金资助项目(F200603)

关键词 K-均值算法孤立点初始质心距离 algorithm of k-means outliers original clustering center distance

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1杨小兵..聚类分析中若干关键技术的研究[D].浙江大学,2005:
2连凤娜,吴锦林,唐琦.一种改进的K-means聚类算法[J].电脑与信息技术,2008,16(1):38-40. 被引量：23
3Marques J P, Written, Wu Y F. Trans Pattern Recognition Concepts, Methods and Applications [M] ,2nd ed. Beijing: Tsinghua University Press, 2002. 51-74. 被引量：1
4Huang Z.A fast clustering algorithm to cluster very large categorical data sets in data mining [EB/OL] . http: // www. ece. northwestern, edu/-harsha/Clustering/sigmodfn, ps, 2008-12-15. 被引量：1
5Sambasivam S, Theodosopoulos N. Advanced data clustering methods of mining Web documents [J] . Issues in Informing Science and Information Technology, 2006, (3) : 563-579. 被引量：1
6Sanjay Chawla, Pei Sun. SLOM: a new measure for local spatial outliers[J] .Knowledge and Information Systems, 2006, (4) :412 -429. 被引量：1
7尹珧人,王德广.一种改进的k-means聚类算法在入侵检测中的应用[J].科学技术与工程,2008,8(16):4701-4705. 被引量：7
8Sudipto G, Rajeev R, Kyuseok S. Cure: an effieient Elustering algorithm forlarge databases [J] . Information Systems, 2001, 261:35-58. 被引量：1

二级参考文献7

1陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3[1]Agrawalr S.Database mining:a performance perspective.IEEE Transctions on Knowledge and Data Engineering,1993:5(6):914-925 被引量：1
4Han J W Kamber M 范明孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版杜,2001.147-158. 被引量：113
5Kaufan L, Rousseeuw Pj. Finding Groups in Data: an Introduction to Cluster Analysis[M]. New York: John Wiley & Sons, 1990. 被引量：1
6Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databased[C]. In Haas LM, Tiwary A eds. Proceedings of the ACM SIGMOD International Conference on Management of Data, Sesttle: ACM Press, 1998:73-84. 被引量：1
7张玉芳,毛嘉莉,熊忠阳.一种改进的K-means算法[J].计算机应用,2003,23(8):31-33. 被引量：73

共引文献26

1步媛媛,关忠仁.基于K-means聚类算法的研究[J].西南民族大学学报（自然科学版）,2009,35(1):198-200. 被引量：23
2雷宏,张著洪.受约束的两类数据分割算法及其应用[J].贵州大学学报（自然科学版）,2009,26(2):85-89.
3顾洪博,苏冬娜.基于孤立点和初始质心选择的k均值算法的改进与应用[J].陕西理工学院学报（自然科学版）,2009,25(3):45-49. 被引量：4
4顾洪博,赵万平.数据挖掘算法性能优化的研究与应用[J].长春理工大学学报（自然科学版）,2010,33(1):164-166. 被引量：9
5王德荣,李卫华.网络号百用户兴趣模型挖掘算法[J].现代计算机,2010,16(4):44-48. 被引量：1
6顾洪博,张继怀.聚类算法初始聚类中心的优化[J].西安工程大学学报,2010,24(2):222-226. 被引量：7
7于丽.一种改进的K-means聚类算法[J].辽宁师专学报（自然科学版）,2010,12(2):1-1. 被引量：3
8孙祥,赵勇.基于就业吸引力的大学生区域流向分类研究[J].黄冈师范学院学报,2010,30(3):46-51. 被引量：6
9顾洪博,张继怀.改进的k-均值算法在聚类分析中的应用[J].西安科技大学学报,2010,30(4):484-489. 被引量：3
10钟晓旭,胡学钢.基于数据挖掘的Web招聘信息相关性分析[J].安徽建筑工业学院学报（自然科学版）,2010,18(4):93-96. 被引量：11

同被引文献55

1杨冕,秦前清.基于无线传感器网络的路由协议[J].计算机工程与应用,2004,40(32):130-131. 被引量：25
2陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
3吕常魁,姜澄宇,王宁生.一种支持向量聚类的快速算法[J].华南理工大学学报（自然科学版）,2005,33(1):6-9. 被引量：11
4祝正威.雷达信号的聚类分选方法[J].电子对抗,2005(6):6-10. 被引量：33
5杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
6李惠,周文松,欧进萍,杨永顺.大型桥梁结构智能健康监测系统集成技术研究[J].土木工程学报,2006,39(2):46-52. 被引量：143
7陈良维.数据挖掘中聚类算法研究[J].微计算机信息,2006(07X):209-211. 被引量：32
8罗燚,柳清芬,祁耀斌,孟凡华.桥梁长期健康监测中状况评估专家系统的研究[J].微计算机信息,2006,22(09X):32-34. 被引量：3
9岳青,朱利明.基于健康监测系统的东海大桥桥梁结构养护管理体系的构建[J].桥梁建设,2006,36(A02):171-175. 被引量：14
10王勇刚.基于模糊聚类的雷达信号分选方法[J].电子对抗,2007(2):9-12. 被引量：11

引证文献7

1顾洪博,张继怀.改进的k-均值算法在聚类分析中的应用[J].西安科技大学学报,2010,30(4):484-489. 被引量：3
2向娴,汤建龙.一种基于网格密度聚类的雷达信号分选[J].火控雷达技术,2010,39(4):67-72. 被引量：13
3石红丽,王洁,唐艳,张小军.基于无线传感器网络的K均值算法研究[J].电子设计工程,2011,19(6):113-115. 被引量：2
4屈新怀,高万里,丁必荣,李朕.基于聚类数和初始值的K-means算法改进研究[J].组合机床与自动化加工技术,2011(4):42-46. 被引量：6
5田蕊,谭励,苏维均,商利利.基于RIA的桥梁结构健康监测状态评估系统[J].计算机工程与设计,2011,32(8):2889-2892. 被引量：3
6皮国强,杜朝东.改进的k-均值算法在大学生科技创业活动研究中的应用[J].软件导刊,2012,11(9):38-39.
7郑子扬,陈永游,张君,史敏,贺刚.基于SOFM网络聚类雷达信号分选预处理改进算法[J].航天电子对抗,2013,29(3):42-45. 被引量：8

二级引证文献34

1刘志刚,杜娟,衣治安.一种改进的分类算法在不良信息过滤中的应用[J].微计算机应用,2011,32(2):9-14. 被引量：1
2田蕊,谭励,苏维均,商利利.基于RIA的桥梁结构健康监测状态评估系统[J].计算机工程与设计,2011,32(8):2889-2892. 被引量：3
3吴勇,柳征,邓新蒲.基于平面分割和PRI的雷达信号分选[J].电子信息对抗技术,2011,26(6):9-12. 被引量：3
4邱磊,杨承志,陈昊,占望宝.基于网格聚类的雷达信号预分选[J].航天电子对抗,2012,28(3):51-54. 被引量：1
5杨萍,郭春阳,李翠明.基于K-means聚类算法的群体机器人聚集队形控制[J].组合机床与自动化加工技术,2012(8):89-92.
6邱磊,杨承志,何佃伟,陈昊.一种基于改进网格聚类的雷达信号预分选算法[J].电子信息对抗技术,2012,27(5):14-17. 被引量：2
7黄超,何晋.基于模糊C均值算法的云南草药聚类分析[J].计算机应用,2012,32(A02):32-33.
8邱磊,杨承志,何佃伟.一种新的基于网格聚类的雷达信号预分选算法[J].现代防御技术,2013,41(2):167-172. 被引量：5
9徐苏娅,胡彩平,王立松.WSNS中基于Fusion-Bayes的离群点检测[J].电子科技,2013,26(5):102-105.
10李星雨,杨承志,曲文韬,张荣.基于自适应网格密度聚类的雷达信号分选算法[J].航天电子对抗,2013,29(2):50-53. 被引量：2

1顾洪博,苏冬娜.基于孤立点和初始质心选择的k均值算法的改进与应用[J].陕西理工学院学报（自然科学版）,2009,25(3):45-49. 被引量：4
2屈新怀,高万里,丁必荣,李朕.基于聚类数和初始值的K-means算法改进研究[J].组合机床与自动化加工技术,2011(4):42-46. 被引量：6
3刘明术.基于K-均值聚类的混合聚类算法[J].安庆师范学院学报（自然科学版）,2016,22(1):40-42. 被引量：3
4安建成,史德增.一种改进的K-means算法[J].电脑开发与应用,2011,24(4):39-40. 被引量：6
5马仕玉,李益才,蓝章礼.一种具有优良抗噪性能的初始聚类质心选择算法[J].计算机科学,2014,41(S1):406-408.
6孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15
7田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
8张真,任贺宇.一种基于动态网格技术的K-means初始质心选取算法[J].微电子学与计算机,2013,30(6):101-104. 被引量：2
9刘澎,陆介平.基于MapReduce的改进k-means文本聚类算法[J].信息技术,2016,40(11):201-205. 被引量：3
10魏新红,张凯.一种改进的PSO-Means聚类优化算法[J].河南科技大学学报（自然科学版）,2011,32(2):41-43. 被引量：7

长江大学学报（自科版）（上旬）

2009年第1期

浏览历史

内容加载中请稍等...

基于孤立点和初始质心选择的k-均值改进算法被引量：7

参考文献8

二级参考文献7

共引文献26

同被引文献55

引证文献7

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于孤立点和初始质心选择的k-均值改进算法 被引量：7

参考文献8

二级参考文献7

共引文献26

同被引文献55

引证文献7

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于孤立点和初始质心选择的k-均值改进算法被引量：7