基于初始质心的K-Means算法优化被引量：1

K-Means algorithm optimization based on initial centroid

下载PDF

导出

摘要由于传统K-Means聚类算法对初始质心的赋值具有随机性,使得模拟结果有着极大的波动。针对这一问题,文章采用均分法,首先将样本数据清洗,将偏差值较大的数据筛除,然后把处理后的样本数据在二维平面内均匀划分成若干等分,进行排序归纳计算出最佳初始质心用于聚类算法的初次迭代,并调用SSE等度量指标对迭代的质心进行更新,最后将样本数据划分成有意义的簇。实验结果表明,文章针对K-Means算法的优化在一定程度上减少了质心的迭代次数,节省了时间同时提高了准确率,对初始质心赋值优化具有有效性和实用性的特点。 Due to the randomness of the initial centroid assignment of the original K-Means clustering algorithm,the simulation results fluctuate greatly.However,the current research has some deficiencies in the assignment of the initial centroid.In order to solve this problem,this paper uses the mean method to clean the sample data and screen out the data with large deviation,then evenly divide the processed sample data into several equal parts in the two-dimensional plane,sort and calculate the best initial centroid for the first iteration of the clustering algorithm,and call metrics such as SSE to update the centroid of the iteration,and finally divide the sample data into meaningful clusters.The experimental results show that the optimization of the K-Means algorithm reduces the number of iterations of the centroid to a certain extent,saves time and improves the simulation accuracy,and has the effectiveness and practicability of optimizing the initial centroid assignment.

作者何嘉伦马冲 HE Jialun;MA Chong(School of Software of Xinjiang University,Xinjiang Urumqi 830000)

机构地区新疆大学软件学院

出处《长江信息通信》 2023年第6期69-72,75,共5页 Changjiang Information & Communications

关键词 K-MEANS算法欧氏距离 SSE 轮廓系数方差比准则 DB K-Means algorithm Euclidean distance SSE Profile factor Variance ratio guidelines DB

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1孔钰婷,谭富祥,赵鑫,张正航,白璐,钱育蓉.基于差分隐私的K-means算法优化研究综述[J].计算机科学,2022,49(2):162-173. 被引量：8
2刘广聪,黄婷婷,陈海南.改进的二分K均值聚类算法[J].计算机应用与软件,2015,32(2):261-263. 被引量：25
3张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
4朱连江,马炳先,赵学泉.基于轮廓系数的聚类有效性分析[J].计算机应用,2010,30(12):139-141. 被引量：120
5付卫红,马丽芬,李爱丽.基于改进K-均值聚类的欠定混合矩阵盲估计[J].系统工程与电子技术,2014,36(11):2143-2148. 被引量：10
6付丽梅.基于K-means优化的SOM神经网络算法的视频推荐系统[J].软件工程,2022,25(10):17-19. 被引量：3
7雷小锋,何涛,李奎儒,谢昆青,丁世飞.面向结构稳定性的分裂-合并聚类算法[J].计算机科学,2010,37(11):217-222. 被引量：4

二级参考文献64

1刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
2杨占华,杨燕.SOM神经网络算法的研究与进展[J].计算机工程,2006,32(16):201-202. 被引量：78
3袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：154
4彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
5BEZDEK J C. Pattern recognition with fuzzy objective function algorithms [ M]. New York: Plenum Press, 1981. 被引量：1
6HAND D, MANNILA H, SMYTH P. Principles of data mining [ M]. Cambridge: MIT Press, 2001. 被引量：1
7TAN PANG-NING, STEINBACH M, KUMAR V. Introduction to data mining [M]. Boston, MA: Addison-Wesley, 2006. 被引量：1
8CHEN DUO, LI XUE. An adaptive cluster validity index for the fuzzy C-means [ J]. International Journal of Computer Science and Network Security, 2007, 7(2) : 146 - 156. 被引量：1
9KAUFMAN L, ROUSSEEUW P J. Finding groups in data: an introduction to cluster analysis [ M]. New York: John Wiley & Sons, 1990. 被引量：1
10UCI Machine Leaming Repository [ EB/OL]. [ 2010 -02 -25]. http://www, isc. uci. edu/- mlearrc/MLRepository, html. 被引量：1

共引文献183

1王晶,李炜,洪心睿,吴宸之.基于改进密度聚类算法的语音信号欠定盲分离[J].信息与控制,2023,52(6):784-796. 被引量：4
2陈剑,程明.基于tSNE-ASC特征选择和DSmT融合决策的滚动轴承声振信号故障诊断[J].电子测量与仪器学报,2022,36(4):195-204. 被引量：6
3吴勇,李仁发,刘钰峰.基于Ant-Tree算法的短文本聚类研究[J].软件,2011,32(4):84-86.
4吴勇,徐峰.一种适用于短消息文本的聚类算法[J].计算机与现代化,2012(2):31-34.
5张娇,裘国永,张奇.基于二分K均值的SVM决策树的高维数据分类方法[J].赤峰学院学报（自然科学版）,2012,28(7):13-15. 被引量：1
6穆建晔,田碧洁.影响经济发展的文化因素及其扬弃[J].学术交流,2000(3):36-38.
7徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
8曹永春,邵亚斌,田双亮,蔡正琦.一种基于分组遗传算法的聚类新方法[J].西华大学学报（自然科学版）,2013,32(1):39-43. 被引量：7
9张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：56
10张宇,刘坡,杨敏华,龚建华,黄明详.基于GPU的二部图联合聚类并行算法研究[J].地理与地理信息科学,2013,29(4):99-103. 被引量：4

同被引文献5

1葛兆明,陈敏,王剑.几个重要因素对高强泵送混凝土的影响[J].混凝土,2000(2):25-27. 被引量：15
2林家超,吴雄,黄义雄,王淑,彭园.混凝土超高层泵送评价方法研究进展[J].混凝土,2015(10):109-112. 被引量：9
3阎培渝,黎梦圆,韩建国,赵晓.新拌混凝土可泵性的研究进展[J].硅酸盐学报,2018,46(2):239-246. 被引量：30
4王森,刘琛,邢帅杰.K-means聚类算法研究综述[J].华东交通大学学报,2022,39(5):119-126. 被引量：48
5彭秀英.混凝土泵开式液压系统液压冲击分析与对策[J].液压与气动,2003,27(11):12-14. 被引量：11

引证文献1

1熊慎,冯戈翎,赵鑫,赵佩珩.基于聚类算法的混凝土泵车泵送压力波形识别方法研究[J].建设机械技术与管理,2024,37(5):18-21.

1路佳佳.基于交叉验证的集成学习误差分析[J].计算机系统应用,2023,32(1):302-309. 被引量：7
2于国宝.矿井涌水量预测模型的修正及实例应用研究[J].水电站机电技术,2023,46(2):140-143. 被引量：2
3梁文瑜,高根琳.血液透析患者残余肾功能与血压的相关性分析[J].中文科技期刊数据库（引文版）医药卫生,2022(2):232-234.
4王志强,丁丹,杨柳.弹载并行组合扩频载波快速精确估计方法[J].兵器装备工程学报,2022,43(S02):91-94.
5孔攀登.深圳市地铁网络出行效率及运行可靠性研究[J].交通与运输,2023,39(3):48-53.
6张超华,滕清凤,林红.弹力带抗阻运动与健康教练技术联用对妊娠糖尿病患者血糖及心理弹性水平的影响[J].糖尿病新世界,2023,26(11):111-114. 被引量：2
7叶珊,郑惠仪.透析前慢性肾脏病管理对血液透析患者预后的影响观察[J].中文科技期刊数据库（全文版）医药卫生,2023(5):16-19.
8李文静.探究口腔修复治疗中采用铸造支架的临床价值[J].中文科技期刊数据库（文摘版）医药卫生,2023(7):25-27.
9邓鑫.浅析在妇产科腹腔镜手术患者中采用盐酸羟考酮注射液对术后镇痛的效果[J].中文科技期刊数据库（全文版）医药卫生,2023(8):83-85.
10牛亚娟.头皮针经颞浅动脉采集新生儿血气分析标本成功率策略研究[J].中文科技期刊数据库（全文版）医药卫生,2023(6):92-94.

长江信息通信

2023年第6期

浏览历史

内容加载中请稍等...

基于初始质心的K-Means算法优化被引量：1

参考文献7

二级参考文献64

共引文献183

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于初始质心的K-Means算法优化 被引量：1

参考文献7

二级参考文献64

共引文献183

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于初始质心的K-Means算法优化被引量：1