基于模拟划分的SP-k-means-+算法被引量：3

SP-k-means-+ algorithm based on simulated partition

导出

摘要 I-k-means-+算法作为一种新的k-means目标函数优化算法,通过分裂与删除簇提高解的质量,在一定程度上克服了k-means算法容易陷入局部最优解而导致目标函数优化效果不佳的问题,但该算法采用一种比较粗糙的方式估计各簇的Gain值和Cost值,影响了目标函数优化效果。针对此问题本文提出了一种基于模拟划分的SP-k-means-+算法,根据各簇模拟划分的情况,更准确地计算各簇的Gain值和Cost值,降低了簇对匹配过程中漏检与误判的可能性,在每次迭代中选择更合适的簇对执行分裂删除操作,进一步优化了目标函数并且避免了无效迭代造成的冗余计算问题。实验结果表明:当无需-+操作时,本文算法与I-kmeans-+算法的目标函数一致且效率提升了16%;当需要-+操作时,本文算法在不降低计算效率的前提下目标函数优化效果较I-k-means-+算法更佳,聚类模型解的精度提高了10%以上,最高达到47%。 K-means algorithm is easy to fall into local optimal solution,which leads to poor optimization effect of objective function,especially when k-means is applied to data sets which the number of data elements,data dimension and clusters are large. To solve this problem,iterative k-means minus–plus(Ik-means-+)is proposed in 2018,as a new clustering algorithm of objective function optimization for kmeans,which improves iteratively the quality of solution of clustering by removing one cluster(minus),dividing another one(plus),from the generated clustering solution,and updating each cluster with topical k-means. However,I-k-means-+ algorithm roughly estimates the gain value and cost value of each cluster,sacrifices precision for lower computational complexity and affects the optimization of objective function. Focus on this problem,in this paper,there is a modified I-k-means-+ algorithm called SP-kmeans-+ which propose to calculate the gain value and cost value of each cluster more accurately,based on simulated partition of every cluster. It reduces the possibility of missing detection and misjudgment in the process of cluster pair matching and avoids the redundant computation caused by invalid iteration in I-kmeans-+ algorithm,selects more suitable cluster pairs to divide or delete in each iteration. SP-k-means-+ algorithm optimizes the objective function further,improves partial computing efficiency,and the simulated partition is accelerating by a new heuristic acceleration algorithm. Results of experiments according to real data set show that,given the same initial clustering solution,when there is no-+process,the efficiency of SP-k-means-+ algorithm is improved by 16%;when there is-+ process,SP-k-means-+ algorithm is improved by 10%—47% in objective function optimization compared with Ik-means-+ algorithm,meanwhile two algorithm has close runtimes.

作者杨勇陈强曲福恒刘俊杰张磊 YANG Yong;CHEN Qiang;QU Fu-heng;LIU Jun-jie;ZHANG Lei(College of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022,China;College of Education,Changchun Normal University,Changchun 130032,China)

机构地区长春理工大学计算机科学技术学院长春师范大学教育学院

出处《吉林大学学报（工学版）》 EI CAS CSCD 北大核心 2021年第5期1808-1816,共9页 Journal of Jilin University:Engineering and Technology Edition

基金吉林省教育厅科研项目(JJKH20181164KJ) 国家自然科学基金项目(41671397) 吉林省教育科学“十三五”规划项目(GH19086).

关键词人工智能 I-k-means-+ 目标函数优化分裂与删除模拟划分合适的簇对 artificial intelligence I-k-means-+ objective function optimization divide and remove simulated partition suitable cluster pairs

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1069
2徐森,卢志茂,顾国昌.结合K均值和非负矩阵分解集成文本聚类算法[J].吉林大学学报（工学版）,2011,41(4):1077-1082. 被引量：12
3李宾,周旭,梅芳,潘帅宁.基于K-means和矩阵分解的位置推荐算法[J].吉林大学学报（工学版）,2019,49(5):1653-1660. 被引量：10
4谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：84
5孟子健,马江洪.一种可选初始聚类中心的改进k均值算法[J].统计与决策,2014,30(12):12-14. 被引量：18
6钟熙,孙祥娥.基于Kmeans++聚类的朴素贝叶斯集成方法研究[J].计算机科学,2019,46(B06):439-441. 被引量：26
7黄岚,李玉,王贵参,王岩.基于点距离和密度峰值聚类的社区发现方法[J].吉林大学学报（工学版）,2016,46(6):2042-2051. 被引量：17
8唐泽坤,朱泽宇,杨裔,李彩虹,李廉.基于距离和密度的d-K-means算法[J].计算机应用研究,2020,37(6):1719-1723. 被引量：12
9张国锋,吴国文.基于核函数的改进k-means文本聚类[J].计算机应用与软件,2019,36(9):281-284. 被引量：12

二级参考文献76

1李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
2赵明清,蒋昌俊,陶树平.基于等价相异度矩阵的聚类[J].计算机科学,2004,31(7):183-184. 被引量：11
3张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
4李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
5钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
6张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168. 被引量：123
7袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
8罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36
9蔡龙飞.运用硬c均值改进kmeans算法的聚类分析[J].科技咨询导报,2007(24):144-145. 被引量：4
10Tan P N, Steinbach M, Kumar V. Introduction to Data Mining[ M]. Boston : Addison Wesley Longman Publishing Co Inc,2005: 487-647. 被引量：1

共引文献1237

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献16

1张荣梅,陈彬,张琦.基于K-means的矩阵分解推荐算法[J].智能计算机与应用,2020,0(1):56-60. 被引量：5
2刘仲民,李战明,李博皓,胡文瑾.基于稀疏矩阵的谱聚类图像分割算法[J].吉林大学学报（工学版）,2017,47(4):1308-1313. 被引量：14
3邵伦,周新志,赵成萍,张旭.基于多维网格空间的改进K-means聚类算法[J].计算机应用,2018,38(10):2850-2855. 被引量：17
4全海金,何映思.基于大数据的改进模糊K-means算法[J].重庆理工大学学报（自然科学）,2018,32(12):145-148. 被引量：8
5胡珉,白雪,徐伟,吴秉键.多维时间序列异常检测算法综述[J].计算机应用,2020,40(6):1553-1564. 被引量：29
6万珊,苟文博.基于改进K-means聚类的数据自动采集系统设计[J].自动化与仪器仪表,2020(10):108-112. 被引量：4
7刘振宇,宋晓莹.一种可用于分类型属性数据的多变量决策树算法[J].东北大学学报（自然科学版）,2020,41(11):1521-1527. 被引量：16
8王继奎,杨正国,易纪海,刘学文,王会勇,聂飞平.稀疏约束的嵌入式模糊均值聚类算法[J].复旦学报（自然科学版）,2020,59(6):725-733. 被引量：3
9李佳玮,吴克河,张波.基于高斯混合聚类的电力工控系统异常检测研究[J].信息网络安全,2021(3):53-63. 被引量：9
10李乐,王斐.基于层次策略的半监督K-medoids算法研究[J].计算机应用研究,2021,38(5):1387-1392. 被引量：4

引证文献3

1杨俊成,李淑霞.基于改进K-means算法的研究与分析[J].计算机与数字工程,2023,51(7):1469-1473. 被引量：1
2张晨林,张素莉,陈冠宇,王福德,孙启涵.基于HTM-Attention的时序数据异常检测方法[J].吉林大学学报（信息科学版）,2024,42(3):457-464.
3曲福恒,潘曰涛,杨勇,胡雅婷,宋剑飞,魏成宇.基于加权空间划分的高效全局K-means聚类算法[J].吉林大学学报（工学版）,2024,54(5):1393-1400. 被引量：1

二级引证文献2

1李明峰,冯鑫,檀丁.基于K-means的多级迭代分区坐标转换方法研究[J].现代测绘,2024,47(1):1-3.
2吕莉,朱梅子,康平,韩龙哲.二阶K近邻和多簇合并的密度峰值聚类算法[J].吉林大学学报（工学版）,2024,54(5):1417-1425.

1徐琪,吴翠,陈啟.共享平台下供应链闲置资源动态优化配置策略[J].运筹与管理,2021,30(9):86-92. 被引量：5
2汪韧,惠俊鹏,俞启东,李天任,杨奔.基于LSTM模型的飞行器智能制导技术研究[J].力学学报,2021,53(7):2047-2057. 被引量：5

吉林大学学报（工学版）

2021年第5期

浏览历史

内容加载中请稍等...

基于模拟划分的SP-k-means-+算法被引量：3

参考文献9

二级参考文献76

共引文献1237

同被引文献16

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于模拟划分的SP-k-means-+算法 被引量：3

参考文献9

二级参考文献76

共引文献1237

同被引文献16

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于模拟划分的SP-k-means-+算法被引量：3