最大距离法选取初始簇中心的K-means文本聚类算法的研究被引量：108

K-means text clustering algorithm based on initial cluster centers selection according to maximum distance

下载PDF

导出

摘要由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。 Due to the random selection of initial cluster centers, K-means clustering algorithm is prone to local optimal and in- stability of clustering results, and huge number of iterations. To overcome the above problems, this paper selected the initial cluster centers according to maximum distance, and it was based on the fact that the farthest samples were the least likely in the same cluster. To apply the improved algorithm into text clustering, it constructed a method to transform text similarity into text distance, and also reconstructed cluster center iteration formula and measurement function. It employed a text set which included 5 categories and 1 500 texts in the experiment. The experimental resuhs show that, compared with the original K- means algorithm and its two recently improved editions, the proposed method can improve the F-measure and reduce total con- suming time.

作者翟东海鱼江高飞于磊丁锋

机构地区西南交通大学信息科学与技术学院西藏大学工学院

出处《计算机应用研究》 CSCD 北大核心 2014年第3期713-715,719,共4页 Application Research of Computers

基金国家语委"十二五"科研规划项目(YB125-49) 国家教育部科学技术研究重点项目(212167) 中央高校基本科研业务费专项资金科技创新项目(SWJTU12CX096) 西藏自治区大学生创新性实验训练计划项目(2011CX051)

关键词 K-MEANS聚类算法最大距离文本聚类文本距离测度函数 F度量值 K-means clustering algorithm maximum distance text clustering text distance measurement function F-measure

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
2周爱武,崔丹丹,潘勇.一种优化初始聚类中心的K-means聚类算法[J].微型机与应用,2011,30(13):1-3. 被引量：15
3雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：113
4熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：86
5行小帅,潘进,焦李成.基于免疫规划的K-means聚类算法[J].计算机学报,2003,26(5):605-610. 被引量：81
6龚静,李安民.一种改进的k-means中文文本聚类算法[J].湖南工业大学学报,2008,22(2):52-54. 被引量：13
7张健沛,杨悦,杨静,张泽宝.基于最优划分的K-Means初始聚类中心选取算法[J].系统仿真学报,2009,21(9):2586-2590. 被引量：61
8张世博.基于优化初始中心点的K-means文本聚类算法[J].计算机与数字工程,2011,39(10):30-31. 被引量：8
9张雪凤,张桂珍,刘鹏.基于聚类准则函数的改进K-means算法[J].计算机工程与应用,2011,47(11):123-127. 被引量：41
10徐建民,王金花,马伟瑜.利用本体关联度改进的TF-IDF特征词提取方法[J].情报科学,2011,29(2):279-283. 被引量：29

二级参考文献118

1朱红灿,孟志青.一种基于SOM和层次凝聚的中文文本聚类方法[J].湘潭大学自然科学学报,2005,27(3):36-40. 被引量：8
2张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
3邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
4赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
5徐德智,郑春卉,K. Passi.基于SUMO的概念语义相似度研究[J].计算机应用,2006,26(1):180-183. 被引量：56
6王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
7张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
8FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：30
9牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：15
10李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9

共引文献650

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：14
2吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
3杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
4甄沐华,陈鹏,王坤,范子杨,王者.基于关键词挖掘的热线文本数据犯罪线索筛查方法研究[J].知识管理论坛,2022(5):539-548. 被引量：1
5夏松,林荣蓉,刘勘.网络谣言敏感词库的构建研究——以新浪微博谣言为例[J].知识管理论坛,2019(5):267-275. 被引量：6
6赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
7孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
8王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
9张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
10秦亮,张文广,周绍磊,史贤俊.基于Parzen窗估计的核k-means聚类方法[J].计算机工程,2011,37(S1):217-219. 被引量：1

同被引文献790

1孔刘玲,刘秀文.基于改进YOLOv4算法的船舶目标检测方法[J].船舶工程,2022,44(1):96-103. 被引量：10
2孔晓风,李莹,李昊旻,吕旭东.基于自然语言处理技术的消化科内窥镜检查报告的结构化[J].中国医疗器械杂志,2008,32(5):348-351. 被引量：6
3吴必虎,金华荏,张丽.旅游解说系统的规划和管理[J].旅游学刊,1999,14(1):44-46. 被引量：242
4蒋盛益,徐雨明,陈溪辉.异常挖掘研究综述[J].衡阳师范学院学报,2004,25(3):63-66. 被引量：2
5张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
6江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
7周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
8蔡诚,王敏.结合分层阈值和形态学滤波的小目标检测方法[J].华中科技大学学报（自然科学版）,2013,41(S1):157-159. 被引量：4
9陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
10季虎,孙即祥,邵晓芳,毛玲.图像边缘提取方法及展望[J].计算机工程与应用,2004,40(14):70-73. 被引量：85

引证文献108

1段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
2段桂芹.基于均值与最大距离乘积的初始聚类中心优化K-means算法[J].计算机与数字工程,2015,43(3):379-382. 被引量：17
3安计勇,高贵阁,史志强,孙磊.一种改进的K均值文本聚类算法[J].传感器与微系统,2015,34(5):130-133. 被引量：19
4陈庄,罗告成.一种改进的K-means算法在异常检测中的应用[J].重庆理工大学学报（自然科学）,2015,29(5):66-70. 被引量：11
5安计勇,韩海英,侯效礼.一种改进的DBscan聚类算法[J].微电子学与计算机,2015,32(7):68-71. 被引量：13
6安计勇,闫子骥,翟靖轩.基于距离阈值及样本加权的K-means聚类算法[J].微电子学与计算机,2015,32(8):135-138. 被引量：8
7毛秀,冒纯丽,丁岳伟.基于密度和聚类指数改进的K-means算法[J].电子科技,2015,28(11):47-50. 被引量：10
8万静,张义,何云斌,李松.基于KD-树和K-means动态聚类方法研究[J].计算机应用研究,2015,32(12):3590-3595. 被引量：16
9高亮,谢健,曹天泽.基于Kd树改进的高效K-means聚类算法[J].计算技术与自动化,2015,34(4):69-74. 被引量：7
10王恬,李书琴,王志伟.农业信息搜索可视化平台研究[J].计算机应用与软件,2016,33(3):271-274. 被引量：6

二级引证文献686

1周晓,朱晗雨.基于Hadoop的高压输电线路合闸故障诊断方法[J].数字制造科学,2022(2):104-110. 被引量：1
2卢功靖,卢林艳,李媛媛,王成军.基于议题类型的临近预测:使用社交媒体预测新冠肺炎疫情确诊人数[J].中国网络传播研究,2021(4):93-117. 被引量：1
3李奕霖,周艳平.基于孪生网络和字词向量结合的文本相似度匹配[J].计算机系统应用,2022,31(10):295-302. 被引量：2
4孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
5毕达宇,张苗苗,曹安冉.基于情感依恋的用户高质量在线评论信息生成模式[J].情报科学,2020,0(2):47-51. 被引量：5
6段桂芹,邹臣嵩.基于K-medoids算法的学生成绩聚类研究[J].微型电脑应用,2020,0(2):64-66. 被引量：1
7张明宇,齐瑞锋,王强,刘峰.喷杆机械臂障碍物检测系统设计与性能测试[J].中国农业信息,2021,33(2):49-56. 被引量：2
8黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
9王洋.混合聚类算法的电子商务网站安全分析模型[J].科技通报,2021,37(5):26-30. 被引量：2
10吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9

1李卫军.K-means聚类算法的研究综述[J].现代计算机（中旬刊）,2014(8):31-32. 被引量：10
2熊祖涛.基于稀疏特征的中文微博短文本聚类方法研究[J].软件导刊,2014,13(1):133-135. 被引量：4
3孙海军.基于MapReduce和网格密度的文本聚类分析研究[J].信息系统工程,2014,27(10):25-26. 被引量：1
4庄世芳.一种基于概念聚类的中文文本类簇主题提取方法[J].电脑知识与技术,2008(4):138-140. 被引量：1
5苏秀芝.基于标题与文本距离的网页去噪算法的研究[J].中小企业管理与科技,2014(24):229-230.
6石之依,牛贝贝.基于坐标的最大距离法的AMEE的端元提取算法[J].黑龙江科技信息,2017(6):64-65.
7陈笑蓉,刘作国.文本聚类的重构策略研究[J].中文信息学报,2016,30(2):189-195. 被引量：5
8郝先臣,张德干,朱红艳,赵海.模糊聚类挖掘方法在电子商务中的应用研究[J].计算机工程,2002,28(1):33-35. 被引量：2
9修宇,王士同,朱林,宗成庆.极大熵球面K均值文本聚类分析[J].计算机科学与探索,2007,1(3):331-339. 被引量：1
10刘益世,杨敏华,李海巍.利用端元坐标的高光谱影像端元提取方法[J].测绘地理信息,2013,38(4):42-44. 被引量：3

计算机应用研究

2014年第3期

浏览历史

内容加载中请稍等...

最大距离法选取初始簇中心的K-means文本聚类算法的研究被引量：108

参考文献12

二级参考文献118

共引文献650

同被引文献790

引证文献108

二级引证文献686

相关作者

相关机构

相关主题

浏览历史

最大距离法选取初始簇中心的K-means文本聚类算法的研究 被引量：108

参考文献12

二级参考文献118

共引文献650

同被引文献790

引证文献108

二级引证文献686

相关作者

相关机构

相关主题

浏览历史

最大距离法选取初始簇中心的K-means文本聚类算法的研究被引量：108