基于自适应簇中心选择的文本聚类算法研究被引量：1

An Adaptive Cluster Center Selection Algorithm

下载PDF

导出

摘要为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法。首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数。实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善。 To solve problems of manual K value determination and initial cluster center random selection in original K- means is prone to local optimal, an adaptive cluster center selection algorithm is proposed in this paper. Firstly, select a document and the another one is of the farthest from it as the two initial centers to cluster. The two clusters are used to recalculate their new cluster centers. Secondly, those documents whose distances from the two new cluster centers are above the threshold are selected to determine whether new cluster center is needed. Finally, the above- mentioned procedure iterates to determine the all cluster centers and their number K. The experimental results show that compared with the improved K-means algorithm the proposed method can achieve high clustering quality and satisfactory convergence speed.

作者翟东海聂洪玉崔静静杜佳

机构地区西南交通大学信息科学与技术学院西藏大学工学院

出处《成都信息工程学院学报》 2013年第6期617-622,共6页 Journal of Chengdu University of Information Technology

基金国家语委"十二五"科研规划资助项目(YB125-49) 教育部科学技术研究重点资助项目(212167) 中央高校基本科研业务费专项资金科技创新资助项目(SWJTU12CX096) 国家级大学生创新创业训练计划资助项目(201210694017)

关键词海量数据挖掘初始簇中心文档距离 K-MEANS算法 data mining initial cluster center document distances K-means algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Forgy E. Cluster analysis of multivariate data:Efficiency vs.interpret ability of classifications[J].{H}BIOMETRICS,1965,(03):768. 被引量：1
2Maequeen. Some methods for classifieation and analysis of multivariate observations[A].1967.281-297. 被引量：1
3Anil K J. Data clustering:50 years beyond K-Means[J].{H}Pattern Recognition Letters,2010,(08):651-666. 被引量：1
4Ahm ady fard A lireza. M odares Ham idreza[A].Tehran:IEEE Press,2008. 被引量：1
5Hai-xiang Guo,Ke-jun Zhu,Si-wei Gao. An improved genetic K-means algoithm for optimal clustering[A].Leipzig:IEEE Press,2006. 被引量：1
6P.S.Bradley. Refining initial Points for K-Means clustering[A].1998.91-99. 被引量：1
7Nittel S,Kelvin T L,Braverman A. Scaling clustering algorithms for massive data sets using data streams[A].2004.830. 被引量：1
8Kaufman L,Rousseeuw P J. Finding Groups in Data:An Introduction to C luster Analysis[M].New York:John W rley & Sons,1990.23-42. 被引量：1
9陈新泉.K中心点轮换法及确定合适聚类数目的一种新方法[J]{H}中国科技论文在线,2006. 被引量：1
10Banerjee A,Ghosh J. On scaling up balanced clustering algorithms[A].Arlington,VA,2002.333-349. 被引量：1

二级参考文献58

1朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：71
4张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
6Han J,Karnber M.Data mining: Concepts and techniques[M].San Diego:Morgan Kaufmann Publishers,2001:223. 被引量：1
7Jain A K, Murty M N, Flynn P J.Data clustering: A review[J]. ACM Computing Surveys, 1999,31 (3) : 264-323. 被引量：1
8Soman K P,Diwakar S,Ajay V.Insight into data mining: Theory and Practice[M].India: Prentice Hall, 2006: 234. 被引量：1
9Berkhin P.Survey of clustering data mining techniques[EB/OL]. (2002) .http://citeseerx.ist.psu.edu/ viewdoc/summary. 被引量：1
10Davidson I,Satyanarayana A.Speeding up K-means clustering using bootstrap averaging[C]//Proc IEEE ICDM 2003 Workshop on Clustering Large Data Sets,Melbourne,FL,Nov, 2003 : 16-25. 被引量：1

共引文献271

1吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
2高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
3王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
4周慧芳.自适应的k-means聚类算法SA-K-means[J].科技创新导报,2009,6(34):4-5. 被引量：3
5罗晖霞,曲晓玲.基于网络舆情的K-Means算法的改进研究[J].电脑开发与应用,2010,23(8):4-6. 被引量：3
6彭柳青,张军英,许进.基于k-Means均匀效应的健壮聚类初始算法[J].华中科技大学学报（自然科学版）,2010,38(8):73-76. 被引量：2
7李东艳,李绍滋,柯逍.基于外部数据库的图像自动标注改善模型[J].计算机应用,2010,30(10):2610-2613. 被引量：1
8刘琳,于海斌.异构无线传感器网络中簇首的优化部署策略[J].通信学报,2010,31(10):229-237. 被引量：7
9李晓燕,陈刚,寿黎但,董金祥.一种面向协作标签系统的图片检索聚类方法[J].中国图象图形学报,2010,15(11):1635-1643. 被引量：3
10雷小锋,何涛,李奎儒,谢昆青,丁世飞.面向结构稳定性的分裂-合并聚类算法[J].计算机科学,2010,37(11):217-222. 被引量：4

同被引文献10

1李云松,李明.基于灰度空间特征的模糊C均值聚类图像分割[J].计算机工程与设计,2007,28(6):1358-1360. 被引量：27
2吴兴华,周晖.基于减法聚类及自适应模糊神经网络的短期电价预测[J].电网技术,2007,31(19):69-73. 被引量：20
3过文亮,施惠昌,周一飞.一种新型的自适应最佳簇首分簇算法[J].微计算机信息,2009,25(6):183-184. 被引量：5
4朱红霞,王黎明.改进的自适应模糊C均值聚类图像分割算法[J].微电子学与计算机,2010,27(12):87-89. 被引量：5
5吴炜,骆剑承,沈占锋,朱志文.光谱和形状特征相结合的高分辨率遥感图像的建筑物提取方法[J].武汉大学学报（信息科学版）,2012,37(7):800-805. 被引量：51
6卜松涛,岳凡琦,依兰.基于倾斜影像的三维建筑物纹理提取方法研究[J].测绘与空间地理信息,2014,37(10):206-208. 被引量：6
7金凯成,王翊,郑申海,欧阳自鹏.基于三维感兴趣区域和模糊聚类的肝脏肿瘤分割[J].计算机与现代化,2015(8):8-12. 被引量：1
8朱园媛,朱庆,张叶廷,彭明军,高山.侧视地图中建筑物轮廓线提取的三维城市模型法[J].测绘学报,2015,44(9):1036-1041. 被引量：9
9谢红,赵洪野,解武.基于局部权重k-近质心近邻算法[J].应用科技,2015,42(5):10-13. 被引量：2
10李孟歆,郑岱.一种基于簇的多视角立体改进算法[J].应用科技,2016,43(2):44-49. 被引量：2

引证文献1

1王洪峰,李铁军,赵龙.倾斜摄影实景三维单体化模型自适应聚类算法[J].应用科技,2017,44(2):35-39. 被引量：6

二级引证文献6

1杨盛波.倾斜实景建模在建筑物单体化应用及效果评价[J].江西测绘,2024(2):23-25.
2陈良超,詹勇,王俊勇.一种倾斜摄影实景三维模型单体化方法[J].测绘通报,2018(6):68-72. 被引量：29
3雷江涛,刘清,潘婵玲,罗义谈,陈瑞波.矢量切割倾斜摄影三维模型的单体化技术研究[J].测绘科学,2021,46(7):84-91. 被引量：11
4刘志刚,胡忠文,黄乐平,董轩妍,徐月,罗新.面向对象的实景三维模型分层解译方法研究[J].地理信息世界,2022,29(1):28-34. 被引量：2
5江苏省首个城市生命线数据标准通过院士评审[J].城市勘测,2022(6):133-133.
6冯锋.倾斜摄影实景三维模型在大比例尺地形图中的应用[J].城市勘测,2022(6):134-138. 被引量：5

1张汗灵,郝重阳.基于特征的自动图像配准算法[J].电视技术,2003,27(9):80-83. 被引量：6
2张瑞.依据企业工作过程确定《网络操作系统》课程内容[J].黑龙江科技信息,2011(18):209-209. 被引量：1
3杨永涛,李静.一种改进的K-means数字资源聚类算法[J].计算机技术与发展,2014,24(6):107-109. 被引量：1
4张永,薛芝茂.RBF神经网络在人脸识别中的应用[J].电脑编程技巧与维护,2009(14):95-96. 被引量：1
5胡明晓,DING Leon X.一种用于抄袭识别的文档距离度量[J].计算机工程与应用,2010,46(7):148-152. 被引量：5
6穆瑞辉.基于粒子群优化的目标分类算法[J].新乡学院学报,2013,30(4):277-279. 被引量：1
7陈婉.云计算环境下虚拟化数据中心融合技术[J].软件导刊,2016,15(4):166-168. 被引量：3
8曾黄麟,袁慧,刘小芳.模糊中心聚类的模式识别学习方法[J].中国工程科学,2004,6(11):33-37. 被引量：1
9闫钧华,朱智超,孙思佳,杭谊青.基于多尺度红外与可见光图像配准研究[J].激光与红外,2013,43(3):329-333. 被引量：7
10何得平,朱光喜,赵广州.基于角特征和Mean-shift的车辆跟踪方法[J].计算机工程,2010,36(6):196-197. 被引量：6

成都信息工程学院学报

2013年第6期

浏览历史

内容加载中请稍等...

基于自适应簇中心选择的文本聚类算法研究被引量：1

参考文献15

二级参考文献58

共引文献271

同被引文献10

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于自适应簇中心选择的文本聚类算法研究 被引量：1

参考文献15

二级参考文献58

共引文献271

同被引文献10

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于自适应簇中心选择的文本聚类算法研究被引量：1