基于相似中心的k-cmeans文本聚类算法被引量：12

k-cmeans text clustering algorithm based on similar centroid

下载PDF

导出

摘要针对k-means聚类算法只能保证收敛到局部最优,导致聚类结果对初始聚类中心敏感的问题,提出了一种基于相似中心的文本聚类算法。首先,度量文档之间的相似性,然后按照文档之间的相似性递减排序,选择序列最前面的k个文档作为初始聚类中心,对于每个剩余的文档(没有被选为初始簇中心的文档)根据其与存在的簇中心的相似性,将其分配到相似性最大的簇中,更新簇均值,连续迭代,直至均值不变,从而得到更加稳定的聚类结果。实验结果表明,提出的算法在宏平均聚类精度和宏平均召回率上有显著提高,产生了质量较好的聚类效果。 The k-means clustering algorithm can only guarantee convergence to a local optimum, which led to the results of clustering is sensitive for initial clustering center, an improved centroid-based text clustering algorithm is proposed. First, the similarity between documents is calculated, then centers at the first k documents of the sequence is selected, which is sorted by similarity descending, according to similarity between every document which is not selected as initial cluster center and existent cluster center, assigned the document to a cluster having the largest similarity, updating cluster mean and iterating continuously until no change. Finally, the more stable clustering result is gotten. The comparison of experimental results show that the proposed algorithm performs is better in the marco average clustering precision and marco average recall rate, gets better quality of clustering results.

作者许厚金刘永炎邓成玉刘永山

机构地区燕山大学信息科学与工程学院张家口教育学院数学系

出处《计算机工程与设计》 CSCD 北大核心 2010年第8期1802-1805,共4页 Computer Engineering and Design

基金工信部2007电子信息产业发展基金项目(工信部运[2007]97号)

关键词聚类 k-cmeans算法相似性度量宏平均聚类精度宏平均召回率 clustering k-cmeans algorithm similarity measurement marco average clustering precision marco average recall rate

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1K.haled M Hammouda,Mohamed S Kamel.Efficient phrase-based document indexing for web document clustering[J].IEEE Transactions on Knowledge and Data Engineering,2004,16(10):1279- 1296. 被引量：1
2Joshua Zhexue Huang, Michael K Ng, Hongqiang Rong, et al. Automated variable weighting in k-means type clustering [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(5):657-668. 被引量：1
3Shehroz S Khan,Amir Ahmad.A cluster center initialization algorithm for k-means clustering[J].Pattem Recognition Letters, 2004,25(11):1293-1302. 被引量：1
4Ramiz M Aliguliyev.Clustering of document collection- a weighting approach [J]. Expert Systems with Applications, 2009,36(4) :7904-7916. 被引量：1
5Tapas Kanungo,David M Mount,Nathan S Net-anyahu,et al.An efficient k-means clustering algorithm [J]. Analysis and Implementation,IEEE Transactions on Pattern Analysis and Machine InteUigence,2002,24(7):881-892. 被引量：1
6Ajith Abraham, Swagatam Das, Amit Konar. Document clustering using differential evolution[C].Vancouver, BC:IEEE Congress on Evolutionary Computation,2006:1784-1791. 被引量：1
7Richard Nock, Frank Nielsen.On weighting clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006,28(8): 1223-1235. 被引量：1
8李孝明,曹万华.文本信息检索的精确匹配模型[J].计算机科学,2004,31(9):100-102. 被引量：7
9Slonim N,Tishby N.Document clustering using word clusters via the information bottleneck method[C].Proceedings of the 21st ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2000:208-215. 被引量：1

二级参考文献6

1[5]Yang Yiming. An Evaluation of Statistical Approaches to Text Categorization. Journal of Information Retrieval,1999,11(2):11～14 被引量：1
2[7]Salton G,Buckley C.Term-weighing approaches in automatic text retrieval.Information Processing & Management,1988,24:513～523 被引量：1
3庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
4彭洪汇,林作铨.Internet上的搜索引擎和元搜索引擎[J].计算机科学,2002,29(9):1-12. 被引量：22
5孙晋文,肖建国.自动文本分类中的智能处理技术[J].计算机科学,2003,30(8):18-20. 被引量：6
6邢永康,马少平.信息检索的概率模型[J].计算机科学,2003,30(8):13-17. 被引量：14

共引文献6

1蒋作,李彤,杨柽.Web文档特征提取中知识树构造[J].云南大学学报（自然科学版）,2011,33(S2):168-172.
2李孝明,曹万华.舰载作战指挥系统软件构件库技术研究(续三):检索和管理[J].舰船电子工程,2005,25(3):34-38. 被引量：2
3唐培丽,胡明,解飞,刘钢.全文检索搜索引擎中文信息处理技术研究[J].情报科学,2006,24(6):895-899. 被引量：5
4苏晓珂,赵磊,黄青松.Deep Web中基于迭代的查询方式[J].云南民族大学学报（自然科学版）,2007,16(1):66-68. 被引量：1
5陈丹,郭伟青.搜索引擎技术分析与研究[J].计算机系统应用,2008,17(3):23-26. 被引量：7
6蒋作,杨帆.Web文档知识树设计及实现[J].云南民族大学学报（自然科学版）,2012,21(2):145-149.

同被引文献111

1徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
2蒋盛益,李庆华,李新.数据流挖掘算法研究综述[J].计算机工程与设计,2005,26(5):1130-1132. 被引量：21
3陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
4石陆魁,何丕廉.一种基于密度的高效聚类算法[J].计算机应用,2005,25(8):1824-1826. 被引量：21
5耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
6刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
7杨占华,杨燕.SOM神经网络算法的研究与进展[J].计算机工程,2006,32(16):201-202. 被引量：78
8李林青,郝玉.基于改进CPN的指纹识别算法[J].计算机仿真,2006,23(11):198-201. 被引量：5
9赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23
10张林东.一颗长势良好的“豆瓣”[J].上海信息化,2007(5):76-79. 被引量：7

引证文献12

1金春霞,周海岩.位置加权文本聚类算法[J].计算机工程与科学,2011,33(6):154-158. 被引量：6
2罗锦光,元昌安,郭乙江,邹鹏.基于GEP和CPN网络的文本聚类算法[J].计算机工程与设计,2011,32(11):3873-3876.
3白秋产,金春霞.概念属性扩展的短文本聚类算法[J].长春师范学院学报（自然科学版）,2011,30(5):29-33. 被引量：4
4白秋产,金春霞,周海岩.概念向量文本聚类算法[J].计算机工程与应用,2011,47(35):155-157. 被引量：11
5刘勘,周丽红,陈譞.基于关键词的科技文献聚类研究[J].图书情报工作,2012,56(4):6-11. 被引量：18
6施侃晟,刘海涛,宋文涛.基于词性和中心点改进的文本聚类方法[J].模式识别与人工智能,2012,25(6):996-1001. 被引量：6
7白秋产,金春霞,章慧,周海岩.词共现文本主题聚类算法[J].计算机工程与科学,2013,35(7):164-168. 被引量：13
8张良,朱湘,李爱平,王志华,鲁鹏.一种基于逻辑回归算法的水军识别方法[J].信息安全与技术,2015,6(4):57-62. 被引量：10
9钟映春,谭志,孙伟,连伟烯.视觉字典合理容量的自动获取研究[J].计算机工程与设计,2014,35(9):3279-3283.
10熊回香,杨雪萍.社会化标注系统中的个性化信息推荐研究[J].情报学报,2016,35(5):549-560. 被引量：18

二级引证文献95

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
3孙雨生,徐鑫.国内基于社会化标签的信息推荐研究进展:架构与应用[J].计算机与数字工程,2023,51(1):42-50.
4叶飞.基于文本语义联系的特征选取算法研究[J].赤峰学院学报（自然科学版）,2012,28(12):35-37.
5郑宗良.基于改进DBSCAN算法的应急预案编制[J].计算机工程与科学,2012,34(9):149-153. 被引量：1
6马甲林,刘金岭,于长辉.一种高效中文文本聚类算法[J].计算机工程与科学,2013,35(2):103-108. 被引量：1
7张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013(2):30-35. 被引量：6
8龚光明,王薇,蒋艳辉,周双文.基于领域本体的文本资料聚类算法改进研究[J].情报科学,2013,31(6):129-134. 被引量：3
9马甲林,刘金岭,金春霞.基于概念簇的文本分类算法[J].图书情报工作,2013,57(15):132-136. 被引量：2
10赵辉,刘怀亮.面向用户生成内容的短文本聚类算法研究[J].现代图书情报技术,2013(9):88-92. 被引量：6

1一江春水.Excel 2013效率提高的小技巧[J].电脑迷,2013(5):70-70.
2李万军,杨立波.可编程控制器中“承前启后”法在编程中的应用[J].太原大学学报,2006,7(3):89-91. 被引量：1
3秦萍.PLC在自动分拣系统中的应用[J].价值工程,2015,34(36):145-147. 被引量：3
4王中华.如何在Excel表格中制作下拉菜单[J].农村电工,2011(9):33-33. 被引量：1
5李扬,梁华国,蒋翠云,常郝,易茂祥,方祥圣,杨彬.选择序列的并行折叠计数器[J].计算机应用,2014,34(1):36-40.
6谢富珍.S7-200PLC移位指令实现顺序控制的编程方法[J].电子制作,2013,21(21):64-64. 被引量：2
7张晓亮.浅析PLC顺序控制梯形图的编程方法[J].科学之友（下）,2013(6):39-39.
8杰子.巧妙快输学籍号[J].电脑应用文萃,2004(1):62-62.
9冯剑红,胡卉芪,翁学平,冯建华.众包环境下多谓词查询优化[J].计算机工程与应用,2016,52(2):7-13.
10郭小芳,李锋,宋晓宁,刘庆华.基于加权Euclid范数的MTS异常检测[J].计算机科学,2014,41(5):263-265. 被引量：3

计算机工程与设计

2010年第8期

浏览历史

内容加载中请稍等...

基于相似中心的k-cmeans文本聚类算法被引量：12

参考文献9

二级参考文献6

共引文献6

同被引文献111

引证文献12

二级引证文献95

相关作者

相关机构

相关主题

浏览历史

基于相似中心的k-cmeans文本聚类算法 被引量：12

参考文献9

二级参考文献6

共引文献6

同被引文献111

引证文献12

二级引证文献95

相关作者

相关机构

相关主题

浏览历史

基于相似中心的k-cmeans文本聚类算法被引量：12