摘要
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释。标注文本集合聚类后生成的类簇被称为聚类描述问题。聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务。针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法。实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法。
Clustering description problem is one of the key issues of the traditional clustering algorithm in the applications of document clustering.The algorithm can cluster the objects,but it can not give concept description for the clustered results. Document clustering description is a problem of labeling the clustered results of document collection clustering.It can help users determine whether one of the clusters is relevant to users' information require.Therefore,labeling a clustered set of documents is an important and challenging work in document clustering applications.To resolve the problem of the weak readability of the traditional documents clustering results,a method of automatic labeling documents clusters based on machine learning is put forward.Experimental results show that the method based on SVM will provide users more concise and comprehensive documents clustering results.
出处
《情报学报》
CSSCI
北大核心
2009年第2期225-232,共8页
Journal of the China Society for Scientific and Technical Information
基金
“十一五”国家科技支撑计划重点项目(2006BAH03B02)
南京理工大学青年科研扶持基金项目(JGQN0701)
南京理工大学科研启动基金项目(AB41123)
2006年江苏省研究生培养创新工程项目资助。
关键词
聚类描述
文本聚类
支持向量机
机器学习
clustering description
document clustering
support vector machine
machine learning