期刊文献+

Fuzzy c-means text clustering based on topic concept sub-space 被引量:3

基于主题概念空间的文本模糊c-均值聚类方法(英文)
下载PDF
导出
摘要 To improve the accuracy of text clustering, fuzzy c-means clustering based on topic concept sub-space (TCS2FCM) is introduced for classifying texts. Five evaluation functions are combined to extract key phrases. Concept phrases, as well as the descriptions of final clusters, are presented using WordNet origin from key phrases. Initial centers and membership matrix are the most important factors affecting clustering performance. Orthogonal concept topic sub-spaces are built with the topic concept phrases representing topics of the texts and the initialization of centers and the membership matrix depend on the concept vectors in sub-spaces. The results show that, different from random initialization of traditional fuzzy c-means clustering, the initialization related to text content contributions can improve clustering precision. 为了改善文本聚类的准确度,提出用基于主题概念子空间的模糊c-均值聚类(TCS2FCM)方法来分类文本.采用5个评估函数的加权值来提取关键短语;利用WordNet对相应的关键短语提取概念短语并生成最后的类别描述.初始中心和初始隶属度矩阵的建立是决定模糊c-均值聚类效果的关键,使用能够代表文本主题的概念短语来建立相互正交的主题概念子空间,利用主题子空间中的概念向量来初始化聚类中心和隶属度矩阵.实验结果表明:不同于传统模糊c-均值聚类的随机化初始,与文本内容相关的初始化有助于改进最后的聚类结果,提高聚类精度.
出处 《Journal of Southeast University(English Edition)》 EI CAS 2007年第3期439-442,共4页 东南大学学报(英文版)
基金 The National Natural Science Foundation of China(No60672056) Open Fund of MOE-MS Key Laboratory of Multime-dia Computing and Communication(No06120809)
关键词 TCS2FCM topic concept space fuzzy c-means clustering text clustering TCS2FCM 主题概念空间 模糊c-均值聚类 文本聚类
  • 相关文献

参考文献3

二级参考文献3

共引文献66

同被引文献16

引证文献3

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部