Fuzzy c-means text clustering based on topic concept sub-space 被引量：3

基于主题概念空间的文本模糊c-均值聚类方法(英文)

下载PDF

导出

摘要 To improve the accuracy of text clustering, fuzzy c-means clustering based on topic concept sub-space （TCS2FCM） is introduced for classifying texts. Five evaluation functions are combined to extract key phrases. Concept phrases, as well as the descriptions of final clusters, are presented using WordNet origin from key phrases. Initial centers and membership matrix are the most important factors affecting clustering performance. Orthogonal concept topic sub-spaces are built with the topic concept phrases representing topics of the texts and the initialization of centers and the membership matrix depend on the concept vectors in sub-spaces. The results show that, different from random initialization of traditional fuzzy c-means clustering, the initialization related to text content contributions can improve clustering precision. 为了改善文本聚类的准确度,提出用基于主题概念子空间的模糊c-均值聚类(TCS2FCM)方法来分类文本.采用5个评估函数的加权值来提取关键短语;利用WordNet对相应的关键短语提取概念短语并生成最后的类别描述.初始中心和初始隶属度矩阵的建立是决定模糊c-均值聚类效果的关键,使用能够代表文本主题的概念短语来建立相互正交的主题概念子空间,利用主题子空间中的概念向量来初始化聚类中心和隶属度矩阵.实验结果表明:不同于传统模糊c-均值聚类的随机化初始,与文本内容相关的初始化有助于改进最后的聚类结果,提高聚类精度.

作者吉翔华陈超邵正荣俞能海

机构地区中国科学技术大学多媒体计算与通信教育部-微软重点实验中国科学技术大学图书馆

出处《Journal of Southeast University(English Edition)》 EI CAS 2007年第3期439-442,共4页 东南大学学报（英文版）

基金 The National Natural Science Foundation of China(No60672056) Open Fund of MOE-MS Key Laboratory of Multime-dia Computing and Communication(No06120809)

关键词 TCS2FCM topic concept space fuzzy c-means clustering text clustering TCS2FCM 主题概念空间模糊c-均值聚类文本聚类

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1范九伦,吴成茂.FCM算法中隶属度的新解释及其应用[J].电子学报,2004,32(2):350-352. 被引量：35
2柴省三.内容词-共引聚类分析及其在科学结构研究中的应用[J].情报学报,1997,16(1):69-74. 被引量：24
3薛忠,谢维信.模糊C均值聚类算法的一种初始化方法[J].系统工程与电子技术,1995,17(11):64-69. 被引量：12

二级参考文献3

1刘宜平,沈毅,刘志言.一种FCM聚类算法的改进与优化[J].系统工程与电子技术,2000,22(4):1-3. 被引量：17
2高新波,裴继红,谢维信.模糊c-均值聚类算法中加权指数m的研究[J].电子学报,2000,28(4):80-83. 被引量：157
3范九伦,吴成茂.用于聚类有效性判定的包含度公式[J].模糊系统与数学,2002,16(1):80-86. 被引量：15

共引文献66

1肖微炜,钱瑜,赵胜豪,王亚伟.基于模糊聚类的生态功能区若干指标定量划分的研究[J].四川环境,2008,27(3):57-60. 被引量：1
2张元武,王丽珍,孔云.一种基于几何中心的模糊c均值聚类方法[J].云南大学学报（自然科学版）,2009,31(S1):189-193.
3林春燕,朱东华.一种快速的文本聚类-分类法[J].计算机工程与科学,2004,26(7):74-76. 被引量：3
4林春燕,朱东华.科学文献的模糊聚类算法[J].计算机应用,2004,24(11):66-67. 被引量：9
5刘笛,朱学峰,苏彩红.一种新型的模糊C均值聚类初始化方法[J].计算机仿真,2004,21(11):148-151. 被引量：19
6熊忠阳,孙思,张玉芳,王秀琼.一种基于划分的不同参数值的DBSCAN算法[J].计算机工程与设计,2005,26(9):2319-2321. 被引量：16
7马瑞敏,邱均平.基于CSSCI的论文同被引实证计量研究——以图书馆学、情报学为例[J].图书情报知识,2005,22(5):77-79. 被引量：28
8胡炜薇,杨莘元.多传感器跟踪的航迹关联[J].应用科技,2005,32(12):10-12. 被引量：4
9张伟,周霆,陈芸,邹汉斌.动态的模糊K-Modes初始化算法[J].计算机工程与设计,2006,27(4):682-683. 被引量：1
10清华同方RFID远距离车辆进出管理系统[J].金卡工程,2006,10(4):40-41.

同被引文献16

1余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报（自然科学版）,2004,43(5):118-120. 被引量：24
2李旭升,郭耀煌.一种新颖混合贝叶斯分类模型研究[J].计算机科学,2006,33(9):135-139. 被引量：5
3王清,马华,孙静,韩忠东.改进的KNN算法及其在医学图像处理中的应用[J].泰山医学院学报,2006,27(6):564-566. 被引量：5
4UCI机器学习数据库[EB/OL].(2007-11-19)[2008-04-15]ftp://ftp, ics. uci. edu/pub/machine-learning-databases. 被引量：3
5张英力,聂生东.模糊聚类分析在脑功能磁共振图像处理中的应用[J].国际生物医学工程杂志,2007,30(3). 被引量：1
6Xu L,Krzyzak A,Suen C Y.Several Methods for Combining Multiple Classifiers and Their Applications in Handwritten Character Recognition[J].IEEE Trans on System,Man and Cybernetics,1992,22(3):418-435. 被引量：1
7孙士保,秦克云.改进的k-平均聚类算法研究[J].计算机工程,2007,33(13):200-201. 被引量：50
8夏士雄,李文超,周勇,张磊,牛强.Improved k-means clustering algorithm[J].Journal of Southeast University(English Edition),2007,23(3):435-438. 被引量：16
9朱贵良,赵凯,赵锋.基于组合优化方法的K-means聚类算法实现[J].华北水利水电学院学报,2007,28(5):43-45. 被引量：2
10刘艳丽,刘希云.一种基于密度的K-均值算法[J].计算机工程与应用,2007,43(32):153-155. 被引量：15

引证文献3

1陈弋兰,王鸣,孙书诚.朴素贝叶斯分类器的误差估计[J].安徽工程科技学院学报（自然科学版）,2008,23(4):48-51. 被引量：4
2陈弋兰.基于模糊聚类的混合朴素贝叶斯分类模型[J].安徽建筑工业学院学报（自然科学版）,2009,17(3):88-91.
3王臣,叶春涛.基于K-Means及K-NN的磁共振颅脑图像分割初探[J].上海医学影像,2011,20(1):9-11.

二级引证文献4

1陈弋兰.基于模糊聚类的混合朴素贝叶斯分类模型[J].安徽建筑工业学院学报（自然科学版）,2009,17(3):88-91.
2李永慈,余欣宁,王三强.朴素贝叶斯判别的判别效用分析[J].生物数学学报,2010,25(2):273-279.
3王国才,张聪.一种基于粗糙集的特征加权朴素贝叶斯分类器[J].重庆理工大学学报（自然科学）,2010,24(7):86-90. 被引量：7
4张梦婷,李星野.基于最小分类误差的阈值优化方法设计[J].软件导刊,2018,17(8):81-84.

1张建(译).概念空间，2004年室内设计展会，多伦多[J].建筑细部,2005(T03):2-3.
2郝艳友,迟忠先,闫德勤,张永.一种结合Vague集的模糊支持向量机研究[J].小型微型计算机系统,2009,30(5):928-932.
3张传升,萧蕴诗,赵勇.用模糊C-均值聚类方法挖掘Web日志潜在客户的应用研究[J].微型机与应用,2005,24(1):57-60.
4郭新辰,郗仙田,樊秀玲,韩啸.基于半监督的模糊C-均值聚类算法[J].吉林大学学报（理学版）,2015,53(4):705-709. 被引量：6
5李霞,卢宗庆,谢维信.基于退火的状态转移式模糊C-均值聚类算法[J].系统工程与电子技术,2002,24(1):86-88.
6马甲林,刘金岭,金春霞.基于概念簇的文本分类算法[J].图书情报工作,2013,57(15):132-136. 被引量：2
7哈斯巴干,马建文,李启青,刘志丽,韩秀珍.模糊c-均值算法改进及其对卫星遥感数据聚类的对比[J].计算机工程,2004,30(11):14-15. 被引量：12
8叶海军.基于统计特征加权的模糊聚类方法及其应用[J].现代电子技术,2009,32(12):99-102. 被引量：2
9吉翔华,陈超,邵正荣,俞能海.基于主题子空间的文本模糊C均值聚类方法[J].小型微型计算机系统,2007,28(12):2225-2228. 被引量：2
10吴涛,毕笃彦.一种基于改进遗传算法的自适应区域生长法研究[J].微电子学与计算机,2008,25(4):90-92. 被引量：7

Journal of Southeast University(English Edition)

2007年第3期

浏览历史

内容加载中请稍等...