一种基于聚类密度的文本分类算法研究

A Text Classification Algorithm Based on the Density Clustering

导出

摘要在现代信息技术领域,如何快速、准确和全面地找到用户真正所需要的信息,已经成为该领域的研究重点。在文本分类的理论基础之上,文章针对KNN算法存在的不足,设计了一种基于聚类密度的文本分类算法,通过计算待分类文本的相似度及其权重值的大小判断待分类文本的所属类别。并通过3个实验对该分类算法进行了验证,实验结果表明,基于聚类密度的分类算法在不同特征选择方法、不同特征词数下的分类效果都优于KNN分类算法,同时证明在多种相似度算法中,Jensen-Shannon散度更适合聚类密度算法。 In the field of modern information technology, the method that can find accurate information quickly has already been the key research field. Based on text categorization theory, the paper puts forward a text categorization algorithm based on density clustering because of the shortcomings of the KNN algorithm. The algorithm text classification of the category is judged by computing the text similarity and the size of the weight value. And the algorithm is validated through three experiments. Experimental results show that the algorithm based on density clustering in different feature selection methods and the classification effect of differentcharacteristic words is better than KNN classification algorithm, and also proving in a variety of similarity algorithm, Jensen-Shannon divergence is more suitable for density clustering algorithm.

作者谭学清张磊周通罗琳

机构地区武汉大学信息管理学院

出处《图书馆学研究》 CSSCI 2016年第13期74-83,共10页 Research on Library Science

基金国家社会科学基金项目"数字图书馆标签系统的语义挖掘研究"(项目批准号:12CTQ003)的研究成果之一

关键词文本分类向量空间模型 K最近邻算法聚类密度 text categorization Vector Space Model （VSM） KNN cluster density

分类号 G254.1 [文化科学—图书馆学]

引文网络
相关文献

参考文献24

1刘海峰,王元元,张学仁,姚泽清.文本分类中基于位置和类别信息的一种特征降维方法[J].计算机应用研究,2008,25(8):2292-2294. 被引量：9
2Yiming Yiming, Liu Xin. A Re-examination of Text Categorization Methods [ C]. Proceedings of the 22nd Annual International ACM SlGIR Conference ON Research and Development in the Information Retrieval. Berkeley, USA, 1999= 42-49. 被引量：1
3Sebastiani F. Machine Learning in Automated Text Categorization [ J ]. ACM Computing Surveys. 2002 ( ! ) : 1 -47. 被引量：1
4张孝飞,黄河燕.一种采用聚类技术改进的KNN文本分类方法[J].模式识别与人工智能,2009,22(6):936-940. 被引量：33
5李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
6胡燕,吴虎子,钟珞.基于改进的kNN算法的中文网页自动分类方法研究[J].武汉大学学报（工学版）,2007,40(4):141-144. 被引量：20
7张晓辉,李莹,王华勇,赵宏.应用特征聚合进行中文文本分类的改进KNN算法[J].东北大学学报（自然科学版）,2003,24(3):229-232. 被引量：60
8T. Bailey, A. KJain, A Note on Distance Weighted K-Nearest Neighbor Rules [J]. IEEE Transactions on Systems, Man, and Cybematics, 1978 (8): 311-313. 被引量：1
9G. Guo, H. Wang, D. Bell, KNN Model Based Approach in Classification [C]. In ODBASE, 2003:986 -996. 被引量：1
10K. Chidananda, G. Krishna. The Condensed Nearest Neighbor Rule Using the Concept of Mutual Nearest Neighbor [J], IEEE Transactions on Information Theory, 1979 (IT-25): 488 -490. 被引量：1

二级参考文献125

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
2宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
3黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
4程泽凯 ,林士敏 .文本分类器稳定性评估研究[J].情报学报,2005,24(1):64-68. 被引量：3
5侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
6孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6
7张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
8王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
9寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
10黄冉,郭嵩山.基于类别空间模型的文本分类系统的设计与实现[J].计算机应用研究,2005,22(8):60-63. 被引量：11

共引文献254

1王家琪,张莉.面向文本特征选择的去冗余相对判别准则[J].山西大学学报（自然科学版）,2021,44(4):688-694. 被引量：2
2朱丹,吴兹古力.基于机器视觉的农业机械图像识别系统分析[J].农机化研究,2020,42(10):28-31. 被引量：13
3李敏,冯亚丽,吴东林.采摘机器人动态果实目标检测与跟踪技术研究——基于云存储[J].农机化研究,2020,42(9):207-211. 被引量：10
4姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
5郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：13
6张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
7孔凡村,胡勤友,陈宇里.基于VDR回放数据的船舶碰撞过程仿真系统的设计[J].中国航海,2004,27(2):25-28. 被引量：9
8张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
9李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
10何峰,林亚丽.改进的KNN文本分类算法综述[J].福建电脑,2005,21(1):4-5. 被引量：1

1李湘东,巴志超,黄莉.文本分类中基于类别数据分布特性的噪声处理方法[J].现代图书情报技术,2014(11):66-72. 被引量：2
2徐晨凯,高茂庭.改进的最小生成树自适应分层聚类算法[J].计算机工程与应用,2014,50(22):149-153. 被引量：7
3谭三,刘宁.基于阈值聚类和KNN分类的入侵检测[J].郑州大学学报（理学版）,2010,42(1):86-88. 被引量：2
4罗雅丽.基于常职院考试题库管理系统的总体设计[J].消费电子,2013(2):30-31.
5李长路,王劲林,郭志川,潘梁.两阶段密度意识子空间聚类模型[J].西安交通大学学报,2014,48(10):108-114.
6李湘东,高凡,丁丛.LDA模型下不同分词方法对文本分类性能的影响研究[J].计算机应用研究,2017,34(1):62-66. 被引量：9
7沈来信,黄战,杨帆.基于改进的自组织特征网络聚类分析[J].安徽工程科技学院学报（自然科学版）,2007,22(1):67-70. 被引量：1
8刘学.K-Dmeans算法应用研究[J].科技信息,2013(19):79-79.
9李湘东,巴志超,黄莉.基于语料信息度量的文本分类性能影响研究[J].情报杂志,2014,33(9):157-162. 被引量：5
10单世民,张宪超,于智航.一种基于局部信息的聚类密度度量[J].大连海事大学学报,2008,34(3):102-106. 被引量：1

图书馆学研究

2016年第13期

浏览历史

内容加载中请稍等...

一种基于聚类密度的文本分类算法研究

参考文献24

二级参考文献125

共引文献254

相关作者

相关机构

相关主题

浏览历史