基于DBSCAN聚类的改进KNN文本分类算法被引量：5

An Improved KNN Text Categorization Algorithm Based on DBSCAN

下载PDF

导出

摘要 K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度。当训练样本过多时,计算代价大,分类效率降低。因此,提出一种基于DBSCAN聚类的改进算法。利用DBSCAN聚类消除训练样本的噪声数据。同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量。 In order to find k neighbors of classification, KNN algorithm needs to calculate the similarity be- tween the test sample and every training sample in sample space, with the increasing in the number of training sam- ples, the computational overhead becomes higher. Aiming at the problem of the KNN, an improved algorithm is proposed based on DBSCAN to reduce the number of training samples. The noisy data in sample space were re- duced with DBSCAN algorithm, furthermore, the part of highly similar samples in kernel set of training data were reduced according to the similarity threshold and density. It is shown that the improved method can reduce compu- tational overhead effectively.

作者苟和平景永霞冯百明李勇

机构地区琼台师范高等专科学校信息技术系西北师范大学计算机科学与工程学院

出处《科学技术与工程》北大核心 2013年第1期219-222,共4页 Science Technology and Engineering

基金教育部科学技术研究重点项目(208148) 琼台师范高等专科学校项目(qtkz201006)资助

关键词 K最近邻文本分类样本裁剪 KNN text classification sample reduction

分类号 TP391.11 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1潘丽芳,杨炳儒.基于簇的K最近邻(KNN)分类算法研究[J].计算机工程与设计,2009,30(18):4260-4262. 被引量：27
2王洪彬,刘晓洁.基于KNN的不良文本过滤方法[J].计算机工程,2009,35(24):69-71. 被引量：7
3梁俊杰,冯玉才.LBD:基于局部位码比较的高维空间KNN搜索算法[J].计算机科学,2007,34(6):145-148. 被引量：3
4刘海峰,庞秀梅,张学仁.一种聚类模式下基于密度的改进KNN算法[J].微电子学与计算机,2011,28(7):125-127. 被引量：5

二级参考文献34

1李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
2王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
3李强,李建华.基于向量空间模型的过滤不良文本方法[J].计算机工程,2006,32(10):4-5. 被引量：14
4杨丽华,戴齐,郭艳军.KNN文本分类算法研究[J].微计算机信息,2006,22(07X):269-270. 被引量：24
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
6印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
7卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
8刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
9台德艺,谢飞,胡学钢.文本分类技术研究[J].合肥学院学报（自然科学版）,2007,17(3):61-64. 被引量：6
10Kristof Coussenment, Dirk Van den Poel. Inproving customer complaint management by automatic email classification using linguistic style features as predictors[EB/OL].http://www. elsevier.com/locate/dss,2007. 被引量：1

共引文献36

1东野升鹍,朱大明,姚杰,付志涛,杜思雨.基于多回波Jaccard系数的近地点滤波算法[J].中国水运（下半月）,2023(2):22-24.
2刘锋,白凡.一种改进的K近邻算法在网页分类中的应用[J].电子技术（上海）,2010(7):30-31. 被引量：1
3王春艳,程霜梅,杨鑫.基于聚簇样本约减的K-近邻神经网络分类器[J].情报科学,2010,28(10):1547-1549.
4王一夫,许鹏,杨小林,韩宇.数据挖掘中两种简单分类算法的比较[J].长沙通信职业技术学院学报,2010,9(4):22-25. 被引量：2
5王辉,张成锁,卓呈祥.一种改进的相对熵特征选择方法[J].计算机工程,2011,37(10):167-169. 被引量：1
6张倩,丁友东,蓝建梁,涂意.基于ASM和K近邻算法的人脸脸型分类[J].计算机工程,2011,37(11):212-214. 被引量：6
7刘艳,郝忠孝.高维主存kNN连接索引结构的核心算法[J].计算机科学,2011,38(9):146-149.
8周靖,刘晋胜.基于特征熵相关度差异的KNN算法[J].计算机工程,2011,37(17):146-148. 被引量：5
9周牒岚,陈琳,向华.数据挖掘算法研究[J].现代电子技术,2011,34(20):75-78. 被引量：8
10刘忠,刘洋,建晓.基于KD-Tree的KNN文本分类算法[J].网络安全技术与应用,2012(5):38-40. 被引量：3

同被引文献54

1沈蔚,李京,陈云浩,邓磊,彭光雄.基于LIDAR数据的建筑轮廓线提取及规则化算法研究[J].遥感学报,2008,12(5):692-698. 被引量：85
2钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
3吴慧.海南省降水量的正态分布特征及正态化变换[J].广东气象,2005,27(2):12-13. 被引量：17
4王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
5任兴平,何忠龙,孟增辉.改进DBSCAN算法中参数Eps值的确定[J].现代电子技术,2007,30(11):120-121. 被引量：5
6Zhang Minling,Zhou Zhihua.ML-KNN:A lazy learning approach to multi-label learning[J].Pattern Recognition,2007,40(7):2038-2048. 被引量：1
7冯少荣,肖文俊.DBSCAN聚类算法的研究与改进[J].中国矿业大学学报,2008,37(1):105-111. 被引量：87
8SEBASTIANI F. Machine Learning in Automated Text Categorizaition[J]. ACM Computing Surveys, 2002,34(2): 1-47. 被引量：1
9LI B, YU S, I.U Q. An improved K-nearest-neighbor algorithm for text eategorization[J]. Expert Systems with Applications,2012,39(1) :1503 -1509. 被引量：1
10王煜.基于决策树和K最近邻算法的文本分类研究[D].天津:天津大学,2014. 被引量：1

引证文献5

1罗贤锋,祝胜林,陈泽健,袁玉强.基于K-Medoids聚类的改进KNN文本分类算法[J].计算机工程与设计,2014,35(11):3864-3867. 被引量：25
2樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43. 被引量：25
3李湘东,阮涛,潘练.融合去噪技术和动态主题数的新闻话题分析框架研究[J].情报科学,2018,36(4):14-21. 被引量：4
4冯骥,冉瑞生,魏延.基于自然邻居邻域图的无参数离群检测算法[J].智能系统学报,2019,14(5):998-1006. 被引量：6
5王道芸,袁晨鑫.基于点云数据的建筑物屋顶面点集轮廓线提取[J].北京测绘,2023,37(6):861-866.

二级引证文献56

1熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
2樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43. 被引量：25
3钟晴,叶芝慧,郭小青.基于RFID室内可视化定位系统设计与实现[J].电子测量技术,2016,39(8):186-190. 被引量：3
4苏佩娟,刘赪.基于K-近邻法的不等样分类[J].绵阳师范学院学报,2016,35(11):13-16. 被引量：2
5于苹苹,倪建成,姚彬修,李淋淋,曹博.基于Spark框架的高效KNN中文文本分类算法[J].计算机应用,2016,36(12):3292-3297. 被引量：19
6邓松,岳东,朱力鹏,胡斌,周爱华.电力大数据智能化高效分析挖掘技术框架[J].电子测量与仪器学报,2016,30(11):1679-1686. 被引量：45
7朱学锋.基于最优模糊系统的非线性校准数据计算方法[J].电子测量技术,2016,39(12):81-84. 被引量：3
8邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3
9茹蓓,朱楠,贺新征.基于改进粒子群优化的无标记数据鲁棒聚类算法[J].计算机应用研究,2017,34(6):1626-1630. 被引量：6
10戚后林,顾磊.概率潜在语义分析的KNN文本分类算法[J].计算机技术与发展,2017,27(7):57-61. 被引量：3

1罗贤锋,祝胜林,陈泽健,袁玉强.基于K-Medoids聚类的改进KNN文本分类算法[J].计算机工程与设计,2014,35(11):3864-3867. 被引量：25
2苟和平,景永霞,冯百明,李勇.基于密度的KNN分类器样本裁剪算法[J].佳木斯大学学报（自然科学版）,2013,31(2):242-244. 被引量：2
3景永霞,苟和平,冯百明,李勇.不均衡数据集中KNN分类器样本裁剪算法[J].科学技术与工程,2013,21(16):4720-4723. 被引量：2
4吴贞珍,黄建华.DBSCAN聚类算法在异常检测中的应用[J].计算机安全,2007(8):43-46. 被引量：3
5何震凯,阳爱民,刘永定,邱密.一种使用DBSCAN聚类的网络流量分类方法[J].计算机应用研究,2009,26(9):3461-3464. 被引量：5
6邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3
7杜琳娜,闫光辉,杨霞霞,刘利松.一种改进的KNN中文文本分类算法[J].软件导刊,2010,9(2):51-53. 被引量：2
8梁浩哲,王振华,徐树奎,李国辉.基于运动行为的复杂监控事件探测[J].同济大学学报（自然科学版）,2012,40(5):751-756.
9张静,王建民,何华灿.基于聚类的连续属性动态离散化算法[J].制造业自动化,2006,28(7):19-22.
10张静,王建民,何华灿.基于DBSCAN聚类的连续属性离散化算法[J].计算机工程与应用,2006,42(13):149-151. 被引量：2

科学技术与工程

2013年第1期

浏览历史

内容加载中请稍等...

基于DBSCAN聚类的改进KNN文本分类算法被引量：5

参考文献4

二级参考文献34

共引文献36

同被引文献54

引证文献5

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

基于DBSCAN聚类的改进KNN文本分类算法 被引量：5

参考文献4

二级参考文献34

共引文献36

同被引文献54

引证文献5

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

基于DBSCAN聚类的改进KNN文本分类算法被引量：5