kNN在文本分类中的应用研究被引量：3

Research of kNN in Text Categorization

下载PDF

导出

摘要随着网络技术与数字图书馆的迅猛发展,在线文档迅速增加,自动文本分类已成为处理和组织大量文档数据的关键技术。kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用。本文介绍了kNN分类算法的思想以及两种不同的决策规则,并通过实现的文本分类系统对基于离散值规则的kNN方法和基于相似度加权的kNN方法进行实验比较。实验结果表明,基于相似度加权的kNN方法的分类性能要优于基于离散值规则的kNN方法。 With the rapid development of network technology and digital libraries, online documents are rapidly increasing. Automatic text classification has become a key technology for massive documents processing. As a simple, effective, non-parametric method of classification, kNN method is widely used in the text classification. This paper introduces the basis theory of the kNN algorithm and two different decision-making rules. Experiments which compared two different decision-making rules are also pres- ented in this paper. The experimental results show that the performance of similarity-weighted function is better than the performance of discrete-valued function.

作者吕震宇赵爽林永民

机构地区河北理工大学经济管理学院

出处《计算机与现代化》 2008年第11期69-72,共4页 Computer and Modernization

基金唐山市重点实验室资助项目(06360301A-6)

关键词文本分类 KNN 特征选择 text categorization kNN feature selection

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献6

1Yang Y, Liu X. A re-examination of text categorization methods [ C ]//The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM Press, 1999. 被引量：1
2王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
3柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
5李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
6林永民朱卫东尚文倩.kNN文本分类器中决策规则的改进.计算机研究与发展,2005,42:378-382. 被引量：7

二级参考文献32

1王聃,贾云伟,林福严.人脸识别系统中的特征提取[J].微计算机信息,2005,21(07X):53-55. 被引量：18
2[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15 被引量：1
3[2]Y Yang, X Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval, New York: ACM Press, 1999 被引量：1
4[3]Y Yang, C G Chute. An example-based mapping method for text categorization and retrieval. ACM Trans on Information Systems, 1994, 12(3): 252～277 被引量：1
5[4]E Wiener. A neural network approach to topic spotting. The 4th Annual Symp on Document Analysis and Information Retrieval (SDAIR 95), Las Vegas, NV, 1995 被引量：1
6[5]R E Schapire, Y Singer. Improved boosting algorithms using confidence-rated predications. In: Proc of the 11th Annual Conf on Computational Learning Theory. Madison: ACM Press, 1998. 80～91 被引量：1
7[6]T Joachims. Text categorization with support vector machines: Learning with many relevant features. In: The 10th European Conf on Machine Learning (ECML-98). Berlin: Springer, 1998. 137～142 被引量：1
8[7]S O Belkasim, M Shridhar, M Ahmadi. Pattern classification using an efficient KNNR. Pattern Recognition Letter, 1992, 25(10): 1269～1273 被引量：1
9[8]V E Ruiz. An algorithm for finding nearest neighbors in (approximately) constant average time. Pattern Recognition Letter, 1986, 4(3): 145～147 被引量：1
10[9]P E Hart. The condensed nearest neighbor rule. IEEE Trans on Information Theory, 1968, IT-14(3): 515～516 被引量：1

共引文献510

1田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：4
4兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
5郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：13
6罗毅辉,熊曙初,王四春,范强.无监督环境下基于聚类集成的特征选择[J].微计算机信息,2008,24(9):265-267. 被引量：2
7夏克俭,张涛.基于贝叶斯算法的垃圾邮件过滤的研究[J].微计算机信息,2008,24(9):179-180. 被引量：5
8王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
9张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
10杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10

同被引文献31

1袁方,杨柳,张红霞.基于k-近邻方法的渐进式中文文本分类技术[J].华南理工大学学报（自然科学版）,2004,32(z1):88-91. 被引量：7
2张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
3罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
4陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9
5宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：41
6程传鹏.中文网页分类的研究与实现[J].中原工学院学报,2007,18(1):61-64. 被引量：13
7Y. Yang, X. Lin. A re-examination of text categorization methods. In SIGIR'02: Proceedings of the 22th annual international ACM SIGIR conference on Research and development in information retrieval, pages 42-49. ACM Press, 1999. 被引量：1
8Y. Yang. An evaluation of statistical approaches to to text categorization. Information Retrieval, 1999( 1 ) : 76-88. 被引量：1
9G. Guo,et al. KNN Model-Based Approach in Classification. Coop IS / DOA / ODBASE 2003 : 986-996. 被引量：1
10G. Guo,et al. A KNN Model-Based Approach and Its Application in Text Categorization. CICLing 2004:559-570. 被引量：1

引证文献3

1汪成亮,张硕果.通过确定邻近区域改进KNN文本分类[J].计算机系统应用,2009,18(11):56-59. 被引量：1
2李湘东,徐朋,黄莉,沈祥兴.基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J].图书情报知识,2010,27(4):71-76. 被引量：7
3范恒亮,成卫青.一种基于关联分析的KNN文本分类方法[J].计算机技术与发展,2014,24(6):71-74. 被引量：4

二级引证文献12

1付园,高强.基于时空相关性的数字电影放映场次预测[J].计算机系统应用,2012,21(3):154-159.
2杨敏,谷俊.基于SVM的中文书目自动分类及应用研究[J].图书情报工作,2012,56(9):114-119. 被引量：16
3黄莉,李湘东.基于《中图法》的自动分类研究现状与展望[J].图书情报知识,2012,29(4):30-36. 被引量：7
4黄莉,李湘东.两种相似度计算方法对KNN分类效果的影响研究[J].情报杂志,2012,31(7):177-181. 被引量：5
5李静.基于云计算平台的分布式KNN分类算法的设计与实施[J].科技通报,2013,29(6):92-94.
6骆凡,彭艳兵.一种基于apiori算法改进的knn文本分类方法[J].电子设计工程,2016,24(7):1-3. 被引量：5
7张艳芳,张会丽.基于CUDA的数据挖掘KNN算法的改进[J].济南职业学院学报,2017(3):76-77.
8于苹苹,倪建成,韦锦涛,曹博,姚彬修.基于Spark与词语相关度的KNN文本分类算法[J].计算机技术与发展,2018,28(3):87-92. 被引量：3
9刘雅璇,潘万彬.基于自我训练的长效垃圾分类方法[J].中国图象图形学报,2019,24(5):773-781. 被引量：6
10王思迪,胡广伟,杨巳煜,施云.基于文本分类的政府网站信箱自动转递方法研究[J].数据分析与知识发现,2020,4(6):51-59. 被引量：4

1田松瑞.基于用户相似度加权的Slope One算法[J].软件,2016,37(4):57-59. 被引量：8
2张铁,马琼雄.基于局部背景特征点的目标定位和跟踪[J].中南大学学报（自然科学版）,2016,47(9):3040-3049. 被引量：8
3董引娣,刘成军,李洪兵,熊庆宇.基于小波相似度加权的图像融合算法[J].计算机工程与应用,2016,52(7):186-190. 被引量：1
4黄华,颜恺,齐春.基于相似度加权的自适应HD算法[J].自动化学报,2009,35(7):882-887.
5刘金岭,宋连友,范玉虹.基于语义信息的中文短信文本相似度研究[J].计算机工程,2012,38(13):58-60. 被引量：9
6刘惠临,周华平.本体概念相似度加权综合计算模型[J].齐齐哈尔大学学报（自然科学版）,2013,29(4):18-22.
7罗军,朱文奇.考虑物品相似权重的用户相似度计算方法[J].计算机工程与应用,2015,51(8):123-127. 被引量：11
8党博,姜久雷.基于评分差异度和用户偏好的协同过滤算法[J].计算机应用,2016,36(4):1050-1053. 被引量：12
9李景涛,荆一楠,肖晓春,王雪平,张根度.基于相似度加权推荐的P2P环境下的信任模型[J].软件学报,2007,18(1):157-167. 被引量：115
10李亚芬,李征.基于Alfresco的出版社资源库系统的研究与实现[J].软件,2015,36(5):34-39.

计算机与现代化

2008年第11期

浏览历史

内容加载中请稍等...

kNN在文本分类中的应用研究被引量：3

参考文献6

二级参考文献32

共引文献510

同被引文献31

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

kNN在文本分类中的应用研究 被引量：3

参考文献6

二级参考文献32

共引文献510

同被引文献31

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

kNN在文本分类中的应用研究被引量：3