用于文本分类的快速KNN算法被引量：5

A Fast KNN for Text Categorization

下载PDF

导出

摘要 KNN(k Nearest Neighbor)算法是一种简单、有效、非参数的文本分类方法.传统的KNN方法有着样本相似度计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性.提出了一种快速查找精确的k个最近邻的TKNN(Tree-k-Nearest-Neighbor)算法,该算法建立一棵用于查找的树,加速k个最近邻的查找.首先以整个样本集合中心为基准,按照距离中心的距离将所有样本进行排序,并等分L组,作为根结点的孩子,每个孩子以同样方式处理,直到每组样本数量在[k,2k]间为止.根据这棵树查找k个最近邻,减小了查找范围,极大地降低了相似度计算量. The KNN is a simple, valid and non-parameter method applied to text categorization. The traditional KNN has a fatal defect that time of similarity computing is huge. The practicality will be lost when the KNN is applied to text categorization with high dimension and huge samples. In this paper, a method called TKNN（Tree-k-Nearest-Neighbor） is presented which can search the k nearest neighbors quickly. A tree for searching k nearest neighbors is created; subsequently the searching speed is quicken. First, all samples are sorted based on the similarity between itself and the central sample, then the sorted queue is divided into L groups equably. One group is a child of the root, and every child is disposed like this until the count of a group between k and 2k. Then the searching scope is reduced based on the tree. Subsequently the time of similarity computing is decreased largely.

作者刘海博郗亚辉王煜

机构地区河北大学数学与计算机学院

出处《河北大学学报（自然科学版）》 CAS 北大核心 2008年第3期322-326,共5页 Journal of Hebei University(Natural Science Edition)

关键词 KNN 文本分类相似度 KNN text categorization similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1杨建良,王永成.基于KNN与自动检索的迭代近邻法在自动分类中的应用[J].情报学报,2004,23(2):137-141. 被引量：18
2王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
3李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
4ZAHER A L AGHBARI.Array-index:a plug & search K nearest neighbors method for high-dimensional data[J].Data& Knowledge Engineering,2005,52:333-352. 被引量：1
5王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13

二级参考文献34

1[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15 被引量：1
2[2]Y Yang, X Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval, New York: ACM Press, 1999 被引量：1
3[3]Y Yang, C G Chute. An example-based mapping method for text categorization and retrieval. ACM Trans on Information Systems, 1994, 12(3): 252～277 被引量：1
4[4]E Wiener. A neural network approach to topic spotting. The 4th Annual Symp on Document Analysis and Information Retrieval (SDAIR 95), Las Vegas, NV, 1995 被引量：1
5[5]R E Schapire, Y Singer. Improved boosting algorithms using confidence-rated predications. In: Proc of the 11th Annual Conf on Computational Learning Theory. Madison: ACM Press, 1998. 80～91 被引量：1
6[6]T Joachims. Text categorization with support vector machines: Learning with many relevant features. In: The 10th European Conf on Machine Learning (ECML-98). Berlin: Springer, 1998. 137～142 被引量：1
7[7]S O Belkasim, M Shridhar, M Ahmadi. Pattern classification using an efficient KNNR. Pattern Recognition Letter, 1992, 25(10): 1269～1273 被引量：1
8[8]V E Ruiz. An algorithm for finding nearest neighbors in (approximately) constant average time. Pattern Recognition Letter, 1986, 4(3): 145～147 被引量：1
9[9]P E Hart. The condensed nearest neighbor rule. IEEE Trans on Information Theory, 1968, IT-14(3): 515～516 被引量：1
10[10]D L Wilson. Asymptotic properties of nearest neighbor rules using edited data. IEEE Trans on Systems, Man and Cybernetics, 1972, 2(3): 408～421 被引量：1

共引文献134

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：13
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4何峰,林亚丽.改进的KNN文本分类算法综述[J].福建电脑,2005,21(1):4-5. 被引量：1
5田甜.文档自动分类的方法探讨[J].情报杂志,2006,25(2):77-78. 被引量：1
6戚占龙,许建新,田锡天.基于实例推理的模具设计技术研究[J].计算机工程与应用,2006,42(20):83-85. 被引量：7
7华北,曹先彬.基于代表样本动态生成的中文网页分类[J].计算机应用,2006,26(10):2502-2504. 被引量：2
8李订芳,胡文超,何炎祥.基于共享最近邻聚类和模糊集理论的分类器[J].控制与决策,2006,21(10):1103-1108. 被引量：5
9张雪英.基于机器学习的文本自动分类研究进展[J].情报学报,2006,25(6):730-739. 被引量：11
10王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33

同被引文献62

1刘邱云,吴根秀,付雪峰.基于可传递信度模型的k-NN分类规则[J].江西师范大学学报（自然科学版）,2004,28(3):221-223. 被引量：2
2姜文瀚,周晓飞,杨静宇.基于样本选择的最近邻凸包分类器[J].中国图象图形学报,2008,13(1):109-113. 被引量：4
3潘巍,王阳生,杨宏戟.D-S证据理论决策规则分析[J].计算机工程与应用,2004,40(14):14-17. 被引量：14
4潘巍,王阳生,杨宏戟.Pignistic概率转换算法设计[J].计算机工程,2005,31(4):20-22. 被引量：11
5王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
6钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
7李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
8张国英,沙芸,江慧娜.基于粒子群优化的快速KNN分类算法[J].山东大学学报（理学版）,2006,41(3):120-123. 被引量：8
9周彦利,周创明,王晓丹.基于核的K近邻法[J].航空计算技术,2006,36(5):62-64. 被引量：1
10周小鹏,冯奇,孙立军.基于最近邻法的短时交通流预测[J].同济大学学报（自然科学版）,2006,34(11):1494-1498. 被引量：22

引证文献5

1李灿泽,吴根秀.基于证据理论与核函数的k-NN分类新方法[J].中国软科学,2010(S1):393-397.
2赵俊杰.基于特征加权的KNNFP改进算法及在故障诊断中的应用[J].电子技术应用,2011,37(4):113-116. 被引量：2
3路永和,何新宇.文档相似矩阵在提高KNN分类效率中的应用[J].情报理论与实践,2014,37(1):141-144. 被引量：2
4路永和,何新宇.基于维度索引表的改进KNN分类算法[J].情报理论与实践,2014,37(5):102-106. 被引量：3
5樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43. 被引量：25

二级引证文献32

1熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
2肖诗伯,杨玉梅,兰鹰,吕思蜀.基于多标签属性的学术文献推荐研究[J].情报探索,2015(4):8-10. 被引量：5
3王茜,习磊.基于行业分布的企业网络信息安全威胁及对策研究[J].价值工程,2015,34(20):50-53.
4谭黔林,覃运初,卢艳兰.一种改进的K-medoids知识聚类算法研究[J].软件导刊,2016,15(8):13-15.
5钟晴,叶芝慧,郭小青.基于RFID室内可视化定位系统设计与实现[J].电子测量技术,2016,39(8):186-190. 被引量：3
6苏佩娟,刘赪.基于K-近邻法的不等样分类[J].绵阳师范学院学报,2016,35(11):13-16. 被引量：2
7邓松,岳东,朱力鹏,胡斌,周爱华.电力大数据智能化高效分析挖掘技术框架[J].电子测量与仪器学报,2016,30(11):1679-1686. 被引量：45
8邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3
9戚后林,顾磊.概率潜在语义分析的KNN文本分类算法[J].计算机技术与发展,2017,27(7):57-61. 被引量：3
10苏佩娟,刘赪,牟建波,王丽梅.一种改进的K-近邻分类法[J].西华大学学报（自然科学版）,2017,36(4):93-97. 被引量：2

1王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
2田泽,颜松远,徐敬东.基于改进K近邻的垃圾邮件过滤技术[J].计算机工程与应用,2007,43(25):178-181. 被引量：8
3艾英山,张德贤.基于文本和类别信息的KNN文本分类算法[J].计算机与数字工程,2009,37(11):10-12. 被引量：2
4孙荣宗,苗夺谦,卫志华,李文.基于粗糙集的快速KNN文本分类算法[J].计算机工程,2010,36(24):175-177. 被引量：22
5万中钰.大数据样本分析中的快速KNN算法[J].信息系统工程,2017,30(1):153-153. 被引量：1
6厍向阳,薛惠锋,许五弟.基于遗传算法的多维快速聚类算法研究[J].计算机应用研究,2005,22(6):58-60. 被引量：1
7徐兵兵.基于粗集和模糊聚类的协同过滤算法[J].浙江纺织服装职业技术学院学报,2010,9(2):56-60. 被引量：1
8许幸,张启蕊.基于KNN算法的医药信息文本分类系统的研究[J].计算机技术与发展,2009,19(4):206-209. 被引量：6
9王晓云,陈良生.旋转变化的人耳识别研究[J].计算机工程,2011,37(S1):208-210.
10王昌红.图片格式的PDF照样编辑[J].电脑迷,2015,0(8):82-82.

河北大学学报（自然科学版）

2008年第3期

浏览历史

内容加载中请稍等...

用于文本分类的快速KNN算法被引量：5

参考文献5

二级参考文献34

共引文献134

同被引文献62

引证文献5

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

用于文本分类的快速KNN算法 被引量：5

参考文献5

二级参考文献34

共引文献134

同被引文献62

引证文献5

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

用于文本分类的快速KNN算法被引量：5