期刊文献+

一种基于中心文档的KNN中文文本分类算法 被引量:17

K-nearest neighbor Chinese text categorization algorithm based on center documents
下载PDF
导出
摘要 在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。 In order to search or extract information in a special category from large data sourcet,ext automatic categorization has become a hot subject of research.KNN is an important method of text automatic categorization,it can deal with large data sets with more stability,but it faces with the problem of slow speed.Based on KNN classification,the semantic relation of feature items is introduced,and clustering to build center documents under it.This method reduces the number of documents which KNN should search,and increases the speed of classification.Simulation results show that the proposed algorithm improves the speed in the case of traditional classification precision.
出处 《计算机工程与应用》 CSCD 北大核心 2011年第2期127-130,共4页 Computer Engineering and Applications
基金 国家自然科学基金(No.60705015) 安徽省自然科学基金(No.070412064) 合肥工业大学科学研究发展基金项目(No.070504F)~~
关键词 中文文本分类 k最邻近 中心文档 语义相似度 聚类 Chinese text classification k-Nearest Neighbor(KNN) center documents semantic similarity clustering
  • 相关文献

参考文献12

二级参考文献37

  • 1余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报(自然科学版),2004,43(5):118-120. 被引量:24
  • 2陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报(自然科学版),2005,44(1):17-20. 被引量:51
  • 3衣英楠,马军.数字文档管理系统的设计与实现[J].山东大学学报(理学版),2005,40(2):62-66. 被引量:1
  • 4朱巧明,李培峰,吴娴.中文信息处理技术[M].北京:清华大学出版社,2005. 被引量:3
  • 5Fried N, Geiger D, Goldszmidt M, et al. Bayesian network classifiers[J]. Machine Learning, 1997, 29(2 - 3): 131 -163. 被引量:1
  • 6Langley P, Iha W, Thompson K. An analysis of Bayesian classifiers[A]. Proceedings of the Tenth National Conference on Artificial Intelligence[C]. Menlo Park, USA: AAAI Press,1992. 223 - 228. 被引量:1
  • 7Andrew McCallum, Kamal Nigam. A comparison of event models for naive bayes text classification[A]. AAAI-98 Workshop on “Learning for Text Categorization”[C]. Madison, USA:AAAI Press, 1998.41 - 48. 被引量:1
  • 8L Egghe,C Michel.Construction of weak and strong similarity measures for ordered sets of documents using fuzzy set techniques.http://www.elsevier.com/locate/infoproman,2003 被引量:1
  • 9Prasanna Ganesan,Hector Garcia-Molina,Jennifer Widom.Exploiting hierarchical domain structure to compute similarity[J].ACM Transactions on Information Systems,2003; 21 (1) ;64~93 被引量:1
  • 10Elisa Bertino,Giovanna Guerrini,Marco Mesiti.Measuring the Structural Similarity among XML Documents and DTDs.http://citeseer.ist.psu.edu/bertino01measuring.html,2001 被引量:1

共引文献353

同被引文献157

引证文献17

二级引证文献167

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部