期刊文献+

基于离散核支持向量机的文本自动分类 被引量:3

Automatic text categorization with discrete kernel-based support vector machine
原文传递
导出
摘要 传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息。该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果。证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系。在R eu ters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度。 The traditional text categorization method based on vector space model has to process all the documents beforehand, and some useful information would be lost. A novel support vector machine SVM-based text categorization method with discrete kernel is proposed to overcome this problem. The discrete kernel is constructed according to the character sequence of compared documents directly in the novel SVM, with the new discrete kernel then applied to SVM categorization method to compare the similarity of docume...
作者 傅鹏 张德运
出处 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1778-1782,共5页 Journal of Tsinghua University(Science and Technology)
基金 国家"八六三"高技术项目(2003AA148010)
关键词 信息处理 支持向量机 离散核 文本分类 向量空间模型 information processing support vector machine discrete kernel text categorization vector space model
  • 相关文献

参考文献7

  • 1Lodhi H,Saunders C,Shawe-talor J,et al.Text classification using string kernels[].J ournal of Machine Learning Researching.2002 被引量:1
  • 2Joachims T.Text categorization with support vector machines: Learning with many relevant features[].Proceedings of ECML- th European Conference on Machine Learning.1998 被引量:1
  • 3Chang W I,Lawler E L.Approximate string matching in sublinear expected time[].Proceedings st Annual Symposium on Foundations of Computer Science IEEE.1990 被引量:1
  • 4Cancedda N,Gaussier E,Goutte C,et al.Word-sequence kernels[].J ournal of Machine Learning Research.2003 被引量:1
  • 5Zamir O,Etzioni O.Web document clustering: A feasibility demostration[].Proceedings of the st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.1998 被引量:1
  • 6Vishwanathan S V N,Smola A J.Fast kernels for string and tree matching[].Advances in Neural Information Proceesing Systems.2002 被引量:1
  • 7Ukkonen E.On-line construction of suffix trees[].Algorithmica.1995 被引量:1

同被引文献37

引证文献3

二级引证文献42

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部