摘要
传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息。该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果。证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系。在R eu ters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度。
The traditional text categorization method based on vector space model has to process all the documents beforehand, and some useful information would be lost. A novel support vector machine SVM-based text categorization method with discrete kernel is proposed to overcome this problem. The discrete kernel is constructed according to the character sequence of compared documents directly in the novel SVM, with the new discrete kernel then applied to SVM categorization method to compare the similarity of docume...
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第S1期1778-1782,共5页
Journal of Tsinghua University(Science and Technology)
基金
国家"八六三"高技术项目(2003AA148010)
关键词
信息处理
支持向量机
离散核
文本分类
向量空间模型
information processing
support vector machine
discrete kernel
text categorization
vector space model