基于离散核支持向量机的文本自动分类被引量：3

Automatic text categorization with discrete kernel-based support vector machine

导出

摘要传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息。该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果。证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系。在R eu ters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度。 The traditional text categorization method based on vector space model has to process all the documents beforehand, and some useful information would be lost. A novel support vector machine SVM-based text categorization method with discrete kernel is proposed to overcome this problem. The discrete kernel is constructed according to the character sequence of compared documents directly in the novel SVM, with the new discrete kernel then applied to SVM categorization method to compare the similarity of docume...

作者傅鹏张德运

机构地区西安交通大学电子与信息工程学院

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2005年第S1期1778-1782,共5页 Journal of Tsinghua University(Science and Technology)

基金国家"八六三"高技术项目(2003AA148010)

关键词信息处理支持向量机离散核文本分类向量空间模型 information processing support vector machine discrete kernel text categorization vector space model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Lodhi H,Saunders C,Shawe-talor J,et al.Text classification using string kernels[].J ournal of Machine Learning Researching.2002 被引量：1
2Joachims T.Text categorization with support vector machines: Learning with many relevant features[].Proceedings of ECML- th European Conference on Machine Learning.1998 被引量：1
3Chang W I,Lawler E L.Approximate string matching in sublinear expected time[].Proceedings st Annual Symposium on Foundations of Computer Science IEEE.1990 被引量：1
4Cancedda N,Gaussier E,Goutte C,et al.Word-sequence kernels[].J ournal of Machine Learning Research.2003 被引量：1
5Zamir O,Etzioni O.Web document clustering: A feasibility demostration[].Proceedings of the st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.1998 被引量：1
6Vishwanathan S V N,Smola A J.Fast kernels for string and tree matching[].Advances in Neural Information Proceesing Systems.2002 被引量：1
7Ukkonen E.On-line construction of suffix trees[].Algorithmica.1995 被引量：1

同被引文献37

1肖智,王明恺,谢林林.基于支持向量机的大学生助学贷款个人信用评价[J].清华大学学报（自然科学版）,2006,46(z1):1120-1124. 被引量：20
2潘登,张大方,谢鲲,张继.一种基于折半层次搜索的包分类算法[J].计算机应用,2009,29(2):500-502. 被引量：3
3崔德光,吴淑宁,徐冰.空中交通流量预测的人工神经网络和回归组合方法[J].清华大学学报（自然科学版）,2005,45(1):96-99. 被引量：36
4胡铁松,万永华,冯尚友.水库群优化调度函数的人工神经网络方法研究[J].水科学进展,1995,6(1):53-60. 被引量：45
5刘攀,郭生练,庞博,王才君,张洪刚.三峡水库运行初期蓄水调度函数的神经网络模型研究及改进[J].水力发电学报,2006,25(2):83-89. 被引量：23
6陈育彦,屠康,任珂,邵兴锋,静玮.基于激光图像分析的桃货架品质无损检测试验[J].农业机械学报,2007,38(3):110-113. 被引量：5
7陈育彦,屠康,任珂,邵兴锋,董庆利,潘磊庆.基于激光图像的苹果品质分析与模型[J].农业工程学报,2007,23(4):166-171. 被引量：10
8Cherkassky V, MA Yunqian. Selection of meta-parameters for support vector regression [C]//Proceedings of ICANN2002. Verlag Berlin Heidelberg: Springer, 2002:687 - 693. 被引量：1
9Cherkassky V, MA Yunqian. Practical selection of SVM parameters and noise estimation for SVM regression [J]. Neural Networks, 2004, 17(1):113 - 126. 被引量：1
10Valero C, Ruiz-Altisent M, Cubeddu R, et al. Selection models for the internal quality of fruit based on time domain laser reflectance spectroscopy [ J ]. Biosystem Engineering, 2004, 88 ( 3 ) :313 - 323. 被引量：1

引证文献3

1耿睿,崔德光,徐冰.应用支持向量机的空中交通流量组合预测模型[J].清华大学学报（自然科学版）,2008,48(7):1205-1208. 被引量：27
2刘鹏,屠康,潘磊庆,徐洪蕊,梅为云.基于激光图像次郎甜柿可溶性固形物含量检测[J].农业机械学报,2011,42(1):144-149. 被引量：3
3周婷,纪昌明,朱艳霞,展金岩,喻杉,王绎.基于支持向量机的梯级水电站群中长期调度计划制定及评价[J].电力系统自动化,2013,37(2):56-60. 被引量：12

二级引证文献42

1刘英英,高向东.盘型激光焊熔池红外特征支持向量机分类[J].焊接技术,2013,42(12):21-24.
2张明,韩松臣,黄林源.基于双重力模型和人工神经网络的空中交通流量组合预测[J].西南交通大学学报,2009,44(5):764-770. 被引量：9
3杨艳妮,陆化普.基于支持向量机的城市私人汽车保有量滚动预测[J].公路工程,2010,35(5):39-43. 被引量：5
4许绍杰,谭贤四,聂涛,张衡.基于SVM的雷达装备器材间断性需求预测[J].现代雷达,2011,33(6):87-90. 被引量：4
5王慧勤,雷刚.基于LIBSVM的风速预测方法研究[J].科学技术与工程,2011,11(22):5440-5442. 被引量：17
6孙煦,陆化普,吴娟.基于蚁群优化支持向量机模型的公路客运量预测[J].合肥工业大学学报（自然科学版）,2012,35(1):124-129. 被引量：23
7方维华,曾庆虎.支持向量机的装备关重件需求预测[J].信息技术,2012,36(1):156-158.
8康海贵,李明伟,周鹏飞,赵泽辉.基于混沌自适应遗传ν-SVR的城市客运量预测[J].大连理工大学学报,2012,52(2):227-232. 被引量：5
9林炳焜,程文明,于兰峰.基于组合预测模型的铁路集装箱运量预测[J].工业工程,2012,15(4):1-6. 被引量：2
10郭文川,梁玮,宋怀波.基于邻差和的农产品X射线图像分割算法[J].农业机械学报,2012,43(11):214-219. 被引量：6

1小鱼儿.Word也能并排比较文档[J].电子制作．电脑维护与应用,2005(6):53-53.
2王曜卿.轻松处理长Word文档[J].视窗世界,2003(2):60-61.
3飞雪散花.比较文档就这么轻松[J].电脑迷,2008,0(6):18-18.
4樊永生,郑钢铁.双线性时间-频率分布的近似计算及其应用[J].振动与冲击,2007,26(1):12-15.
5傅鹏,张德运,陈海诠,董皓.基于后缀树词序列核挖掘Web文档[J].微电子学与计算机,2005,22(12):4-7. 被引量：2
6朱本华.利用中国知网及Adobe Acrobat Professional软件审查稿件中学术不端行为的一种新方法[J].韩山师范学院学报,2010,31(6):99-104.
7任兀.老师不再辛劳!Word帮您自动阅卷[J].电脑爱好者,2008,0(11):56-56.
8葛永亮,项颖,耿俊成.基于小波变换的文档相似性检索方法[J].信息化纵横,2009(8):77-78.

清华大学学报（自然科学版）

2005年第S1期

浏览历史

内容加载中请稍等...

基于离散核支持向量机的文本自动分类被引量：3

参考文献7

同被引文献37

引证文献3

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于离散核支持向量机的文本自动分类 被引量：3

参考文献7

同被引文献37

引证文献3

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于离散核支持向量机的文本自动分类被引量：3