用Boosting方法组合增强Stumps进行文本分类(英文) 被引量：15

Improved Stumps Combined by Boosting for Text Categorization

下载PDF

导出

摘要为提高文本分类的精度,Schapire和Singer尝试了一个用Boosting来组合仅有一个划分的简单决策树(Stumps)的方法.其基学习器的划分是由某个特定词项是否在待分类文档中出现决定的.这样的基学习器明显太弱,造成最后组合成的Boosting分类器精度不够理想,而且需要的迭代次数很大,因而效率很低.针对这个问题,提出由文档中所有词项来决定基学习器划分以增强基学习器分类能力的方法.它把以VSM表示的文档与类代表向量之间的相似度和某特定阈值的大小关系作为基学习器划分的标准.同时,为提高算法的收敛速度,在类代表向量的计算过程中动态引入Boosting分配给各学习样本的权重.实验结果表明,这种方法提高了用Boosting组合Stump分类器进行文本分类的性能(精度和效率),而且问题规模越大,效果越明显. Stumps, classification trees with only one split at the root node, have been shown by Schapire and Singer to be an effective method for text categorization when embedded in a boosting algorithm as its base classifiers. In the experiments, the splitting point (the partition) of each stump is decided by whether a certain term appears or not in a text document, which is too weak to obtain satisfied accuracy even after they are combined by boosting, and therefore the iteration times needed by boosting is sharply increased as an indicator of low efficiency. To improve these base classifiers, an idea is proposed in this paper to decide the splitting point of each stump by all the terms of a text document. Specifically, it employs the numerical relationship between the similarities of the VSM-vector of text document and the representational VSM-vector of each class as the partition criteria of the base classifiers. Meanwhile, to further facilitate its convergence, the boosting weights assigned to sample documents are introduced to the computation of representational VSM-vectors for possible classes dynamically. Experimental results show that the algorithm is both more efficient for training and more effective than its predecessor for fulfilling text categorization tasks. This trend seems more conspicuous along with the increasement of problem scale.

作者刁力力胡可云陆玉昌石纯一

机构地区清华大学智能技术与系统国家重点实验室清华大学计算机科学与技术系

出处《软件学报》 EI CSCD 北大核心 2002年第8期1361-1367,共7页 Journal of Software

基金 ~~国家自然科学基金 ~~国家重点基础研究发展规划973项目

关键词 BOOSTING方法文本分类机器学习 Stumps分类器 Algorithms Classification (of information) Learning systems Vectors

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1[1]Freund, Y., Schapire, R. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 1997,55(1):119～139. 被引量：1
2[2]Breiman, L., Friedman, J., Olshen, R., et al. Classification and Regression Trees. Belmont, CA: Wadsworth, 1984. 1～357. 被引量：1
3[3]Schapire, R., Singer, Y. BoosTexter: a boosting-based system for text categorization. Machine Learning, 2000,39(2/3):135～168. 被引量：1
4[4]Salton, G., Wong, A., Yang, C. A vector space model for automatic indexing. Communications of the ACM, 1995,18:613～620. 被引量：1
5[5]Schapire, R., Singer, Y. Improved boosting algorithms using confidence-related predictions. Machine Learning, 1999,37(3): 297～336. 被引量：1

同被引文献91

1程泽凯 ,林士敏 .文本分类器准确性评估方法[J].情报学报,2004,23(5):631-636. 被引量：13
2马亮,陈群秀,蔡莲红.一种改进的自适应文本信息过滤模型[J].计算机研究与发展,2005,42(1):79-84. 被引量：18
3周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
4唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
5李小兵,杨一平,刘曙光.基于概念网络的文本分类研究[J].微型机与应用,2005,24(7):55-57. 被引量：1
6郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
7薄翠梅,张湜,王执铨,李俊.基于滑动时间窗的支持向量机软测量建模研究[J].自动化仪表,2006,27(1):45-48. 被引量：14
8樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
9李文斌,刘椿年,陈嶷瑛.基于混合高斯模型的电子邮件多过滤器融合方法[J].电子学报,2006,34(2):247-251. 被引量：12
10李凯,黄厚宽.小规模数据集的神经网络集成算法研究[J].计算机研究与发展,2006,43(7):1161-1166. 被引量：10

引证文献15

1董乐红,耿国华,高原.Boosting算法综述[J].计算机应用与软件,2006,23(8):27-29. 被引量：26
2姜远,周志华.基于词频分类器集成的文本分类方法[J].计算机研究与发展,2006,43(10):1681-1687. 被引量：22
3王志玲,王效岳.国内文本分类研究论文的统计分析[J].图书情报工作,2006,50(11):136-138. 被引量：2
4谭建龙,张吉,郭莉.基于通用后缀树模型的垃圾邮件过滤方法[J].计算机工程,2007,33(9):100-102.
5潘志松,燕继坤.少数类的集成学习[J].南京航空航天大学学报,2009,41(4):520-526. 被引量：1
6李文斌,刘椿年,钟宁.基于两阶段集成学习的分类器集成[J].北京工业大学学报,2010,36(3):410-419. 被引量：4
7杨国田,吴章宪,杨鹏远.Boosting在火灾识别中的应用研究[J].计算机工程与应用,2010,46(5):200-204. 被引量：3
8武振宇,贾慧珣,朱骥.Boosting算法对卵巢癌代谢组数据的应用研究[J].中国卫生统计,2012,29(6):786-789. 被引量：4
9谭爱平,成亚玲.基于支持向量机的网络入侵检测集成学习算法[J].湖南工业职业技术学院学报,2013,13(2):3-7. 被引量：1
10谭爱平,陈浩,吴伯桥.基于SVM的网络入侵检测集成学习算法[J].计算机科学,2014,41(2):197-200. 被引量：34

二级引证文献125

1韩建保,罗小江.基于数据挖掘的坦克传动装置故障征兆识别展望[J].车辆与动力技术,2005(4):53-57. 被引量：6
2王冬平,王清贤,罗军勇,李炳龙.BMP图像碎片重组中的候选权重方法[J].计算机应用,2007,27(12):3062-3065.
3刘艳艳,张代远.一种改进的无结构P2P网络搜索方法[J].计算机时代,2008(3):13-14.
4刘明,袁保宗,苗振江,唐晓芳,李昆仑.从局部分类精度到分类置信度的变换[J].计算机研究与发展,2008,45(9):1612-1619. 被引量：6
5李文斌,陈嶷瑛,刘椿年,刘泰峰.邮件过滤算法的比较[J].计算机工程与设计,2008,29(17):4433-4436. 被引量：3
6钱爱兵,江岚.基于标题的中文新闻网页自动分类[J].现代图书情报技术,2008(10):59-68. 被引量：7
7姜远,佘俏俏,黎铭,周志华.一种直推式多标记文档分类方法[J].计算机研究与发展,2008,45(11):1817-1823. 被引量：10
8郭武斌,周宽久,苏振魁.基于词序方法的文本相似度计算模型[J].情报学报,2008,27(6):857-862. 被引量：7
9赵俊杰,胡学钢.基于文本分类的文档相似度计算[J].微型电脑应用,2008,24(12):46-47. 被引量：6
10梁文婷,何中市,龙华,田春娥.改进传统文本结构关系图的文本结构分析[J].微计算机信息,2009,25(3):213-215. 被引量：5

1陈建慧.一种改进的STUMPS架构[J].无锡职业技术学院学报,2008,7(4):55-58.
2李建彬,郑辉,牛忠霞.AdaBoost算法中的数据类别不平衡现象[J].电信技术研究,2007(11):11-17.
3瞻博网络发布高级自动执行和威胁防护解决方案,拓展软件定义的安全网络[J].现代电信科技,2016,46(5):78-78.
4王晓霞,尹四清.网页分类技术的研究[J].机械工程与自动化,2007(1):75-77. 被引量：1
5韩红旗,朱东华,汪雪锋.类关联词约束的K-Means半监督文本聚类方法[J].微计算机信息,2010,26(15):4-5. 被引量：2
6李京,姜卫,张跟鹏,宋世延.基于电子商务的个性化推荐系统研究[J].计算机与数字工程,2011,39(7):93-97. 被引量：4
7王超,蔡润波.百科实例的分类算法探究[J].科技创新与应用,2015,5(13):47-49. 被引量：1
8质造强基智能先行——2016数控机床与金属加工展11月申城盛大开幕[J].现代制造,2016,0(44):46-46.
9顾德闯,杨永健.基于GPU的多类支持向量机改进算法[J].吉林大学学报（理学版）,2015,53(1):107-111. 被引量：2
10顾硕.物联网新前景[J].自动化博览,2016,33(3):1-1.

软件学报

2002年第8期

浏览历史

内容加载中请稍等...

用Boosting方法组合增强Stumps进行文本分类(英文) 被引量：15

参考文献5

同被引文献91

引证文献15

二级引证文献125

相关作者

相关机构

相关主题

浏览历史