关于AdaBoost有效性的分析被引量：47

Effectiveness Analysis of AdaBoost

下载PDF

导出

摘要在机器学习领域,弱学习定理指明只要能够寻找到比随机猜测略好的弱学习算法,则可以通过一定方式,构造出任意误差精度的强学习算法.基于该理论下最常用的方法有AdaBoost和Bagging.AdaBoost和Bagging的误差分析还不统一;AdaBoost使用的训练误差并不是真正的训练误差,而是基于样本权值的一种误差,是否合理需要解释;确保AdaBoost有效的条件也需要有直观的解释以便使用.在调整Bagging错误率并采取加权投票法后,对AdaBoost和Bagging的算法流程和误差分析进行了统一,在基于大数定理对弱学习定理进行解释与证明基础之上,对AdaBoost的有效性进行了分析.指出AdaBoost采取的样本权值调整策略其目的是确保正确分类样本分布的均匀性,其使用的训练误差与真正的训练误差概率是相等的,并指出了为确保AdaBoost的有效性在训练弱学习算法时需要遵循的原则,不仅对AdaBoost的有效性进行了解释,还为构造新集成学习算法提供了方法.还仿照AdaBoost对Bagging的训练集选取策略提出了一些建议. Weak learning theorem in machine learning area shows that if the weak learning algorithm slightly better than random guess can be found, the strong learning algorithm with any precision can be constructed. AdaBoost and Bagging are the methods most in use based on this theorem. But many problems about AdaBoost and Bagging have not been well solved. The error analyses of AdaBoost and Bagging are not uniformed; The training errors used in AdaBoost are not the real training errors, but the errors based on sample weights, and if they can represent the real training errors, explanation is needed; The conditions for assuring the effectiveness of final strong learning algorithm also needs to be explained. After adjusting the error rate of Bagging and adopting weighted voting method, the algorithm flows and error analyses of AdaBoost and Bagging are unified. By direct graph analysis, how weak learning algorithm is promoted to strong learning algorithm is explained. Based on the explanation and proof of large number law to weak learning theorem, the effectiveness of AdaBoost is analyzed. The sample weight adjustment strategy of AdaBoost is used to assure the uniform distribution of correct samples. Its probabilities of training errors are equal in probability to that of the real training errors. The rules for training weak learning algorithm are proposed to assure the effectiveness of AdaBoost. The effectiveness of AdaBoost is explained, and the methods for constructing new integrated learning algorithms are given. Some suggestions about the selection strategy of training set in Bagging are given by consulting AdaBoost.

作者付忠良

机构地区中国科学院成都计算机应用研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2008年第10期1747-1755,共9页 Journal of Computer Research and Development

基金中国科学院西部之光人才培养基金项目

关键词机器学习弱学习定理大数定理 ADABOOST BAGGING machine learning weak learning theorem large number law AdaBoost Bagging

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Valiant L G. A theory of the learnable [J]. Communication of the ACM, 1984, 27(11): 1134-1142 被引量：1
2Kearns M, Valiant L G. Learning Boolean formulate or factoring, TR-1488[R]. Cambridge, MA: Havard University Aiken Computation Laboratory, 1988 被引量：1
3Kearns M, Valiant L G. Crytographic limitation on learning Boolean formulae and finite automata [C] //Proc of the 21st Annual ACM Symp on Theory of Computing. New York: ACM, 1989:433-444 被引量：1
4Schapire R E. The strength of weak learnability [J]. Machine Learning, 1990, 5(2): 197-227 被引量：1
5Freund Y. Boosting a weak algorithm by majority [J]. Information and Computation, 1994, 121(2): 256-285 被引量：1
6Freund Y, Schapire R E. A Decision-theoretic generalization of on-line learning and an application to boosting [J]. Journal of Computer and System Scienses, 1997, 55(1) : 119-139 被引量：1
7Paul Viola, Michael Jones. Rapid object detection using a boosted cascade of simple features [C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Pisscatway: IEEE, 2001:511-518 被引量：1
8武勃,黄畅,艾海舟,劳世竑.基于连续Adaboost算法的多视角人脸检测[J].计算机研究与发展,2005,42(9):1612-1621. 被引量：66
9Breiman L. Bagging predicators [J]. Machine Learning, 1996, 24(2): 123-140 被引量：1
10沈学华,周志华,吴建鑫,陈兆乾.Boosting和Bagging综述[J].计算机工程与应用,2000,36(12):31-32. 被引量：66

二级参考文献35

11．Valiant L G．A Theory of Learnable．Communication of ACM，1984； 27:1134－1142 被引量：1
22．Kearns M，Valiant L G．Learning Boolean Formulae or Factoring．Te－ chnical Report TR－1488，Cambridge，MA:Havard University Aiken Computation Laboratory，1988 被引量：1
33．Kearns M，Valiant L G．Crytographic Limitation on Learning Boolean Formulae and Finite Automata．In:Proceedings of the 21st Annual ACM Symposium on Theory of ComputingNew YorkNY:ACM press， 1989:433－444 被引量：1
44．Schapire R E．The Strength of Weak Learnability．Machine Learning， 1990；5:197－227 被引量：1
55．Freund Y．Boosting a Weak Algorithm by Majority．Information and Computation，1995；121（2）:256－285 被引量：1
66．Freund Y，Schapire R E．A Decision－Theoretic Generalization of On－ Line Learning and an Application to Boosting．Journal of Computer and System Sciences，1997；55（1）:119－139 被引量：1
78．Schapire R EFreund YBartlett Y，et al．Boosting the Margin:A New Explanation for the Effectiveness of Voting Methods．The Annals of Statistics，1998；26（5）:1651－1686 被引量：1
89．Schapire R E．A Brief Introduction of Boosting．InProceedings of the 16th International Joint Conference on Artificial Intelligence，1999 被引量：1
910．Schapire R E．A Brief Introduction of Boosting． In: Proceedings of the 16th International joint Conference on Artificial Intelligence1999 被引量：1
10Comay O., Intrator N.. Ensemble training: Some recent experiments with postal zip data. In: Basri R., Schild U.J., Stein Y. eds.. Proceedings of the 10th Israeli Conference on AICV. Amsterdam: Elsevier, 1993, 201～206. 被引量：1

共引文献135

1徐恩友.一种基于IP和验证码组合控制的投票实现[J].杭州电子科技大学学报（自然科学版）,2007,27(4):22-25.
2宋星光,夏利民.基于Bagging算法的水库水沙联合智能调度[J].计算机工程与应用,2004,40(25):218-219. 被引量：4
3谢纪刚,裘正定,周铖,王静.分类器集成在财务危机预测中的应用研究[J].复旦学报（自然科学版）,2004,43(5):785-788. 被引量：9
4郑威,王元庆.基于DM642的人眼检测系统设计与实现[J].现代电子技术,2012,35(4):105-108. 被引量：4
5徐启华,杨瑞.基于AdaBoost算法的故障诊断仿真研究[J].计算机工程与设计,2005,26(12):3210-3212. 被引量：2
6阴国富.基于Boosting算法的车牌汉字识别[J].现代电子技术,2006,29(17):127-129. 被引量：2
7余嘉元,汪存友.运用神经网络集成估计小样本测验的IRT项目参数[J].哈尔滨工程大学学报,2006,27(B07):36-39. 被引量：1
8田春娜,高新波,李洁.基于嵌入式Bootstrap的主动学习示例选择方法[J].计算机研究与发展,2006,43(10):1706-1712. 被引量：8
9邵平,杨路明,曾耀荣.计算旋转Harr型特征的积分图像算法改进[J].计算机技术与发展,2006,16(11):146-147. 被引量：8
10杨艳,燕东渭,赵奎锋,魏亭.综合学习方法AdaBoost在暴雨预测中的应用[J].计算机系统应用,2007,16(1):51-54. 被引量：1

同被引文献532

1安同良,姜舸,王大中.中国高技术制造业技术测度与赶超路径——以锂电池行业为例[J].经济研究,2023,58(1):192-208. 被引量：15
2邹平,袁亦男.基于EAHP和GRAP的供应商选择[J].系统工程理论与实践,2009,29(3):69-75. 被引量：36
3胡理增,于信阳,张长赋,谭元戎.基于经费约束和广义客户终身价值最大化的多客户流失挽救模型[J].系统工程理论与实践,2009,29(2):63-69. 被引量：11
4谢宏,何怡刚,吴杰.基于小波—神经网络模拟电路故障诊断方法的研究[J].仪器仪表学报,2004,25(5):672-675. 被引量：28
5郭红刚,方敏.AdaBoost方法在入侵检测技术上的应用[J].计算机应用,2005,25(1):144-146. 被引量：6
6施智平,胡宏,李清勇,史忠植,段禅伦.一种快速有效的图像纹理谱描述子[J].计算机辅助设计与图形学学报,2004,16(12):1703-1707. 被引量：13
7陈学德,陈玲,曾碚凯,郑重,青木由直.一个基于神经网络的手写文字分类/识别模型[J].中文信息学报,1993,7(3):16-25. 被引量：6
8施智平,胡宏,李清勇,史忠植,段禅伦.基于纹理谱描述子的图像检索[J].软件学报,2005,16(6):1039-1045. 被引量：44
9杨晓光,李艳平,马冠生,胡小琪,王京钟,崔朝辉,王志宏,于文涛,杨正雄,翟凤英.中国2002年居民身高和体重水平及近10年变化趋势分析[J].中华流行病学杂志,2005,26(7):489-493. 被引量：81
10燕继坤,郑辉,王艳,曾立君.基于可信度的投票法[J].计算机学报,2005,28(8):1308-1313. 被引量：8

引证文献47

1徐斌,王元庆,纪圣谋,陈毅煌,高琴.基于DM6437的人眼检测算法的设计与实现[J].光电子技术,2014,34(2):106-108.
2付忠良.分类器线性组合的有效性和最佳组合问题的研究[J].计算机研究与发展,2009,46(7):1206-1216. 被引量：29
3付忠良,赵向辉,苗青,姚宇.基于属性组合的集成学习算法[J].计算机应用,2010,30(2):465-468. 被引量：5
4赵向辉,姚宇,付忠良,苗青,谢会云.面向目标的带先验概率的AdaBoost算法[J].四川大学学报（工程科学版）,2010,42(2):139-144. 被引量：2
5刘冲,张均东,曾鸿,任光,纪玉龙.基于支持向量机的无穷维AdaBoost算法及其应用[J].仪器仪表学报,2010,31(4):764-769. 被引量：14
6张健沛,杨显飞,杨静.面向高速数据流的偏倚抽样集合分类器[J].北京邮电大学学报,2010,33(4):44-48. 被引量：2
7付忠良,赵向辉,苗青,姚宇.AdaBoost算法的推广——一组集成学习算法[J].四川大学学报（工程科学版）,2010,42(6):91-98. 被引量：9
8付忠良,赵向辉.分类器动态组合及基于分类器组合的集成学习算法[J].四川大学学报（工程科学版）,2011,43(2):58-65. 被引量：3
9李胜,张培林,吴定海,徐超.基于渐近式权值小波降噪和Adaboost算法的液压泵故障诊断[J].中国机械工程,2011,22(9):1067-1070. 被引量：8
10付忠良.多分类问题代价敏感AdaBoost算法[J].自动化学报,2011,37(8):973-983. 被引量：31

二级引证文献316

1张楠楠,张晓,白铁成,袁新涛,马瑞,李莉.基于无人机可见光影像的新疆棉田田间尺度地物识别[J].农业机械学报,2023,54(S02):199-205. 被引量：1
2隋国华,李春雷.基于组合分类器的地层含油情况智能决策系统[J].计算机研究与发展,2011,48(S3):476-479.
3柯瀚,陈云敏,周燕国,张民强.动态三轴试验确定砂土抗液化强度[J].土木工程学报,2004,37(9):48-54. 被引量：12
4曾向武,胡黎明.压电陶瓷传感器在岩土工程中的应用[J].岩土工程学报,2006,28(8):983-988. 被引量：4
5赵向辉,付忠良,谢会云,刘栋,姚宇.神经网络和集成学习在地质灾害危险度区划中的应用研究[J].四川大学学报（工程科学版）,2010,42(S1):50-55. 被引量：6
6钟汉亭,姚晓东.一种改进的强分类器优化算法[J].计算机应用,2009,29(B12):267-268. 被引量：1
7相洁,陈俊杰.基于SVM的fMRI数据分类:一种解码思维的方法[J].计算机研究与发展,2010,47(2):286-291. 被引量：8
8付忠良,赵向辉,苗青,姚宇.基于属性组合的集成学习算法[J].计算机应用,2010,30(2):465-468. 被引量：5
9赵向辉,姚宇,付忠良,苗青,谢会云.面向目标的带先验概率的AdaBoost算法[J].四川大学学报（工程科学版）,2010,42(2):139-144. 被引量：2
10付忠良,赵向辉,苗青,姚宇.AdaBoost算法的推广——一组集成学习算法[J].四川大学学报（工程科学版）,2010,42(6):91-98. 被引量：9

1王铂强,陈军.Monte Carlo方法计算圆周率[J].南通职业大学学报,2005,19(4):61-62. 被引量：2
2颜振亚,郑宝玉,李世唐.能量有效的分布式粒子滤波[J].电子与信息学报,2007,29(7):1638-1641. 被引量：3
3郑红军,周旭,毕笃彦.统计学习理论及支持向量机概述[J].现代电子技术,2003,26(4):59-61. 被引量：12
4魏伟.人工神经网络计算精度的研究[J].电气电子教学学报,2002,24(5):53-55.
5张云龙,谢泽奇,张会敏,董承廷.一种复杂背景下的人脸检测方法[J].传感器与微系统,2011,30(6):42-44. 被引量：6
6韦建兴.自动化的成组统计控制技术研究[J].中国科技信息,2005(10):69-69.
7曾洪波,杨天奇,邱韬奋.一种基于模糊理论的KNN文本分类算法[J].微计算机应用,2011,32(2):21-25. 被引量：1
8徐前,赵德安,赵建波.基于改进的AdaBoost算法的人脸检测与定位[J].传感器与微系统,2010,29(1):94-97. 被引量：10
9凌翔.基于误差估计的多传感器异步融合处理[J].科技视界,2016(14):113-114.
10彭俊,谢荣传,王大刚,耿波.基于提升方法的短期负荷预测的研究[J].计算机技术与发展,2008,18(7):197-199. 被引量：1

计算机研究与发展

2008年第10期

浏览历史

内容加载中请稍等...

关于AdaBoost有效性的分析被引量：47

参考文献15

二级参考文献35

共引文献135

同被引文献532

引证文献47

二级引证文献316

相关作者

相关机构

相关主题

浏览历史

关于AdaBoost有效性的分析 被引量：47

参考文献15

二级参考文献35

共引文献135

同被引文献532

引证文献47

二级引证文献316

相关作者

相关机构

相关主题

浏览历史

关于AdaBoost有效性的分析被引量：47