摘要
本文给出了集成学习模型可以收敛的集成学习算法,拟自适应分类随机森林算法。拟自适应分类随机森林算法综合了Adaboost算法和随机森林算法的优势,实验数据分析表明,训练集较大时,拟自适应随机森林算法的效果会好于随机森林算法。另外,拟自适应分类随机森林算法的收敛性确保它的推广误差可以通过训练集估计,所以,对于实际数据,拟自适应分类随机森林算法不需要把数据划分为训练集和测试集,从而,可以有效的利用数据信息。
For supervised classification,this paper proposes a new ensemble method named quasi-adaptive random forest,and it' ensemble model converge almost surely.Quasi-adaptive random forest combines the merit of Adaboost and random forest,and experiential analysis shows that quasi-adaptive random forest is more successful than random forest in generalized error reduction when the size of data set is comparatively large.Over and above,because of the convergence of quasi-adaptive random forest model,we can use all the mass data as training set,and also estimate generalization error of the ensemble models by it.
出处
《数理统计与管理》
CSSCI
北大核心
2010年第5期805-811,共7页
Journal of Applied Statistics and Management
基金
中财121人才工程青年博士发展基金(QBJ0711)
全国统计科学研究计划项目(2008LY049)
教育部人文社会科学研究项目基金(08JC910003)
中央财经大学学科建设基金资助
关键词
集成学习
拟自适应
随机森林
ensemble learning
quasi-adaptive
random forest