基于准确率爬坡的动态加权集成分类算法

Dynamic weighted ensemble classification algorithm based on accuracy climbing

下载PDF

导出

摘要传统集成分类算法中,一般将集成数目设置为固定值,这可能会导致较低分类准确率。针对这一问题,提出了准确率爬坡集成分类算法(C-ECA)。首先,该算法不再用一些基分类器去替换相同数量的表现最差的基分类器,而是基于准确率对基分类器进行更新,然后确定最佳集成数目。其次,在C-ECA的基础上提出了基于爬坡的动态加权集成分类算法(C-DWECA)。该算法提出了一个加权函数,其在具有不同特征的数据流上训练基分类器时,可以获得基分类器的最佳权值,从而提升集成分类器的性能。最后,为了能更早地检测到概念漂移并提高最终精度,采用了快速霍夫丁漂移检测方法(FHDDM)。实验结果表明C-DWECA的准确率最高可达到97.44%,并且该算法的平均准确率比自适应多样性的在线增强(ADOB)算法提升了40%左右,也优于杠杆装袋(LevBag)、自适应随机森林(ARF)等其他对比算法。 In the traditional ensemble classification algorithm,the ensemble number is generally set to a fixed value,which may lead to a low classification accuracy.Aiming at this problem,an accuracy Climbing Ensemble Classification Algorithm(C-ECA)was proposed.Firstly,the base classifiers was no longer replaced the same number of base classifiers with the worst performance,but updated based on the accuracy in this algorithm,and then the optimal ensemble number was determined.Secondly,on the basis of C-ECA,a Dynamic Weighted Ensemble Classification Algorithm based on Climbing(C-DWECA)was proposed.When the base classifier was trained on the data stream with different features,the best weight of the base classifier was able to be obtained by a weighting function proposed in this algorithm,thereby improving the performance of the ensemble classifier.Finally,in order to detect the concept drift earlier and improve the final accuracy,Fast Hoffding Drift Detection Method(FHDDM)was adopted.Experimental results show that the accuracy of C-DWECA can reach up to 97.44%,and the average accuracy of the proposed algorithm is about 40%higher than that of Adaptable Diversity-based Online Boosting(ADOB)algorithm,and is also better than those of other comparison algorithms such as Leveraging Bagging(LevBag)and Adaptive Random Forest(ARF).

作者李小娟韩萌王乐张妮程浩东 LI Xiaojuan;HAN Meng;WANG Le;ZHANG Ni;CHENG Haodong(School of Computer Science and Engineering,North Minzu University,Yinchuan Ningxia 750021,China)

机构地区北方民族大学计算机科学与工程学院

出处《计算机应用》 CSCD 北大核心 2022年第1期123-131,共9页 journal of Computer Applications

基金国家自然科学基金资助项目(62062004) 宁夏自然科学基金资助项目(2020AAC03216)。

关键词集成学习分类数据流动态加权集成数目准确率爬坡 ensemble learning classification data stream dynamic weighting ensemble number accuracy climbing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1李小娟,韩萌,王乐,张妮,程浩东.监督与半监督学习下的数据流集成分类综述[J].计算机应用研究,2021,38(7):1921-1929. 被引量：6
2杨剑锋,乔佩蕊,李永梅,王宁.机器学习分类问题及算法研究综述[J].统计与决策,2019,35(6):36-40. 被引量：175
3Xibin DONG,Zhiwen YU,Wenming CAO,Yifan SHI,Qianli MA.A survey on ensemble learning[J].Frontiers of Computer Science,2020,14(2):241-258. 被引量：48
4章恒,鞠时光.基于概念漂移检测的网络数据流分类[J].计算机与现代化,2021(7):107-114. 被引量：2

二级参考文献30

1赵春霞,钱乐祥.遥感影像监督分类与非监督分类的比较[J].河南大学学报（自然科学版）,2004,34(3):90-93. 被引量：88
2丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10. 被引量：925
3Jianhua Jia (12) jjh163yx@163.com Bingxiang Liu (1) Licheng Jiao (2).Soft spectral clustering ensemble applied to image segmentation[J].Frontiers of Computer Science,2011,5(1):66-78. 被引量：6
4李玲俐.数据挖掘中分类算法综述[J].重庆师范大学学报（自然科学版）,2011,28(4):44-47. 被引量：45
5秦姣龙,王蔚.Bagging组合的不平衡数据分类方法[J].计算机工程,2011,37(14):178-179. 被引量：12
6Wen-hua XU,Zheng QIN,Yang CHANG.Clustering feature decision trees for semi-supervised classification from high-speed data streams[J].Journal of Zhejiang University-Science C(Computers and Electronics),2011,12(8):615-628. 被引量：4
7张春霞,张讲社.选择性集成学习算法综述[J].计算机学报,2011,34(8):1399-1410. 被引量：139
8唐焕玲,鲁明羽.利用置信度重取样的SemiBoost-CR分类模型[J].计算机科学与探索,2011,5(11):1048-1056. 被引量：5
9桂林,张玉红,胡学钢.一种基于混合集成方法的数据流概念漂移检测方法[J].计算机科学,2012,39(1):152-155. 被引量：9
10杜友田,辛刚,郑庆华.融合异构信息的网络视频在线半监督分类方法[J].西安交通大学学报,2013,47(7):96-101. 被引量：2

共引文献227

1景明.实物地质资料知识库建设初探[J].中国矿业,2024,33(S01):67-70. 被引量：1
2谭文侃,胡南燕,叶义成,吴孟龙,黄兆云,王先华.基于四大集成学习的岩爆烈度分级预测[J].岩石力学与工程学报,2022,41(S02):3250-3259. 被引量：10
3徐畅,丁俊琦,赵聃桐,乔岩,张领先.基于LightGBM和处方数据的番茄病害诊断方法[J].农业机械学报,2022,53(9):286-294. 被引量：7
4刘允峰,佟季萱,叶应图.动态数据流集成分类算法综述[J].渤海大学学报（自然科学版）,2023,44(1):79-91.
5车敏诗,聂春燕,范如俊,杨承金,阮新磊.一种基于混沌特征及优化CHAID决策树的情绪识别方法[J].计算机应用研究,2020,37(S02):105-107. 被引量：3
6张传部.影响啤酒中高级醇含量的主要因素及控制[J].酿酒科技,2000(3):58-59. 被引量：12
7孙素琴,周群,郁鉴源,胡鑫尧.分子振动光谱法与中药研究的最新进展[J].光谱学与光谱分析,2000,20(2):199-202. 被引量：61
8李悟早,郭术义,任思杰.模糊控制理论综述[J].河南科技,2019,0(11):12-15. 被引量：31
9吴秋雯,李郁欣,黄磊,周书怡,胡斌,鲍奕仿,耿辰,夏威,杨丽琴,耿道颖.机器学习算法在颈动脉斑块影像学分类中的研究进展[J].中国临床神经科学,2019,27(4):458-465. 被引量：5
10赵宏,刘颖,李爽,徐鹏飞,郑勤华.基于在线学习行为数据的人格特质识别研究[J].开放教育研究,2019,25(5):110-120. 被引量：10

1钟崴,孔凡淇,林小杰,郭赉佳,李岚.考虑典型日特征权重动态分配的微电网容量配置两阶段规划方法[J].能源工程,2022(1):90-98. 被引量：5
2崔鑫,徐华,朱亮.面向不均衡数据的多分类集成算法[J].计算机工程与应用,2022,58(2):176-183. 被引量：7
3陆万荣,许江淳,李玉惠.面向Stacking集成的改进分类算法及其应用[J].计算机应用与软件,2022,39(2):281-286. 被引量：11
4孙佳佳,李雅静.基于关键词价值细分的高价值热点主题识别方法研究[J].情报学报,2022,41(2):118-129. 被引量：18

计算机应用

2022年第1期

浏览历史

内容加载中请稍等...

基于准确率爬坡的动态加权集成分类算法

参考文献4

二级参考文献30

共引文献227

相关作者

相关机构

相关主题

浏览历史