基于C4.5决策树分类算法的改进与应用被引量：17

Improvement and Application of C4.5 Decision Tree Classification Algorithm

下载PDF

导出

摘要决策树算法是在已知具有不同特征的样本数据出现的概率基础上,构建决策树来进行数据分析的一种算法。在数据分类算法中,决策树算法是一种经典的分类决策算法。首先,将所有的数据特征看作是各个树的节点,遍历所有特征,其中每当遍历到其中某个特征时,对特征进行分割处理,并记录分割点的数据信息,作为划分子节点的纯度依据。其次,比较记录的数据特征以及判定最优特征,寻找最优划分方式,对样本数据集进行分割操作。最后,构建符合规则的决策树。针对传统的决策树C4.5算法计算信息增益率时间过长的问题,提出了一种改进的K-C4.5算法,引用麦克劳林公式和泰勒公式的思想,将信息增益率计算公式从对数函数转化为非对数函数,从而降低运算的时间效率。以实际数据集进行测试,验证了改进后的算法具有一定的效果。 The decision tree algorithm is an algorithm to construct a decision tree for data analysis based on the probability of occurrence of sample data with different characteristics. In the data classification algorithm,the decision tree algorithm is a classic classification decision algorithm. First,all data features are treated as nodes of each tree,and all features are traversed. Whenever one of the features is traversed,the feature is segmented and the data of the segmentation point is recorded as the sub-node purity basis. Secondly,the recorded data features is compared and the optimal features is determined,and the optimal partitioning method is found to perform the segmentation operation on the sample dataset. Finally,a decision tree that conforms to the rules is built. In this paper,the problem of calculating the information gain rate is too long for the traditional decision tree C4.5 algorithm. An improved K-C4.5 algorithm is proposed,which uses the ideas of the McLaughlin formula and the Taylor formula to calculate the information gain rate. From the logarithmic function to the non-logarithmic function,the time efficiency of the operation is reduced. The actual data set is tested to verify that the improved algorithm has certain effects.

作者李春生焦海涛刘澎刘小刚 LI Chun-sheng;JIAO Hai-tao;LIU Peng;LIU Xiao-gang(School of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China)

机构地区东北石油大学计算机与信息技术学院

出处《计算机技术与发展》 2020年第5期185-189,共5页 Computer Technology and Development

基金国家自然科学基金面上项目(51774090) 黑龙江省自然科学基金面上项目(F2015020)。

关键词决策树数据概率信息增益率时间效率改进算法 decision tree data probability information gain rate time efficiency improved algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1戴黎斌,陈锦辉,田思泉,高春霞,王家启,杜晓雪,王学昉.基于CART算法的长江口鱼种丰富度预测[J].中国水产科学,2018,25(5):1082-1090. 被引量：7
2江志农,魏东海,王磊,赵志超,茆志伟,张进杰.基于CART决策树的柴油机故障诊断方法研究[J].北京化工大学学报（自然科学版）,2018,45(4):71-75. 被引量：11
3张致远,刘建明,陈振舜.基于C4.5决策树的VoIP实时检测系统[J].桂林电子科技大学学报,2018,38(6):453-458. 被引量：3
4周涛,吉卫喜,宋承轩.基于决策树C4.5算法的制造过程质量管理[J].组合机床与自动化加工技术,2018(12):134-136. 被引量：13
5官雨洁,王伟,刘寿东.基于CART算法的夏季高温预测模型构建与应用[J].气象科学,2018,38(4):539-544. 被引量：5
6陈茜,马向平,贾承丰,张节.基于决策树ID3算法的人才留汉吸引政策研究[J].武汉理工大学学报（信息与管理工程版）,2019,41(2):148-153. 被引量：6
7史逸民,史达伟,郝玲,张银意,王鹏.基于数据挖掘CART算法的区域夏季降水日数分类与预测模型研究[J].南京信息工程大学学报（自然科学版）,2018,10(6):760-765. 被引量：11
8罗计根,杜建强,聂斌,李欢,贺佳.融合GINI指数的ID3改进算法[J].南昌大学学报（工科版）,2019,41(1):80-84. 被引量：9
9张波.一种改进ID3算法及其在高校党员发展中的应用[J].电脑与信息技术,2019,27(2):41-44. 被引量：2
10徐旭冉,涂娟娟.基于决策树算法的空气质量预测系统[J].电子设计工程,2019,27(9):39-42. 被引量：12

二级参考文献141

1任广成,吴小林,沈爱华.冬季西太平洋副高异常变化对我国气温的影响及其与前期北太平洋海温的关系[J].气象与环境科学,2007,30(3):10-13. 被引量：15
2向天梁,汪小钦,周小成,高中灵.基于分层分析的ASTER影像土地利用/覆盖遥感监测研究[J].遥感技术与应用,2006,21(6):527-531. 被引量：14
3江利明,廖明生,林珲,杨立民,汪长城.利用雷达干涉数据进行城市不透水层百分比估算[J].遥感学报,2008,12(1):176-185. 被引量：18
4黄嘉佑,刘舸,赵昕奕.副高、极涡因子对我国夏季降水的影响[J].大气科学,2004,28(4):517-526. 被引量：85
5刘勇洪,牛铮.基于MODIS遥感数据的宏观土地覆盖特征分类方法与精度分析研究[J].遥感技术与应用,2004,19(4):217-224. 被引量：58
6董彩云,杜韬,郭春燕,曲守宁.聚类后的关联规则快速更新算法研究[J].计算机应用研究,2004,21(11):30-32. 被引量：3
7魏红宁.决策树剪枝方法的比较[J].西南交通大学学报,2005,40(1):44-48. 被引量：42
8高洪滨,欧阳光耀.基于缸盖振动信号分析的柴油机失火故障检测[J].车用发动机,2005(1):32-34. 被引量：8
9林建,毕宝贵,何金海.2003年7月西太平洋副热带高压变异及中国南方高温形成机理研究[J].大气科学,2005,29(4):594-599. 被引量：42
10刘勇洪,牛铮,王长耀.基于MODIS数据的决策树分类方法研究与应用[J].遥感学报,2005,9(4):405-412. 被引量：89

共引文献72

1谈笑.基于Spark大数据平台的老年病风险预警模型[J].微型电脑应用,2020,36(2):71-74. 被引量：2
2陈凯,南东亮,孙永辉,夏响.基于XGBoost算法的电网二次设备缺陷分类研究[J].南京信息工程大学学报（自然科学版）,2019,11(4):483-489. 被引量：10
3左家旗,王泽根,边金虎,李爱农,雷光斌,张正健.地表不透水面比例遥感反演研究综述[J].国土资源遥感,2019,31(3):20-28. 被引量：7
4杨荣,赵娟娟,贾郭军.基于决策树的存量客户流失预警模型[J].首都师范大学学报（自然科学版）,2019,40(5):14-18. 被引量：4
5黄建琼,郭文龙,李秋缘.基于决策树的城市环境空气质量评价模型实证研究[J].科技和产业,2019,19(9):104-108. 被引量：3
6李岸达,张阳.基于多目标粒子群优化的关键制造过程变量选择方法[J].组合机床与自动化加工技术,2019(11):139-142. 被引量：2
7樊建昌,余粟.基于决策树的日志分析方法[J].软件导刊,2020,19(1):99-102. 被引量：1
8司国新,周尧治.积温计算的IDL程序[J].高原农业,2020,4(1):89-94. 被引量：1
9黄建琼,郭文龙,李秋缘.基于随机森林模型的高校毕业生就业影响因素研究[J].江苏师范大学学报（自然科学版）,2019,37(4):55-58. 被引量：6
10李佳儒,王玉珍.基于C4.5算法的农资网站销售情况分析[J].东莞理工学院学报,2020,27(1):52-57. 被引量：1

同被引文献194

1刘昆,胡美慧,肖万幸,曹进平.基于区块链技术的分布式云存储在电力系统的应用探究[J].计算机产品与流通,2020,9(8):80-80. 被引量：5
2钟韬,刘刚,黄蕾,白雪,杨执钧,乔丹.基于决策树的非入侵式负荷分解算法的研究[J].计算机应用研究,2020,37(S01):163-165. 被引量：2
3佐磊,胡小敏,何怡刚,孙洪凯,李兵.小样本数据处理的加速寿命预测方法[J].电子测量与仪器学报,2020,32(11):26-32. 被引量：8
4刘鹏,姚正,尹俊杰.一种有效的C4.5改进模型[J].清华大学学报（自然科学版）,2006,46(z1):996-1001. 被引量：28
5王健,周宇华,杨永征.科研院所成果转化的制约因素[J].化工管理,2005(9):13-16. 被引量：3
6葛谢添.高校奖学金制度研究述评[J].江苏师范大学学报（哲学社会科学版）,2013,39(S2):34-37. 被引量：6
7张晓丹,赵海,王刚,魏守智.不确定信息的模糊决策融合算法[J].东北大学学报（自然科学版）,2004,25(7):657-660. 被引量：4
8童思陈,周建军.“蓄清排浑”水库运用方式与淤积过程关系探讨[J].水力发电学报,2006,25(2):27-30. 被引量：18
9刘友军,汪林林.SPRINT算法的改进[J].计算机工程,2006,32(16):55-57. 被引量：5
10彭程,罗可.SPRINT算法中寻找连续属性分割点方法的改进[J].计算机工程与应用,2006,42(27):155-157. 被引量：2

引证文献17

1李焰云.清江流域综合开发与环境保护对策[J].水电站设计,2000,16(1):8-14. 被引量：4
2王晓鹏.考虑泥沙预报的水库汛限水位动态控制研究[J].水利技术监督,2020,0(3):137-141. 被引量：4
3仲蓓鑫,孔苏鹏,程实,张恒.大数据分析下的助学金发放判断辅助模型[J].软件导刊,2021,20(1):185-190. 被引量：1
4张靖雯,江波.基于随机森林和高阶累积量的频谱感知研究[J].信息技术,2021,45(1):35-40. 被引量：2
5王晓鹏.基于决策树技术的闹德海水库入库沙量预报[J].水资源开发与管理,2021(1):52-56. 被引量：1
6张蕾.基于卡方差异性和t-SNE的定性数据分类研究[J].电子测量技术,2021,44(5):100-106.
7邓晓林,陈毅红,王登辉.大数据环境下决策树的研究[J].太原师范学院学报（自然科学版）,2021,20(2):47-57. 被引量：5
8孟贤,王颖,陈曦.多种算法模型的采购物资管理信息化数据管理[J].信息技术,2021,45(10):87-92. 被引量：2
9盘律,何忠文,王锦昌,杨岩顺,杨国璞.基于用电大数据的智能电能表异常评估系统[J].云南电力技术,2022,50(6):23-27.
10唐露源,谢士尧,胡思洋.技术需求导向的科技成果转化影响因素研究——以101家高新技术企业为例[J].中国科技论坛,2023(4):16-24. 被引量：3

二级引证文献27

1魏显虎,杜耘,蔡述明,薛怀平,刘韬.清江流域1995-2000年土壤侵蚀时空变化[J].长江流域资源与环境,2006,15(A01):120-124. 被引量：1
2杨芳,熊欣,朱联东,王群,赵泉,李兆华.清江流域生活污水调查分析[J].污染防治技术,2009,22(6):24-28. 被引量：2
3杨芳,熊欣,王群,鲁敏,朱联东,李兆华.清江流域水环境面源污染源强核算及主要环境问题分析[J].环境污染与防治,2010,32(1):95-98. 被引量：2
4曹诗图,杨丽斌.清江流域旅游环境的水污染综合治理研究[J].生态经济,2015,31(4):141-144. 被引量：6
5熊岩.一种新型综合的汛期分期方法研究[J].水利技术监督,2020(6):224-228.
6李钊,祁富贵,梁福来,张林媛,夏娟娟,王健琪,路国华.基于双频生物雷达的人体生命体征穿透式监测方法[J].中国医疗设备,2021,36(6):9-12. 被引量：1
7李虹瑾.新型分沙装置对头屯河水库入库泥沙影响研究[J].水利技术监督,2021(6):189-194. 被引量：1
8巩士群.柳河上游水沙特性及河道断面变化特征分析[J].水利建设与管理,2022,42(2):79-84. 被引量：3
9张兆丰.信息化技术在石化企业物资采购管理中应用探究[J].石油化工建设,2022,44(3):34-36. 被引量：1
10李婧璇.数据挖掘技术应用下基于决策树模型的油水井生产异常状况管理[J].中国管理信息化,2022,25(14):104-106.

1王现君.关于大数据挖掘中的数据分类算法技术的研究[J].电脑知识与技术,2019,15(12Z):6-7. 被引量：3
2袁飞虎.云计算环境下数据分类算法的研究[J].电子工程学院学报,2020,9(2):117-117.
3董玉林,臧振.决策树算法在单相民用负荷识别中的运用[J].大众用电,2020,36(1):22-23.
4韩国淼.基于决策树算法的毕业生就业预测研究[J].电脑编程技巧与维护,2020(4):64-67. 被引量：3
5王海泉,侯宇亮,魏建华,徐晓滨,苏孟豪,张姗姗.基于多目标蜂群算法的数据分类方法[J].重庆大学学报（自然科学版）,2020,43(1):74-81. 被引量：4
6刘志仁,余伟.水上LNG加注站选址[J].煤气与热力,2020,40(3). 被引量：1
7方克邦,张云华.基于BP_K-C4.5算法的高血脂辅助诊断系统[J].智能计算机与应用,2020,10(2):83-88.
8李新疆,王赏贵,王丹,李扬,李疆.基于HSV色彩空间的红枣叶片病斑分割方法[J].安徽农学通报,2020,26(4):85-87. 被引量：6
9杨夏薇.基于Hadoop大数据平台的人力资源决策技术研究[J].现代电子技术,2020,43(3):183-186. 被引量：4
10段亚阳,周坤鹏,边杰,李思瑶.基于非增强MRI的影像组学术前预测肝细胞癌微血管浸润的研究[J].磁共振成像,2020,11(3):195-200. 被引量：13

计算机技术与发展

2020年第5期

浏览历史

内容加载中请稍等...

基于C4.5决策树分类算法的改进与应用被引量：17

参考文献14

二级参考文献141

共引文献72

同被引文献194

引证文献17

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于C4.5决策树分类算法的改进与应用 被引量：17

参考文献14

二级参考文献141

共引文献72

同被引文献194

引证文献17

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于C4.5决策树分类算法的改进与应用被引量：17