Spark MLlib中决策树算法不同特征选择标准比较被引量：5

Comparison of Different Feature Selection Criteria of Decision Tree Algorithm in Spark Mllib

下载PDF

导出

摘要 Spark-MLlib中决策树算法根据其目标特征值是否连续分为分类树和回归树.其中分类决策树算法又根据其特征选择标准不同,分为ID3算法和CART算法.实验时分别使用信息熵和基尼系数作为分裂准则来划分训练数据集,并比较了两者在不同规模数据集上的性能表现.实验结果表明,在保持训练效率的情况下,随着数据集规模增大,使用信息熵训练的树模型其分类精度高于使用基尼系数训练的模型精度. The decision tree algorithm in spark mllib can be divided into classification tree and regression tree according to whether the target eigenvalues are continuous.The classification decision tree algorithm is divided into ID3 algorithm and cart algorithm according to the different feature selection criteria.In the experiment,information entropy and Gini coefficient are used as splitting criteria to divide the training data set,and the performance of the two methods on different data sets is compared.The experimental results show that the classification accuracy of the tree model trained by information entropy is higher than that trained by Gini coefficient with the increase of the size of the dataset while maintaining the training efficiency.

作者杜小芳陈毅红 DU Xiaofang;CHEN Yihong(College of Computer Science,China West Normal University,Nanchong 637002,China;Internet of Things Perception and Big Data Analysis Key Laboratory of Nanchong,Nanchong 637002,China)

机构地区西华师范大学计算机学院物联网感知与大数据分析南充市重点实验室

出处《太原师范学院学报（自然科学版）》 2020年第4期37-39,51,共4页 Journal of Taiyuan Normal University:Natural Science Edition

基金国家自然科学基金面上项目(61871330) 西华师范大学英才基金(17YC148) 西华师范大学博士启动基金(16E008)。

关键词决策树 Spark MLlib 信息熵基尼系数 decision tree Spark Mllib information entropy gini coefficient

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1王熙照,孙娟,杨宏伟,赵明华.模糊决策树算法与清晰决策树算法的比较研究[J].计算机工程与应用,2003,39(21):72-75. 被引量：21

二级参考文献5

1Quinlan J R.Induction of Decision Trees[J].Machine Learning, 1986; (1):81~106. 被引量：1
2Y Yuan,M J Shaw.Induction of fuzzy decision trees[J].Fuzzy Sets Syst, 1995 ;69(2) : 125-139. 被引量：1
3.Tom M Mitchell.MACHINE LEARNING[M].International Edition,1997. 被引量：1
4Bingchiang Jeng,Jeng Yung Mo,Liang Ting Peng.FILM :a fuzzy inductive learning method for automated knowledge acquisition[J].Decision Support Systems,1997;21:61-73. 被引量：1
5Wang Xi zhao,Chen Bin,Qian Guo liang et al.On the Optimization of Fuzzy Decision Trees[J].Fuzzy Sets and Systems,2000; 112:117~ 125. 被引量：1

共引文献20

1李志平,王凤先,崔静,杨刚,周向宁.基于模糊决策树的入侵规则生成技术[J].计算机研究与发展,2006,43(z2):366-369. 被引量：1
2王兴伟,原常青,黄敏.一种基于模糊决策树的运动预测机制[J].计算机科学,2005,32(9):176-179. 被引量：5
3薛林雁,王熙照.模糊决策树中四种匹配算法的对比研究[J].内蒙古科技与经济,2006(04X):126-127.
4孙娟,王熙照.规则简化与模糊决策树剪枝的比较[J].计算机工程,2006,32(12):210-211. 被引量：5
5闫建辉,王熙照,隋春荣,王硕,苑俊英.基于最大熵选取示例的增量决策树归纳[J].计算机工程与应用,2006,42(35):160-162. 被引量：1
6蔡晨,李凡长.动态模糊决策树学习算法研究[J].计算机技术与发展,2007,17(7):73-76. 被引量：2
7王兴伟,田野,黄敏.NGI中一种切换目标预测机制[J].东北大学学报（自然科学版）,2007,28(7):957-960.
8冯楠,李敏强,寇纪淞,方德英.一种基于模糊决策树的软件成本估计模型[J].计算机工程与应用,2007,43(26):21-23. 被引量：3
9亓呈明,郝玲,崔守梅.一种新的模糊决策树模型及其应用[J].山东大学学报（理学版）,2007,42(11):107-109. 被引量：3
10王雷,王芳,么炜,程洪,李志平.基于模糊决策树的入侵检测规则生成技术[J].河北大学学报（自然科学版）,2008,28(4):438-442.

同被引文献72

1王朝.医院信息系统中病历数据的多维属性分类算法[J].科技通报,2020,36(11):16-20. 被引量：2
2杨美沂,邸建伟.基于区块链的统计数据采集共享系统构建研究[J].调研世界,2021(5):60-67. 被引量：14
3吴迪,刘清源,李晓坤,徐龙,董潍赫,付文香.基于量子密钥分发的多播集中密钥管理[J].智能计算机与应用,2020,10(4):180-185. 被引量：1
4刘丹,蒲自源,许晓晴,伍佳妮.基于机器学习-优化混合算法的离散交通网络双层规划模型[J].系统工程,2018,36(8):114-122. 被引量：5
5张京敏,牛群.关于城市物流配送交通路径规划仿真研究[J].计算机仿真,2017,34(6):367-371. 被引量：11
6郭旭东,刘永平,王远回.以旅游功能为主的城市轨道交通线路客流预测方法[J].城市轨道交通研究,2018,21(1):49-52. 被引量：11
7江文辉,徐菱,李延来,李思雯,丁小东.停站约束下多列车运力分配与定价联合决策模型[J].交通运输系统工程与信息,2018,18(1):186-192. 被引量：3
8黄建忠,陈东,虞敏.长江河口主要物理参数智能监测站点防雷供电保障措施研究[J].现代建筑电气,2018,9(6):1-5. 被引量：2
9吴彬,杨咏钢,李艳芳,金志凤.茶园可视化农业气象信息动态监测预警系统研制及试验[J].计算机测量与控制,2018,26(8):195-199. 被引量：9
10郑荣金.浅谈中波台的防雷系统[J].东南传播,2018(7):152-153. 被引量：2

引证文献5

1赵芳琴.基于贝叶斯网络的城市交通规划辅助决策模型[J].山东交通学院学报,2021,29(3):32-38. 被引量：1
2刘鸿斌.应用大数据模型实现气象防雷的预警分析方法[J].计算机测量与控制,2021,29(9):170-173. 被引量：1
3张丹,刘欢.基于决策树特征选择的电子档案资源数字化共享方法[J].自动化技术与应用,2022,41(10):125-128.
4李梦.结合改进PSO和模糊决策树的医院信息系统数据分类研究[J].微型电脑应用,2024,40(9):194-196.
5闵杰青,李昕洁,谭强,赵娜,李向娟,王剑,曾敬勋,刘学承.应用于心脏病诊断的线性回归决策树模型[J].计算机科学与应用,2021,11(8):2108-2116.

二级引证文献2

1刘君阳,朱世松.基于DBN的飞行保障力量配置辅助决策方法[J].系统仿真学报,2023,35(5):1008-1019. 被引量：2
2胡旻,姚东升.基于气象特征数据智能识别与评估的雷电灾害预测模型设计[J].电子设计工程,2024,32(3):110-114.

1饶欢,陈凤超,何毅鹏.基于分类决策树对电网配变不匹配问题的故障诊断算法[J].中国科技纵横,2020(4):179-180.
2王利军.决策树ID3算法的优化[J].菏泽学院学报,2020,42(5):15-19. 被引量：5
3李瑞阁,王成玲,柳德学.维生素D2治疗糖尿病周围神经病变的疗效决策树研究[J].南阳理工学院学报,2020,12(4):113-118. 被引量：1
4张朋,孙钰根,陈淑琦,王志鸿,马洁桃,殷冰迪,王茗茗.昆山市中小学教师健康素养具备率及影响因素分析[J].中国健康教育,2020(7):626-630. 被引量：3

太原师范学院学报（自然科学版）

2020年第4期

浏览历史

内容加载中请稍等...

Spark MLlib中决策树算法不同特征选择标准比较被引量：5

参考文献1

二级参考文献5

共引文献20

同被引文献72

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

Spark MLlib中决策树算法不同特征选择标准比较 被引量：5

参考文献1

二级参考文献5

共引文献20

同被引文献72

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

Spark MLlib中决策树算法不同特征选择标准比较被引量：5