期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
决策树算法的优化研究 被引量:7
1
作者 巩固 黄永青 郝国生 《计算机工程与应用》 CSCD 北大核心 2010年第13期139-141,150,共4页
针对决策树C4.5/5.0分类算法及改进的算法在创建决策树时训练误差率和校验误差率相对较高的缺点,提出一些改进策略,即利用属性相关性进行属性约简与度量以达到解决属性集合中的冗余属性,采用一定置信度值进行决策树的修剪,采用优化的Chi... 针对决策树C4.5/5.0分类算法及改进的算法在创建决策树时训练误差率和校验误差率相对较高的缺点,提出一些改进策略,即利用属性相关性进行属性约简与度量以达到解决属性集合中的冗余属性,采用一定置信度值进行决策树的修剪,采用优化的Chi2算法更合理更准确地对连续属性进行离散化,基于改进策略设计并实现一个分类器,将改进的算法应用于Breast-cancer实例,实验结果证明改进的算法生成的决策树具有较高的分类正确率。 展开更多
关键词 属性相关性 属性约束 剪枝策略 离散化 chi2算法
下载PDF
有效改进C5.0算法的方法 被引量:6
2
作者 巩固 吕俊怀 +1 位作者 黄永青 郝国生 《计算机工程与设计》 CSCD 北大核心 2009年第22期5197-5199,5203,共4页
处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度。在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算... 处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度。在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算法的方法,能更合理更准确地对连续属性进行离散化,在此基础上创建的决策树具有更好的准确率。实验结果表明,基于改进方法的C5.0算法创建的决策树分类模型具有较高的分类准确率。 展开更多
关键词 决策树 离散化 chi2算法 分类器 预测精度
下载PDF
连续属性离散化的Imp-Chi2算法 被引量:2
3
作者 桑雨 闫德勤 +1 位作者 刘磊 梁宏霞 《计算机工程》 CAS CSCD 北大核心 2008年第17期39-41,共3页
连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属... 连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化。文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取方法,避免了训练集随机抽取的不均匀性。实验结果证明了所提算法的有效性。 展开更多
关键词 连续属性离散化 chi2算法 属性重要性 训练集类比例抽取
下载PDF
连续属性离散化的Integral Chi2算法 被引量:2
4
作者 闫德勤 张丽平 《小型微型计算机系统》 CSCD 北大核心 2008年第4期691-693,共3页
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用.连续属性离散化方法是否合理决定着对信息的表达和提取的准确性.Chi2算法基于统计学理论方法,对连续属性离散化研究产生着重要影响.在对Chi2及相关算法中统计量χ2应用意义讨... 连续属性离散化在机器学习和数据挖掘领域中有着重要的作用.连续属性离散化方法是否合理决定着对信息的表达和提取的准确性.Chi2算法基于统计学理论方法,对连续属性离散化研究产生着重要影响.在对Chi2及相关算法中统计量χ2应用意义讨论的基础上,提出了一种新的(IntegralChi2)算法,该算法基于概率统计理论把统计量χ2与分位点χ2α间对应的积分(概率)作为区间合并的依据,能够更合理更准确地对连续属性进行离散化.实验结果证明了算法的有效性. 展开更多
关键词 连续属性离散化 chi2算法 数据挖掘
下载PDF
对Chi2系列算法的改进方法 被引量:2
5
作者 桑雨 闫德勤 +1 位作者 梁宏霞 李克秋 《小型微型计算机系统》 CSCD 北大核心 2009年第3期524-529,共6页
Chi2系列算法是基于概率统计理论的连续属性离散化重要方法.论文对Chi2相关算法进行了深入分析,指出其中的不足,提出一种新的连续属性离散化方法:Rectified Chi2算法.新算法给出一种新的区间合并依据,能够更合理更有效地对连续属性进行... Chi2系列算法是基于概率统计理论的连续属性离散化重要方法.论文对Chi2相关算法进行了深入分析,指出其中的不足,提出一种新的连续属性离散化方法:Rectified Chi2算法.新算法给出一种新的区间合并依据,能够更合理更有效地对连续属性进行离散化.在此基础上,考虑仅以最大差异为区间合并标准存在不合理性,提出一种基于差异序列为标准的区间合并方法,该方法可以大大提高Chi2系列算法的离散化效果.实验结果证明了上述算法的有效性. 展开更多
关键词 连续属性离散化 chi2算法 粗糙集 差异序列
下载PDF
连续属性离散化的Bayesian-Chi2算法 被引量:1
6
作者 刘磊 闫德勤 桑雨 《计算机工程与应用》 CSCD 北大核心 2008年第18期39-40,43,共3页
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用。连续属性离散化方法是否合理决定着对信息的表达和提取的准确性。Chi2算法在对连续属性进行离散化处理时,无冲突的数据能够得到较好的结果,但是,对不协调和不完全的数据实验... 连续属性离散化在机器学习和数据挖掘领域中有着重要的作用。连续属性离散化方法是否合理决定着对信息的表达和提取的准确性。Chi2算法在对连续属性进行离散化处理时,无冲突的数据能够得到较好的结果,但是,对不协调和不完全的数据实验结果不是很理想。利用了Bayseian模型允许一定程度错误分类存在的性质,对Chi2算法进行了改进。改进后的Chi2算法不仅更适合不协调和不完全的数据,还使得区间的合并更加合理。实验结果证明了算法的有效性。 展开更多
关键词 连续属性离散化 chi2算法 贝叶斯
下载PDF
数据挖掘技术在高校贫困生管理工作中的路径分析
7
作者 张忠琼 班永飞 赵颖 《电脑知识与技术》 2014年第3X期1869-1871,共3页
近几年,国家对困难学生的资助力度不断加大,政策也不断完善,给各学校对困难学生的评定提出了较大的挑战,如何从纷繁复杂的信息中挖掘有效的信息进行合理评定。本研究从建立贫困生数据库出发,采用SQL和SPSS软件,使用决策树算法和chi2算法... 近几年,国家对困难学生的资助力度不断加大,政策也不断完善,给各学校对困难学生的评定提出了较大的挑战,如何从纷繁复杂的信息中挖掘有效的信息进行合理评定。本研究从建立贫困生数据库出发,采用SQL和SPSS软件,使用决策树算法和chi2算法,具体梳理了贫困生基本信息,发现综合评定成绩对贫困生的评定有较好的预测作用。 展开更多
关键词 数据挖掘 贫困生 chi2算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部