-
题名决策树算法的优化研究
被引量:7
- 1
-
-
作者
巩固
黄永青
郝国生
-
机构
徐州师范大学计算机科学与技术学院
中国矿业大学信息与电气工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第13期139-141,150,共4页
-
基金
江苏省高校自然科学基础研究No.07KJD520216
徐州师范大学项目基金No.KY200710~~
-
文摘
针对决策树C4.5/5.0分类算法及改进的算法在创建决策树时训练误差率和校验误差率相对较高的缺点,提出一些改进策略,即利用属性相关性进行属性约简与度量以达到解决属性集合中的冗余属性,采用一定置信度值进行决策树的修剪,采用优化的Chi2算法更合理更准确地对连续属性进行离散化,基于改进策略设计并实现一个分类器,将改进的算法应用于Breast-cancer实例,实验结果证明改进的算法生成的决策树具有较高的分类正确率。
-
关键词
属性相关性
属性约束
剪枝策略
离散化
chi2算法
-
Keywords
attribute correlation
attribute reduction
pruning strategy
discretization
chi2 algorithm
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名有效改进C5.0算法的方法
被引量:6
- 2
-
-
作者
巩固
吕俊怀
黄永青
郝国生
-
机构
徐州师范大学计算机科学与技术学院
中国矿业大学信息与电气工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2009年第22期5197-5199,5203,共4页
-
基金
江苏省高校自然科学基础研究基金项目(07KJD520216)
徐州师范大学基金项目(08XLB14)
-
文摘
处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度。在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算法的方法,能更合理更准确地对连续属性进行离散化,在此基础上创建的决策树具有更好的准确率。实验结果表明,基于改进方法的C5.0算法创建的决策树分类模型具有较高的分类准确率。
-
关键词
决策树
离散化
chi2算法
分类器
预测精度
-
Keywords
decision tree
discretization
chi2 algorithm
classifier
predictive accuracy
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名连续属性离散化的Imp-Chi2算法
被引量:2
- 3
-
-
作者
桑雨
闫德勤
刘磊
梁宏霞
-
机构
辽宁师范大学计算机信息与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第17期39-41,共3页
-
基金
国家自然科学基金资助项目(60372071)
辽宁省教育厅高等学校科学研究基金资助项目(2004C031)
辽宁师范大学校基金资助项目
-
文摘
连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化。文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取方法,避免了训练集随机抽取的不均匀性。实验结果证明了所提算法的有效性。
-
关键词
连续属性离散化
chi2算法
属性重要性
训练集类比例抽取
-
Keywords
discretization of real value attributes
chi2 algorithm
attribute significance
selection of training set according to class proportion
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名连续属性离散化的Integral Chi2算法
被引量:2
- 4
-
-
作者
闫德勤
张丽平
-
机构
辽宁师范大学计算机系
-
出处
《小型微型计算机系统》
CSCD
北大核心
2008年第4期691-693,共3页
-
基金
国家自然科学基金项目(60372071)资助
辽宁省教育厅高等学校科学研究基金项目(2004C031)资助
辽宁师范大学校基金资助
-
文摘
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用.连续属性离散化方法是否合理决定着对信息的表达和提取的准确性.Chi2算法基于统计学理论方法,对连续属性离散化研究产生着重要影响.在对Chi2及相关算法中统计量χ2应用意义讨论的基础上,提出了一种新的(IntegralChi2)算法,该算法基于概率统计理论把统计量χ2与分位点χ2α间对应的积分(概率)作为区间合并的依据,能够更合理更准确地对连续属性进行离散化.实验结果证明了算法的有效性.
-
关键词
连续属性离散化
chi2算法
数据挖掘
-
Keywords
discretization of real value attributes
chi2 algorithm
data mining
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名对Chi2系列算法的改进方法
被引量:2
- 5
-
-
作者
桑雨
闫德勤
梁宏霞
李克秋
-
机构
辽宁师范大学计算机系
大连理工大学计算机系
-
出处
《小型微型计算机系统》
CSCD
北大核心
2009年第3期524-529,共6页
-
基金
国家自然科学基金项目(60372071)资助
辽宁省教育厅高等学校科学研究基金(2004C031)资助
辽宁师范大学校基金资助
-
文摘
Chi2系列算法是基于概率统计理论的连续属性离散化重要方法.论文对Chi2相关算法进行了深入分析,指出其中的不足,提出一种新的连续属性离散化方法:Rectified Chi2算法.新算法给出一种新的区间合并依据,能够更合理更有效地对连续属性进行离散化.在此基础上,考虑仅以最大差异为区间合并标准存在不合理性,提出一种基于差异序列为标准的区间合并方法,该方法可以大大提高Chi2系列算法的离散化效果.实验结果证明了上述算法的有效性.
-
关键词
连续属性离散化
chi2算法
粗糙集
差异序列
-
Keywords
discretization algorithm
chi2 algorithm
rough sets
difference sequence
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名连续属性离散化的Bayesian-Chi2算法
被引量:1
- 6
-
-
作者
刘磊
闫德勤
桑雨
-
机构
辽宁师范大学计算机系
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第18期39-40,43,共3页
-
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60372071)
辽宁省教育厅高等学校科学研究基金(No.2004C031)
辽宁师范大学校基金
-
文摘
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用。连续属性离散化方法是否合理决定着对信息的表达和提取的准确性。Chi2算法在对连续属性进行离散化处理时,无冲突的数据能够得到较好的结果,但是,对不协调和不完全的数据实验结果不是很理想。利用了Bayseian模型允许一定程度错误分类存在的性质,对Chi2算法进行了改进。改进后的Chi2算法不仅更适合不协调和不完全的数据,还使得区间的合并更加合理。实验结果证明了算法的有效性。
-
关键词
连续属性离散化
chi2算法
贝叶斯
-
Keywords
discrctization of real value attributcs
chi2 algorithm
Bayscian
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名数据挖掘技术在高校贫困生管理工作中的路径分析
- 7
-
-
作者
张忠琼
班永飞
赵颖
-
机构
安顺学院
-
出处
《电脑知识与技术》
2014年第3X期1869-1871,共3页
-
基金
贵州省教育厅青年项目(辅导员项目):数据挖掘技术在高校贫困生管理工作中的应用(12FDY018)
-
文摘
近几年,国家对困难学生的资助力度不断加大,政策也不断完善,给各学校对困难学生的评定提出了较大的挑战,如何从纷繁复杂的信息中挖掘有效的信息进行合理评定。本研究从建立贫困生数据库出发,采用SQL和SPSS软件,使用决策树算法和chi2算法,具体梳理了贫困生基本信息,发现综合评定成绩对贫困生的评定有较好的预测作用。
-
关键词
数据挖掘
贫困生
chi2算法
-
Keywords
data mining
poor students
chi2 algorithm
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-