-
题名基于余弦相似度的改进C4.5决策树算法
被引量:16
- 1
-
-
作者
夏修臣
王秀英
-
机构
青岛科技大学信息科学技术学院
-
出处
《计算机工程与设计》
北大核心
2018年第1期120-125,共6页
-
基金
山东省自然科学基金项目(ZR2014FL019)
山东省高等学校科技计划基金项目(J14LN31)
-
文摘
针对传统C4.5算法存在容易产生冗余规则、决策树规模过大、分类速度过慢等问题,提出一种基于余弦相似度的改进C4.5决策树算法。计算每个属性的信息熵和增益率,如果任意属性的任意两个属性值的信息熵之差在一个很小范围内时,计算两个属性值的余弦相似度;合并相似度在阈值范围内的属性值,重新计算合并后属性的信息增益率,依据传统的C4.5算法进行计算。抽取某医院普检数据进行仿真,仿真结果表明,所提算法能够有效降低分裂属性维度,缩减了决策树规模,减少了冗余规则,提高了分类速度。
-
关键词
数据挖掘
C4.5算法
余弦相似度
决策树
降维
-
Keywords
data mining
C4.5 algorithm
cosine-similarity
decision-tree
dimensionality reduction
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-