-
题名连续属性离散化的Imp-Chi2算法
被引量:2
- 1
-
-
作者
桑雨
闫德勤
刘磊
梁宏霞
-
机构
辽宁师范大学计算机信息与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第17期39-41,共3页
-
基金
国家自然科学基金资助项目(60372071)
辽宁省教育厅高等学校科学研究基金资助项目(2004C031)
辽宁师范大学校基金资助项目
-
文摘
连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化。文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取方法,避免了训练集随机抽取的不均匀性。实验结果证明了所提算法的有效性。
-
关键词
连续属性离散化
CHI2算法
属性重要性
训练集类比例抽取
-
Keywords
discretization of real value attributes
Chi2 algorithm
attribute significance
selection of training set according to class proportion
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名连续属性离散化的Integral Chi2算法
被引量:2
- 2
-
-
作者
闫德勤
张丽平
-
机构
辽宁师范大学计算机系
-
出处
《小型微型计算机系统》
CSCD
北大核心
2008年第4期691-693,共3页
-
基金
国家自然科学基金项目(60372071)资助
辽宁省教育厅高等学校科学研究基金项目(2004C031)资助
辽宁师范大学校基金资助
-
文摘
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用.连续属性离散化方法是否合理决定着对信息的表达和提取的准确性.Chi2算法基于统计学理论方法,对连续属性离散化研究产生着重要影响.在对Chi2及相关算法中统计量χ2应用意义讨论的基础上,提出了一种新的(IntegralChi2)算法,该算法基于概率统计理论把统计量χ2与分位点χ2α间对应的积分(概率)作为区间合并的依据,能够更合理更准确地对连续属性进行离散化.实验结果证明了算法的有效性.
-
关键词
连续属性离散化
CHI2算法
数据挖掘
-
Keywords
discretization of real value attributes
Chi2 algorithm
data mining
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种新的Chi2算法在乳腺肿瘤诊断中的应用
- 3
-
-
作者
毕雪华
姚雪梅
孙静
张琳琳
-
机构
新疆医科大学医学工程技术学院
新疆医科大学公共卫生学院
新疆大学信息科学与工程学院
-
出处
《医疗卫生装备》
CAS
2013年第7期15-17,共3页
-
基金
新疆维吾尔自治区高校科研计划项目(XJEDU2011S24)
-
文摘
目的:结合面向医学领域的数据挖掘技术,对乳腺肿瘤诊断方法进行优化。方法:提出连续特征离散化的New-Chi2算法,通过均匀选取类样本的支持向量机(T-SVM)分类方法,对乳腺肿瘤的数据信息进行数据离散化预处理。结果:在乳腺肿瘤诊断中采用该方法,分类预测率达到99.27%,取得了高于传统支持向量机分类器的分类学习精度。结论:采用的方法简化了信息系统,利用T-SVM对预处理后的数据进行分类和测试,可以更准确地识别出肿瘤是良性还是恶性。
-
关键词
数据挖掘
连续属性离散化
支持向量机
乳腺肿瘤诊断
-
Keywords
data mining
discretization for real value attributes
support vector machine
breast neoplasm diagnosis
-
分类号
R737.9
[医药卫生—肿瘤]
-