-
题名多子域隔离学习组合决策用于不均衡样本
被引量:2
- 1
-
-
作者
靳燕
彭新光
-
机构
山西大学商务学院信息学院
太原理工大学计算机科学与技术学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第9期2475-2480,共6页
-
基金
山西省自然科学基金资助项目(2010011022-2)
山西省高等学校科技创新项目(20131112)
山西大学商务学院科研基金资助项目(2014010)
-
文摘
为进一步弱化数据不均衡对分类算法的束缚,从数据集区域分布特性着手,提出了不均衡数据集上基于子域学习的复合分类模型。子域划分阶段,扩展支持向量数据描述(SVDD)算法给出类的最小界定域,划分出域内密集区与域外稀疏区。借鉴不同类存在相似样本的类重叠概念,对边界样本进行搜索,组合构成重叠域。子域清理阶段,基于邻近算法(KNN)的邻近性假设,结合不同域的密疏程度,设置样本有效性参数,对域内样本逐个检测以清理噪声。各子域隔离参与分类建模,按序组合产生出用于不均衡数据集的复合分类器CCRD。在相似算法对比以及代价敏感Meta Cost对比中,CCRD对正类的正确分类改善明显,且未加重负类误判;在SMOTE抽样比较中,CCRD改善了负类的误判情形,且未影响正类的正确分类;在五类数据集的逐个比较中,CCRD分类性能均有提升,在Haberman_sur的正类分类性能提升上尤为明显。结果表明,基于子域学习的复合分类模型的分类性能较好,是一种研究不均衡数据集的较有效的方法。
-
关键词
不均衡数据集区域分布
支持向量数据描述
稀疏域与重叠域
子域隔离学习
复合分类器
-
Keywords
regional distribution of imbalanced class
Support Vector Data Description (SVDD)
sparse and overlappingdomains
leaning classifiers on multiple isolated subdomains
Composite Classification model (CCRD)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-