摘要
传统特征选择方法大部分是以分布均衡的数据为研究对象,以优化总体分类精度为基本目标,所以很少有方法在不平衡数据集上得到理想的学习效果.依据数据的分布特点,提出一种新的面向不平衡数据集的特征选择方法.该方法在无监督环境下,依据聚类簇大小的变化以通过在不同簇的相同特征上对其特征重要性度量函数分配不同的权重来调整数据分布的不均衡性.在多个UCI不平衡数据集上的实验结果表明,相比于其它几种经典的特征选择方法,所提出的方法在不降低总体分类精度的情况下,不仅可以有效选择更少的特征数目,而且还可以提高少数类在不同分类器上的分类精度、召回率及F-Measure值.
The traditional feature selection methods handle data with balanced distribution,aim for getting optimal classification accuracy,so there exist very limited feature selection methods that perform well on imbalance data.This study proposes a new feature selection method based on the character of data distribution for imbalanced data sets.It modifies data distribution for balance by assigning different weights to the function of feature importance measurements according to the variation of the size of clusters in unsupervised learning.Experimental results on several UCI datasets show that the performance of the proposed method outperforms other classic feature selection algorithms.It not only maintains or enhances the classification performance and dimensionality reduction,but also improves the precision,recall and F-Measure of the minor classes on different classifiers.
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第1期63-67,共5页
Journal of Chinese Computer Systems
基金
国家自然科学基金项目(61070061)资助
教育部人文社会科学研究青年项目(11YJCZH086)资助
广东外语外贸大学青年项目(11Q01)资助
广东省高层次人才项目资助
关键词
特征选择
不平衡数据集
聚类
特征重要性度量
feature selection
imbalanced data
clustering
feature importance measure