不平衡数据的无监督特征选择方法被引量：8

Unsupervised Feature Selection Method for Imbalanced Data

下载PDF

导出

摘要传统特征选择方法大部分是以分布均衡的数据为研究对象,以优化总体分类精度为基本目标,所以很少有方法在不平衡数据集上得到理想的学习效果.依据数据的分布特点,提出一种新的面向不平衡数据集的特征选择方法.该方法在无监督环境下,依据聚类簇大小的变化以通过在不同簇的相同特征上对其特征重要性度量函数分配不同的权重来调整数据分布的不均衡性.在多个UCI不平衡数据集上的实验结果表明,相比于其它几种经典的特征选择方法,所提出的方法在不降低总体分类精度的情况下,不仅可以有效选择更少的特征数目,而且还可以提高少数类在不同分类器上的分类精度、召回率及F-Measure值. The traditional feature selection methods handle data with balanced distribution,aim for getting optimal classification accuracy,so there exist very limited feature selection methods that perform well on imbalance data.This study proposes a new feature selection method based on the character of data distribution for imbalanced data sets.It modifies data distribution for balance by assigning different weights to the function of feature importance measurements according to the variation of the size of clusters in unsupervised learning.Experimental results on several UCI datasets show that the performance of the proposed method outperforms other classic feature selection algorithms.It not only maintains or enhances the classification performance and dimensionality reduction,but also improves the precision,recall and F-Measure of the minor classes on different classifiers.

作者蒋盛益王连喜

机构地区广东外语外贸大学信息学院广东外语外贸大学图书馆

出处《小型微型计算机系统》 CSCD 北大核心 2013年第1期63-67,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61070061)资助教育部人文社会科学研究青年项目(11YJCZH086)资助广东外语外贸大学青年项目(11Q01)资助广东省高层次人才项目资助

关键词特征选择不平衡数据集聚类特征重要性度量 feature selection imbalanced data clustering feature importance measure

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献24

1Liu H, Setiono R. A probabilistic approach to feature selection-a filter solution [ C ]. In Proceedings of the 13th International Confer- ence on Machine Learning, San Francisco, CA: Morgan Kauf- mann, 1996: 319-327. 被引量：1
2Asuncion A, Newman D. UCI machine learning repository [ DB/ OL ]. http ://www. ics. uci. edu/- rnlearn/MLRepository, html, 2007. 被引量：1
3Jiang S, Wang L. Unsupervised feature selection based on cluste- ring[C]. In IEEE Fifth International Conference on Bio-Inspired Computing : Theories and Applications ( BIC-TA ), Washington : IEEE Computer Society, 2010, 9: 263-270. 被引量：1
4Jiang S Y, Li X, Zheng Q, et al. Approximate equal frequency discretizafion method[ A]. Proceeding of Global Congress on In- telligent Systems [ C ], Washington : IEEE Computer Society, 2009: 514-518. 被引量：1
5任双桥,傅耀文,黎湘,庄钊文.基于分类间隔的特征选择算法[J].软件学报,2008,19(4):842-850. 被引量：14
6Zhou Z, Liu X. Training cost-sensitive neural networks with meth- ods addressing the class imbalance problem [ J ]. 1EEE Transac- tions on Knowledge and Data Engineering ,2006,18 (1) :63-77. 被引量：1
7Lin Zhi-yong, Hao Zhi-feng, Yang Xiao-wei. Effects of several e- valuation metrics on imbalanced data learning[ J]. Journal of South China University of Technology (Natural Science Edition), 2010, 38(4) : 147- 155. 被引量：1
8Alibeigi M, Hashemi S, Hamzeh A. Unsupervised feature selec- tion based on the distribution of features attributed to imbalanced data sets [ J ]. International Journal of Artificial Intelligence and Expert Systems, 2011, 2(1) : 136-144. 被引量：1
9Barandels R, SANCHEZ J S, GARC V. Strategies for learning in class imbalance problems [ J ]. Pattern Recognition, 2003, 36 ( 3 ) : 849-851. 被引量：1
10Fayyad U, Irani B. Multi-interval discretization of continuous val- ued attributes for classification leaning[ C]. In: Thirteenth Interna- tional Joint Conference on Artificial Intelligence, Morgan Kanf- mann, 1993: 1022-1027. 被引量：1

二级参考文献55

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
3张丽新,王家廞,赵雁南,杨泽红.基于Relief的组合式特征选择[J].复旦学报（自然科学版）,2004,43(5):893-898. 被引量：44
4王颖,谢剑英.一种自适应蚁群算法及其仿真研究[J].系统仿真学报,2002,14(1):31-33. 被引量：232
5刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
6李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
7刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
8张纪会徐心和.带遗忘因子的蚁群算法[J].系统仿真学报,2000,(2). 被引量：4
9Kohavi R, John G. Wrappers for feature subset selection [J]. Artificial Intelligence (S0004-3702), 1997, 97(1-2): 273-324. 被引量：1
10Tahir MA, Bouridane A, Kurugollu F. Simultaneous feature selection and feature weighting using Hybrid Tabu Search/K-nearest neighbor classifier [J]. Pattern Recognition Letters (S0167-8655), 2007, 28(4): 438-446. 被引量：1

共引文献63

1李云,张腾飞,杨文杰.基于K近邻分类间隔的特征选择方法研究[J].南京邮电大学学报（自然科学版）,2009,29(6):68-74. 被引量：2
2郑敏姜.基于数据立方体的特征提取方法[J].福建电脑,2010,26(3):18-20.
3曾强,杨育,王小磊,赵川.大型工程项目任务多目标优化调度方法[J].计算机工程与应用,2010,46(24):217-221. 被引量：9
4陈森平,陈启买,游才文,彭利宁.基于最大间隔的支持向量机特征选取算法研究[J].华南师范大学学报（自然科学版）,2010,42(4):38-42. 被引量：1
5郭旭,张丽杰.人体姿态特征选择方法的研究与实现[J].计算机工程,2011,37(4):184-186.
6杨艺,韩德强,韩崇昭.基于排序融合的特征选择[J].控制与决策,2011,26(3):397-401. 被引量：13
7陈金坦,康恒政,杨燕,周伟雄.一种用于不平衡数据的分类算法[J].山东大学学报（工学版）,2011,41(2):96-101. 被引量：1
8徐红国,王素格.基于改进的类别分布特征选择方法[J].中北大学学报（自然科学版）,2011,32(2):139-142.
9曹鼎,罗军勇,尹美娟.基于变长元组的文件类型识别算法[J].计算机应用,2011,31(7):1894-1897. 被引量：1
10李霞,王连喜,蒋盛益.面向不平衡问题的集成特征选择[J].山东大学学报（工学版）,2011,41(3):7-11. 被引量：5

同被引文献79

1徐启圣,李柱国.基于层次分析法的油液诊断特征属性的选择[J].上海交通大学学报,2006,40(8):1354-1359. 被引量：9
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
3搜狗实验室.文本分类语料库[EB/OL].[2008-07-20].http://www.sogou.com/labs/dl/c.html. 被引量：5
4杨淑莹.模式识别与智能计算[M].北京:电子工业出版社,2011. 被引量：7
5Anand S,Griffths N.A Market-based Approach to Address the New Item Problem[C].In:Proceedings of the 5th ACM Conference on Recommender Systems,ACM Press,New York,2011:205-212. 被引量：1
6Pan S,Yang Q.A Survey on Transfer Learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,(22):1345-1359. 被引量：1
7YANG Q, WU X D. 10 challenging problems in data mining research [ J]. International Journal of Inforamtion Technology & Decision Making, 2006, 5:597 -604. 被引量：1
8BREIMAN L. Random forests [ J ]. Machine Learning, 2001, 45(1) : 5 -32. 被引量：1
9GENUER R, POGGI J M, TULEAU-MALOT C. Varia- ble selection using random forests [ J ]. Pattern Recogni- tion Letters, 2010, 31(14): 2225-2236. 被引量：1
10ASUNCION A, NEWMAN D. UCI machine learning re- pository [ G]. [ 2014 - 04 - 30 ]. http://archive. ics. uci. edu/ml/. 被引量：1

引证文献8

1王连喜.图书馆个性化推荐面临的问题与挑战[J].现代情报,2013,33(6):3-5. 被引量：7
2谭台哲,叶青,尚鹏.基于局部重构的无监督特征选择方法[J].计算机应用研究,2014,31(9):2828-2831. 被引量：5
3尹华,胡玉平.基于随机森林的不平衡特征选择算法[J].中山大学学报（自然科学版）,2014,53(5):59-65. 被引量：32
4翟俊海,苗青,李塔,王熙照.概率神经网络样例选择算法[J].小型微型计算机系统,2015,36(4):787-791. 被引量：2
5李湘东,曹环,黄莉.基于分布偏斜训练集的特征选择方法研究[J].情报理论与实践,2015,38(4):139-144. 被引量：2
6刘帅,杨英杰,刘武越.一种面向聚类的加权特征选择算法[J].计算机应用研究,2015,32(12):3596-3599. 被引量：1
7石新发,刘东风,周志才,杨琨.基于PSO聚类和特征贡献度的油液监测信息特征选择方法[J].润滑与密封,2016,41(1):86-89. 被引量：7
8张静,王树梅.基于再生核希尔伯特空间映射的高维数据特征选择优化算法[J].计算机应用研究,2016,33(12):3539-3542. 被引量：6

二级引证文献59

1田之魁,王东军,李生启,关媛媛,孙璇,朱青青,王泓午.一种糖尿病足Wagner分级的舌图像识别方法[J].世界科学技术-中医药现代化,2023,25(4):1442-1446. 被引量：2
2吴雨纾,田淼.基于实践调查的大学生新媒体编辑素养提升路径探究[J].人文之友,2019,0(13):136-137.
3左军,周灵,孙亚民.分级在线自组织学习的GD-FNN算法研究[J].中山大学学报（自然科学版）,2015,54(3):26-29.
4刘帅,杨英杰,刘武越.一种面向聚类的加权特征选择算法[J].计算机应用研究,2015,32(12):3596-3599. 被引量：1
5罗超.面向高维数据的随机森林算法优化探讨[J].商,2016,0(4):207-207. 被引量：1
6脱倩娟,赵红.基于局部邻域嵌入的无监督特征选择[J].郑州大学学报（理学版）,2016,48(3):57-62. 被引量：2
7黄章树,叶志龙.基于改进的CHI统计方法在文本分类中的应用[J].计算机系统应用,2016,25(11):136-140. 被引量：13
8阚红星,张璐瑶,董昌武.一种2型糖尿病中医证型的舌图像识别方法[J].中国生物医学工程学报,2016,35(6):658-664. 被引量：30
9田荣.不同运动优化下肥胖人群心肺耐力建模仿真[J].计算机仿真,2016,33(12):342-345. 被引量：2
10秦恺.不完全语义认知过程中信息特征正确识别仿真[J].计算机仿真,2017,34(2):242-245. 被引量：6

1田原,杨海军,梁德群,王红光,吴更石.基于神经网络和点的重要性度量的边缘提取方法[J].电子科学学刊,2000,22(2):247-252. 被引量：1
2张启忠,罗志增.粗集理论在信息融合中的应用[J].机电工程,2001,18(5):29-31.
3徐祥生.基于校园网的无线覆盖和接入的建设方法探讨[J].安阳工学院学报,2012,11(6):52-54.
4魏峰,王文成,吴恩华.体数据可视化的线绘制视频[J].计算机学报,2006,29(12):2086-2095.
5韩伟,沈霄凤,王云.信息系统的属性重要性度量及知识约简算法比较[J].华东师范大学学报（自然科学版）,2004(3):131-134. 被引量：2
6付兴,王冰,李健,刘庆龙.现代电力系统自动化技术[J].山东工业技术,2016(1):168-168. 被引量：1
7郭戈,平西建,张涛.基于概念选择和重要性度量的多模态语义融合[J].应用科学学报,2010,28(3):266-270. 被引量：1
8罗毅辉,熊曙初,王四春,范强.无监督环境下基于聚类集成的特征选择[J].微计算机信息,2008,24(9):265-267. 被引量：2
9黄大荣,黄席樾,向长城.决策系统故障预测的粗糙集方法[J].计算机仿真,2006,23(1):89-91. 被引量：5
10姜淑娟,鞠小林,王兴亚,李海洋,张艳梅,刘颖祺.基于UIO序列的类重要性度量[J].电子学报,2015,43(10):2062-2068. 被引量：2

小型微型计算机系统

2013年第1期

浏览历史

内容加载中请稍等...

不平衡数据的无监督特征选择方法被引量：8

参考文献24

二级参考文献55

共引文献63

同被引文献79

引证文献8

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

不平衡数据的无监督特征选择方法 被引量：8

参考文献24

二级参考文献55

共引文献63

同被引文献79

引证文献8

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

不平衡数据的无监督特征选择方法被引量：8