密度不均衡数据分类算法被引量：8

A Classification Algorithm for Imbalanced Dataset of Sample Density

下载PDF

导出

摘要针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数,然后利用K-means聚类算法对多数类样本进行聚类,用聚类所得类中心作为样本集取代原多数类样本集,最后对新构造的训练集进行训练得到最终决策函数。其实验结果表明,该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能。 In order to resolve the classifiers' over fitting phenomenon to enhance classification performance,a new algorithm based on sample density is proposed for imbalanced data classification. Firstly,it computes the density of samples and the density of every class. Then it works out the number of class with cluster algorithm according to the relation of sample density of every class. Then it clusters the samples of majority class using K-means algorithm with above class number. The cluster centers are treated as the new samples and then a new training dataset is constructed with the new samples and minority dataset. According to the new training dataset,we can get the decision function. The method may resolve the problem of imbalanced dataset and improve the classification performance of SVM. Results of experiments with artificial dataset and six groups of UCI dataset show that the algorithm is effective for imbalanced dataset,especially for the minority class samples.

作者杜红乐张燕

机构地区商洛学院数学与计算机应用学院

出处《西华大学学报（自然科学版）》 CAS 2015年第5期16-23,74,共9页 Journal of Xihua University:Natural Science Edition

基金陕西省自然科学基金项目(2014JM2-6122) 陕西省教育厅科技计划项目(12JK0748) 商洛学院科学与技术研究项目(13sky024)

关键词支持向量机不均衡数据集样本密度欠取样 K-近邻 support vector machine imbalanced dataset sample density under-sampling K-nearest neighbor

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：63
2曾志强,吴群,廖备水,高济.一种基于核SMOTE的非平衡数据集分类方法[J].电子学报,2009,37(11):2489-2495. 被引量：48
3楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
4林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
5陶新民,郝思媛,张冬雪,徐鹏.核聚类集成失衡数据SVM算法[J].哈尔滨工程大学学报,2013,34(3):381-388. 被引量：5
6陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
7陶新民,张冬雪,郝思媛,付丹丹.基于谱聚类欠取样的不均衡数据SVM分类算法[J].控制与决策,2012,27(12):1761-1768. 被引量：28
8杨智明,彭宇,彭喜元.基于支持向量机的不平衡数据集分类方法研究[J].仪器仪表学报,2009,30(5):1094-1099. 被引量：16
9陶新民,童智靖,刘玉,付丹丹.基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J].控制与决策,2011,26(10):1535-1541. 被引量：22
10曹鹏,李博,栗伟,赵大哲.基于概率分布估计的混合采样算法[J].控制与决策,2014,29(5):815-820. 被引量：6

二级参考文献160

1张琦,吴斌,王柏.非平衡数据训练方法概述[J].计算机科学,2005,32(10):181-186. 被引量：10
2GONG Maoguo,DU Haifeng,JIAO Licheng.Optimal approximation of linear systems by artificial immune response[J].Science in China(Series F),2006,49(1):63-79. 被引量：21
3刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
4VAPNIK V. The nature of statistical learning theory [ M ]. Springer-Verlag, NY, 2000 : 138-167. 被引量：1
5IMAM T, TING K M, KANMRUZZAMAN J. z-SVM: An SVM for improved classification of imbalanced data [A]. Australian Joint Conference on AI[C]. Hobart, Australia: Springer, 2006:264-273. 被引量：1
6WU G, CHANG E. Class-boundary alignment for imbalanced dataset learning [ A ]. Workshop on learning from imbalanced data sets Ⅱ, ICML [ C ]. Washington, DC: AAAI Press, 2003:49-56. 被引量：1
7CHAWLA N, BOWYER K, Hall L, et al. SMOTE: Synthetic minority over-sampling technique [ J ]. Journal of Artificial Intelligence Research, 2002,16( 1 ) :321-357. 被引量：1
8KUBAT M, MATWIN S. Addressing the curse of imbalanced training sets: one-sided selection [ A ]. Proc. of the 14th International Conference on Machine Learning [ C ]. San Francisco, CA: Morgan Kaufmann 1997: 217-225. 被引量：1
9CRISTIANINI N, KANDOLA J, ELISSEEFF A, et alJ. On kernel target alignment[ A]. Proceedings of the Neural Information Processing Systems [ C ]. Shanghai, China: The MIT Press, 2001:367-373. 被引量：1
10VEROPOULOS K, CAMPBELL C, CRISTIANINI N. Controlling the sensitivity of support vector machines [ A ]. Proceedings of the International Joint Conference on AI [ C]. San Francisco, CA: Morgan Kaufmann, 1999:55-60. 被引量：1

共引文献250

1程凤伟.基于划分融合的非平衡SVM分类算法[J].山西大学学报（自然科学版）,2021,44(1):56-61.
2万磊,佟鑫,盛明伟,秦洪德,唐松奇.Softmax分类器深度学习图像分类方法应用综述[J].导航与控制,2019,0(6):1-9. 被引量：60
3张红梅.基于随机子空间PCA-SVM集成的实时入侵检测系统[J].仪器仪表学报,2009,30(12):2680-2684. 被引量：8
4刘大同,彭宇,彭喜元,于江,陈强.一种分段在线支持向量回归算法[J].仪器仪表学报,2010,31(8):1732-1737. 被引量：16
5姜万录,吴胜强.基于SVM和证据理论的多数据融合故障诊断方法[J].仪器仪表学报,2010,31(8):1738-1743. 被引量：58
6王庆荣,郑丽英.基于混合比例方法抽样用于入侵检测[J].兰州交通大学学报,2011,30(1):10-12. 被引量：1
7王晓娟.一种改进的SMOTE过采样方法[J].福建电脑,2011,27(6):145-146.
8吴克寿,曾志强.非平衡数据集分类研究[J].计算机技术与发展,2011,21(9):39-42. 被引量：5
9陶新民,童智靖,刘玉,付丹丹.基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J].控制与决策,2011,26(10):1535-1541. 被引量：22
10朱明,陶新民.基于随机下采样和SMOTE的不均衡SVM分类算法[J].信息技术,2012,36(1):39-43. 被引量：12

同被引文献67

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2陈燕俐,洪龙,金达文,朱梧槚.一种简单有效的基于密度的聚类分析算法[J].南京邮电学院学报（自然科学版）,2005,25(4):24-29. 被引量：8
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1069
4曾依灵,许洪波,白硕.改进的OPTICS算法及其在文本聚类中的应用[J].中文信息学报,2008,22(1):51-55. 被引量：29
5WANG W ei, YANG Jiong, MUNTZ Richard. STING:A StatisticalInformation Grid Approach to Spatial Data Mining [C] / / Athens Proceedingsof the 23rd Conference on CLDB. [S. 1.] :IEEE ,1997 :186 - 195. 被引量：1
6Tran T N , Drab K , Daszykowski M. Revised DBSCAN Algorithmto Cluster Data with Dense Adjacent Clusters [J] . Chemometrics &Intelligent Laboratory Systems, 2013, 1 2 0 (2 ) :92. 被引量：1
7HUANGDarong, WANG Peng. Grid - based DBSCAN Algorithmwith Referential Parameters[J] . Pthysics Procedia,2012 :24 : 1166. 被引量：1
8Amineh A m in i,The Ying Wah, Mahmoud Reza Saybani, etal. A Study of Density - grid Based Clustering Algorithms on DataStreams [C] / / Eighth International Conference on Fuzzy Systems andKnowledge Discovery. [S. 1.] :IEEE, 2011 :1652 - 1656. 被引量：1
9SELIM Mimariglu, EMIN Aksehirli. Improving DBSCAN 5 sExecution Time by Using a Pruning Technique on Bit Vector[J] . PatternRecognition Letters ,2011 ,32 : 1572. 被引量：1
10宋浩远.基于模型的聚类方法研究[J].重庆科技学院学报（自然科学版）,2008,10(3):71-73. 被引量：13

引证文献8

1冯玲,刘克剑,唐福喜,孟庆瑞.一种基于网格查询的改进DBSCAN算法[J].西华大学学报（自然科学版）,2016,35(5):25-29. 被引量：8
2杜红乐,张燕.动态代价支持向量机增量学习算法[J].商洛学院学报,2017,31(2):1-5. 被引量：3
3杜红乐,张燕,李楠.基于信息反馈的半监督支持向量机算法[J].计算机系统应用,2017,26(6):118-123. 被引量：1
4张燕,杜红乐.结合动态代价和协同标注的网络异常检测[J].计算机科学与探索,2017,11(11):1775-1782. 被引量：2
5张燕.基于协同增量支持向量机的网络入侵检测[J].河南科学,2018,36(1):11-16. 被引量：2
6杜红乐,张燕.基于聚类和协同标注的TSVM算法[J].河南科学,2017,35(1):22-27. 被引量：4
7黄勇,魏乐.一种针对不均衡数据集的SVM决策树算法[J].成都信息工程大学学报,2019,34(3):274-277. 被引量：2
8邓钰芳.不平衡的乳腺癌数据生存预测模型研究[J].科学大众（科技创新）,2021(10):302-303.

二级引证文献20

1李世祥,曹艳玲.粒子群优化在自然语言处理中的文本和情感分类研究（英文）[J].机床与液压,2018,46(24):150-155. 被引量：1
2杜红乐,张燕.基于Tri-training直推式支持向量机算法[J].河南科学,2017,35(7):1032-1036.
3杜红乐,张燕.代价敏感的直推式支持向量机算法[J].河南科学,2017,35(8):1227-1231.
4张燕.基于协同增量支持向量机的网络入侵检测[J].河南科学,2018,36(1):11-16. 被引量：2
5韩利钊,钱雪忠,罗靖,宋威.基于区域划分的DBSCAN多密度聚类算法[J].计算机应用研究,2018,35(6):1668-1671. 被引量：30
6邢煦然,赵宏钟,贾鑫.采用DBSCAN改进的矩阵束极点提取算法[J].雷达科学与技术,2018,16(3):327-332. 被引量：3
7裴斐,金秋.开放式公共网络突变性损耗自动检测仿真[J].计算机仿真,2019,36(3):368-370.
8高攀,田浩,李健,陶汉涛,王钊,姜志博.基于改进DBScan算法的雷暴挖掘与研究[J].高压电器,2019,55(4):169-177. 被引量：6
9赵俊杰,黄四牛,吴正午,王帅.基于聚类分析的不均衡数据标注技术研究[J].计算机仿真,2020,37(2):476-480. 被引量：3
10韩光威,顾力伟,刘咏.基于Mean Shift算法的多目标识别与仿真[J].舰船电子对抗,2020,43(2):61-64.

1艾英山,张德贤.基于聚类和密度的KNN分类器训练样本约减方法[J].计算机与数字工程,2009,37(5):10-12.
2钟将,刘荣辉.一种改进的KNN文本分类[J].计算机工程与应用,2012,48(2):142-144. 被引量：27
3黎俊锋,朱锋峰.基于样本密度的FCM改进算法[J].科学技术与工程,2007,7(4):636-638. 被引量：12
4曹鹏,李博,栗伟,赵大哲.基于粒子群优化的不均衡数据学习[J].计算机应用,2013,33(3):789-792. 被引量：5
5曹鹏,栗伟,赵大哲.面向不均衡数据集的ARSGOS算法[J].小型微型计算机系统,2014,35(4):818-823. 被引量：3
6王晓东,秦超英.基于径向基神经网络的目标识别研究[J].西南民族大学学报（自然科学版）,2006,32(1):195-198.
7刘凌,郭剑,韩崇.面向不平衡数据的模糊支持向量机[J].计算机技术与发展,2015,25(11):38-43. 被引量：2
8刘应东,牛惠民.基于K-均值聚类的小样本集KNN分类算法[J].计算机应用与软件,2011,28(5):112-113. 被引量：10
9安金龙,王正欧,马振平.基于密度法的模糊支持向量机[J].天津大学学报（自然科学与工程技术版）,2004,37(6):544-548. 被引量：17
10付长龙,吕彦波,姚全珠,杜旭辉.基于样本密度的SVM及其在入侵检测中的应用[J].计算机应用,2007,27(4):838-840. 被引量：1

西华大学学报（自然科学版）

2015年第5期

浏览历史

内容加载中请稍等...

密度不均衡数据分类算法被引量：8

参考文献12

二级参考文献160

共引文献250

同被引文献67

引证文献8

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

密度不均衡数据分类算法 被引量：8

参考文献12

二级参考文献160

共引文献250

同被引文献67

引证文献8

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

密度不均衡数据分类算法被引量：8