基于支持向量上采样的不平衡数据分类方法被引量：4

Imbalanced Data Classification Method Based on Support Vector Over-sampling

下载PDF

导出

摘要传统的支持向量机在处理不平衡数据时效果不佳。为了提高少类样本的识别精度,提出了一种基于支持向量的上采样方法。首先根据K近邻的思想清除原始数据集中的噪声;然后用支持向量机对训练集进行学习以获得支持向量,进一步对少类样本的每一个支持向量添加服从一定规律的噪声,增加少数类样本的数目以获得相对平衡的数据集;最后将获得的新数据集用支持向量机学习。实验结果显示,该方法在人工数据集和UCI标准数据集上均是有效的。 Traditional support vector machine has drawbacks in dealing with imbalanced data. In order to improve the recognition accuracy of the minority class, an over-sampling method based on support vector was proposed. Firstly, K nearest neighbor technology is used to remove the noise from the original data set. Support vector machine learning is then used to obtain the support vector. Noise obeying a certain rule is added to each support vectors of the minority class to increase the number of minority class samples in order to obtain the relative balanced data set. Finally, the sup- port vector machine is learned on the new data set. The experimental results show that the proposed method is effective on both artificial data sets and UCI standard data sets.

作者曹路

机构地区五邑大学信息工程学院中山大学数据科学与计算机学院

出处《计算机科学》 CSCD 北大核心 2016年第12期97-100,共4页 Computer Science

基金广东省特色创新类项目(2015KTSCX143) 广东省青年创新人才项目(2015KQN CX172) 江门市科技计划项目(江科[2016]189号江科[2015]138号) 五邑大学青年基金(2013zk07 2015zk11)资助

关键词支持向量采样不平衡数据分类 Support vector, Sampling, Imbalanced data, Classification

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：75
2张枭山,罗强.一种基于聚类融合欠抽样的不平衡数据分类方法[J].计算机科学,2015,42(B11):63-66. 被引量：7
3曹路,王鹏.基于SMOTE采样和支持向量机的不平衡数据分类[J].五邑大学学报（自然科学版）,2015,29(4):27-31. 被引量：2

二级参考文献66

1WU Xin-dong,KUMAR V,QUINLAN J R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2008,14(1):1-37. 被引量：1
2CHAWLA N V,JAPKOWICZ N,KOTCZ A.Editorial:special issue on learning from imbalanced data sets[J].ACM SIGKDD Explorations Newsletter,2004,6(1):1-6. 被引量：1
3HE Hai-bo,GARCIA E A.Learning from imbalanced data[J].IEEE Trans on Knowledge and Data Engineering,2009,21(9):1263-1284. 被引量：1
4TING K M.A comparative study of cost-sensitive boosting algorithms[C]//Proc of the 17th International Conference on Machine Learning.2000:983-990. 被引量：1
5FAN Wei,STOLFO S J,ZHANG Jun-xin,et al.AdaCost:misclassification cost-sensitive boosting[C]//Proc of the 16th International Conference on Machine Learning.1999:97-105. 被引量：1
6SUN Yan-min,KAMEL M S,WONG A K C,et al.Cost-sensitive boosting for classification of imbalanced data[J].Pattern Recognition,2007,40(12):3358-3378. 被引量：1
7GALAR M,FERNNDEZ A,BARRENCHEA E,et al.EUSBoost:enhancing ensembles for highly imbalanced data-sets by evolutionary undersampling[J].Pattern Recognition,2013,46(12):3460-3471. 被引量：1
8JOSHI M V,KUMAR V,AGARWAL R C.Evaluating boosting algorithms to classify rare classes:comparison and improvements[C]//Proc of IEEE International Conference on Data Mining.Washington DC:IEEE Computer Society,2001:257-264. 被引量：1
9GUO Hong-yu,VIKTOR H L.Learning from imbalanced data sets with boosting and data generation:the DataBoost-IM approach[J].SIGKDD Exploration Newsletter,2004,6(1):30-39. 被引量：1
10FREUND Y,SCHAPIRE R.A desicion-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer & System Sciences,1997,55(1):119-139. 被引量：1

共引文献80

1李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
2李勇.结合欠抽样与集成的软件缺陷预测[J].计算机应用,2014,34(8):2291-2294. 被引量：7
3刘宁.一种两层结构集成的协同分类算法[J].微型电脑应用,2015,31(5):33-35.
4李勇.本科机器学习课程教改实践与探索[J].计算机教育,2015(13):63-66. 被引量：24
5闵行,褚晶辉,吕卫.组合降采样极限学习机[J].信息技术,2015,39(11):159-162.
6肖鹰,吴哲夫,张彤,王中友.一种基于特征选择的不平衡数据分类算法[J].集成技术,2016,5(1):68-74. 被引量：5
7孟芸,王喆.矩阵型多类代价敏感分类器模型[J].华东理工大学学报（自然科学版）,2016,42(1):119-124. 被引量：5
8王剑辉,梁路,王彪.基于分支限界的不平衡气象数据晴雨分析[J].计算机应用研究,2016,33(6):1648-1652. 被引量：4
9张金蕾,李梅,张阳,梁春泉,王勇.P-AnDT:平均n依赖决策树的正例未标注学习算法[J].计算机应用研究,2016,33(7):1941-1944. 被引量：2
10杨云,卢美静,穆天红.基于AdaBoost-SVM的葡萄酒品质分类模型优化设计[J].陕西科技大学学报（自然科学版）,2017,35(1):178-182. 被引量：3

同被引文献23

1李玉鑑,孟东霞,桂智明.几何集成的改进——特征边界点快速计算[J].山东大学学报（工学版）,2011,41(4):56-60. 被引量：2
2丁福利,孙立民.处理不平衡样本集的欠采样算法[J].计算机工程与设计,2013,34(12):4345-4350. 被引量：7
3刘艳,钟萍,陈静,宋晓华,何云.用于处理不平衡样本的改进近似支持向量机新算法[J].计算机应用,2014,34(6):1618-1621. 被引量：6
4王刚,王珏,杨善林.电子商务中基于非均衡数据分类和词性分析的意见挖掘研究[J].情报学报,2014,33(3):313-325. 被引量：10
5钟龙申,高学军,王振友.一种新的基于K-means改进SMOTE算法在不平衡数据集分类中的应用[J].数学的实践与认识,2015,45(19):198-206. 被引量：12
6刘凌,郭剑,韩崇.面向不平衡数据的模糊支持向量机[J].计算机技术与发展,2015,25(11):38-43. 被引量：2
7王超学,张涛,马春森.改进SVM-KNN的不平衡数据分类[J].计算机工程与应用,2016,52(4):51-55. 被引量：21
8陈池梅,张林.基于贝叶斯网络的海量数据多维分类学习方法研究[J].计算机应用研究,2016,33(3):689-692. 被引量：4
9刘开旻,吴小俊.一种基于新隶属度函数的模糊支持向量机[J].计算机工程,2016,42(4):155-159. 被引量：16
10衣柏衡,朱建军,李杰.基于改进SMOTE的小额贷款公司客户信用风险非均衡SVM分类[J].中国管理科学,2016,24(3):24-30. 被引量：54

引证文献4

1张雪英,张波,陈桂军.改进的FSVM算法用于非平衡情感数据分类[J].计算机工程与设计,2018,39(11):3544-3548.
2童威,黄启萍.优化BP神经网络在非均衡数据分类中的应用[J].长春工业大学学报,2019,40(3):263-269. 被引量：2
3景炜,丁卫平.基于差空间融合特征选择的SVM算法[J].计算机工程与设计,2019,40(8):2235-2241. 被引量：1
4孟东霞,李玉鑑.融合特征边界信息的不平衡数据过采样方法[J].计算机工程与应用,2020,56(14):156-160.

二级引证文献3

1任楷.基于增量切空间校准的心电图大数据散点图特征选择系统设计[J].电子设计工程,2020,28(22):38-42. 被引量：1
2刘爽,周长才,王昕.基于残差卷积神经网络遥感图像超分辨率重建[J].长春工业大学学报,2021,42(4):333-337. 被引量：1
3马宝霖,胡茜.基于改进SMOTE的不平衡数据分类算法[J].长春工业大学学报,2024,45(3):259-264.

1极速山猫.中高端亮刀！——ATI全新80nm显示核心解析[J].大众软件,2006(22):89-93.
2衡荣.比比就知道普通电脑也能High音乐[J].电脑爱好者,2010(3):54-54.
3比比就知道普通电脑也能High音乐[J].电脑爱好者（普及版）,2011(A01):87-88.
4徐丽丽,闫德勤,高晴.基于聚类欠采样的极端学习机[J].微型机与应用,2015,34(17):81-84. 被引量：5
5刘璐璐.基于多处理器实时调度策略的研究[J].现代电子技术,2013,36(21):124-127.
6林杭.NB 2009年9月[J].数码先锋,2009(9):114-114.
7刘斯远,王博琼.基于优化人力资源成本的软件开发任务调度[J].计算机与现代化,2003(6):89-90. 被引量：1
8龚振.2009年纺织业主要存在的三大不确定性及其导致的三大结果[J].纺织商业周刊,2009(1):20-22.
9张晓兵.加强校园网络信息安全保障[J].信息网络安全,2006(12):34-35. 被引量：3
10刘东明.速度压倒一切——佳能DR-1210C高速扫描仪[J].微电脑世界,2006(12):64-64.

计算机科学

2016年第12期

浏览历史

内容加载中请稍等...

基于支持向量上采样的不平衡数据分类方法被引量：4

参考文献3

二级参考文献66

共引文献80

同被引文献23

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于支持向量上采样的不平衡数据分类方法 被引量：4

参考文献3

二级参考文献66

共引文献80

同被引文献23

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于支持向量上采样的不平衡数据分类方法被引量：4