不平衡数据集的DC-SMOTE过采样方法

DC-SMOTE oversampling method for an imbalanced dataset

下载PDF

导出

摘要针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。 Inspired by the poor performance of imbalanced datasets in classification tasks,an oversampling algorithm based on local density and centrality is proposed.First,for all the minority sample points in the dataset,the Gaussian kernel function and local gravity are used to calculate the local density and centrality,respectively.Furthermore,the first type of new samples is synthesized for the portion with small local density to solve the imbalance problem within this kind.According to the difference of centrality,the boundaries of minority samples are distinguished,and the second kind of samples are specifically synthesized to strengthen the boundaries.Meanwhile,new samples are generated adaptively,which solves the problem that most oversampling algorithms fail to clearly define the oversampling quantity or blindly pursue the balance of the number of samples of two categories.Finally,experiments are conducted on 12 public imbalanced datasets and results reveal that the algorithm has good performance in low-and high-imbalanced datasets.

作者冀常鹏尚佳奇代巍 JI Changpeng;SHANG Jiaqi;DAI Wei(School of Electronic and Information Engineering,Liaoning Technical University,Huludao 125105,China;Graduate School,Liaoning Technical University,Huludao 125105,China)

机构地区辽宁工程技术大学电子与信息工程学院辽宁工程技术大学研究生院

出处《智能系统学报》 CSCD 北大核心 2024年第3期525-533,共9页 CAAI Transactions on Intelligent Systems

关键词不平衡数据集过采样高斯核函数局部引力高不平衡数据合成少数类过采样不平衡度分类 imbalanced dataset oversampling Gaussian kernel local gravity high-imbalanced data SMOTE imbalance ratio classification

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1崔彩霞,曹付元,梁吉业.基于密度峰值聚类的自适应欠采样方法[J].模式识别与人工智能,2020,33(9):811-819. 被引量：10
2王亮,冶继民.整合DBSCAN和改进SMOTE的过采样算法[J].计算机工程与应用,2020,56(18):111-118. 被引量：15
3谢子鹏,包崇明,周丽华,王崇云,孔兵.类不平衡数据的EM聚类过采样算法[J].计算机科学与探索,2023,17(1):228-237. 被引量：6
4平瑞,周水生,李冬.高度不平衡数据的代价敏感随机森林分类算法[J].模式识别与人工智能,2020,33(3):249-257. 被引量：23

二级参考文献10

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2袁兴梅,杨明,杨杨.一种面向不平衡数据的结构化SVM集成分类器[J].模式识别与人工智能,2013,26(3):315-320. 被引量：22
3王超学,张涛,马春森.基于聚类权重分阶段的SVM解不平衡数据集分类[J].计算机工程与应用,2015,51(21):133-137. 被引量：9
4Bo SUN,Haiyan CHEN,Jiandong WANG,Hua XIE.Evolutionary under-sampling based bagging ensemble method for imbalanced data classification[J].Frontiers of Computer Science,2018,12(2):331-350. 被引量：11
5赵楠,张小芳,张利军.不平衡数据分类研究综述[J].计算机科学,2018,45(B06):22-27. 被引量：47
6李阳,马骊,樊锁海.基于动态近邻的DBSCAN算法[J].计算机工程与应用,2016,52(20):80-85. 被引量：7
7陶新民,李晨曦,沈微,常瑞,王若彤,刘艳超.基于密度敏感最大软间隔SVDD不均衡数据分类算法[J].电子学报,2018,46(11):2725-2732. 被引量：6
8向鸿鑫,杨云.不平衡数据挖掘方法综述[J].计算机工程与应用,2019,55(4):1-16. 被引量：54
9石洪波,刘焱昕,冀素琴.基于安全样本筛选的不平衡数据抽样方法[J].模式识别与人工智能,2019,32(6):545-556. 被引量：6
10郭婷,王杰,刘全明,梁吉业.基于识别关键样本点的非平衡数据核SVM算法[J].模式识别与人工智能,2019,32(6):569-576. 被引量：3

共引文献48

1李倩倩,牟永敏,赵晓永.基于随机森林算法的函数缺陷定位[J].科学技术与工程,2020,20(32):13278-13284. 被引量：5
2仲蓓鑫,孔苏鹏,程实,张恒.大数据分析下的助学金发放判断辅助模型[J].软件导刊,2021,20(1):185-190. 被引量：1
3王超然,邵新慧.改进的聚类过采样算法在信用评价中的应用[J].信息与电脑,2021,33(1):45-49.
4宋晓姣,胡媛媛.基于粗糙集的电子商务群体用户访问数据挖掘方法[J].宁夏师范学院学报,2021,42(1):55-60. 被引量：2
5张珏,田建学,董婷.一种基于代价敏感集成决策树的不平衡数据分类方法研究[J].榆林学院学报,2021,31(2):53-55. 被引量：2
6王杰.基于时间序列的体育产业数据精准挖掘模型构建[J].赤峰学院学报（自然科学版）,2021,37(4):29-32. 被引量：1
7周沭玲.基于卷积神经网络的网页信息资源定向抽取方法研究[J].齐齐哈尔大学学报（自然科学版）,2021,37(4):33-37.
8章恒,鞠时光.基于概念漂移检测的网络数据流分类[J].计算机与现代化,2021(7):107-114. 被引量：2
9文龙,师源懋.基于CHMM的物联网应用平台Android程序恶意行为识别[J].自动化与仪器仪表,2021(8):1-4.
10邓明阳,郭应时,刘通.基于分层重组的不平衡数据采样方法研究[J].重庆理工大学学报（自然科学）,2021,35(8):122-128. 被引量：3

1张瑞霖,郑海阳,苗振国,王鸿鹏.基于空间向量分解的边界剥离密度聚类[J].自动化学报,2023,49(6):1195-1213.
2王宇.基于改进的CNN⁃BiLSTM和三支决策的网络入侵检测方法[J].现代计算机,2024,30(7):49-53.
3Yunan Wang,Hao Yang,Zhe Zhang,Xiangying Meng,Tao Cheng,Gaowu Qin,Song Li.Far-from-equilibrium electrosynthesis ramifies high-entropy alloy for alkaline hydrogen evolution[J].Journal of Materials Science & Technology,2023(35):234-240. 被引量：2
4雷明珠,王浩,贾蓉,白琳,潘晓英.基于特征间关系合成少数类样本的过采样算法[J].计算机应用,2024,44(5):1428-1436. 被引量：1
5鲁玲,高诚,熊威,龚康,马辉,张鑫.基于CD-BSMOTE的D-S证据融合变压器故障诊断[J].水电能源科学,2024,42(5):192-196.
6Jing-Qiang Guo,Jia-Hui Zhou,Kun Zhang,Xin-Liang Lv,Chao-Yong Tu.Clinical review and literature analysis of hepatic epithelioid angiomyolipoma in alcoholic cirrhosis: A case report[J].World Journal of Clinical Cases,2024,12(14):2382-2388.
7李继刚,许文荣,许峰,王汉东,戴芳,张晓品,张明明.人工阅读DL-Bt64血培养系统不典型生长曲线在筛选血培养假阴性标本中的价值[J].临床检验杂志,2024,42(5):384-388.
8Behnam Rabiee,Muhamad Festok,Michael Gaspari,Abid Haseeb,Aaila Chaudhry,Layla Kamoun,Imtiaz Chaudhry,Iftikhar Chaudhry.Combinative approach of transzonular triamcinolonemoxifloxacin and perioperative drops to minimize postoperative complications of cataract surgery[J].International Journal of Ophthalmology(English edition),2024,17(5):845-851.
9曹昭乐.从单向到协同:美国研究生学位授权审核中的大学自主性[J].黑龙江高教研究,2024,42(6):87-93.
10Qi Chen,Yue Zhou,Weiwei Xiong,Zirui Chen,Yasai Wang,Xiangshui Miao,Yuhui He.Complementary memtransistors for neuromorphic computing: How, what and why[J].Journal of Semiconductors,2024,45(6):64-80.

智能系统学报

2024年第3期

浏览历史

内容加载中请稍等...

不平衡数据集的DC-SMOTE过采样方法

参考文献4

二级参考文献10

共引文献48

相关作者

相关机构

相关主题

浏览历史