一种基于密度的SMOTE方法研究被引量：9

Research on the SMOTE method based on density

下载PDF

导出

摘要重采样技术在解决非平衡类分类问题上得到了广泛的应用。其中,Chawla提出的SMOTE(Synthetic Minority Oversampling Technique)算法在一定程度上缓解了数据的不平衡程度,但这种方法对少数类数据不加区分地进行过抽样,容易造成过拟合。针对此问题,本文提出了一种新的过采样方法:DS-SMOTE方法。DS-SMOTE算法基于样本的密度来识别稀疏样本,并将其作为采样过程中的种子样本;然后在采样过程中采用SMOTE算法的思想,在种子样本与其k近邻之间产生合成样本。实验结果显示,DS-SMOTE算法与其他同类方法相比,准确率以及G值有较大的提高,说明DS-SMOTE算法在处理非平衡数据分类问题上具有一定优势。 In recent years, over-sampling has been widely used in the field of classification of imbalanced classes. The SMOTE（Synthetic Minority Oversampling Technique） algorithm, presented by Chawla, alleviates the degree of data imbalance to a certain extent, but can lead to over-fitting. To solve this problem, this paper presents a new sampling method, DS-SMOTE, which identifies sparse samples based on their density and uses them as seed samples in the process of sampling. The SMOTE algorithm is then adopted, and a synthetic sample is generated between the seed sample and its k neighbor. The proposed algorithm showed great improvement in precision and G-mean compared with similar al- gorithms, and it has advantage of treating imbalanced data classification.

作者王俊红段冰倩

机构地区山西大学计算机与信息技术学院

出处《智能系统学报》 CSCD 北大核心 2017年第6期865-872,共8页 CAAI Transactions on Intelligent Systems

基金国家自然科学基金项目(61772323 61402272) 山西省自然科学基金项目(201701D121051)

关键词非平衡分类采样准确率密度 imbalance classification sampling precision density

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1钱洪波,贺广南.非平衡类数据分类概述[J].计算机工程与科学,2010,32(5):85-88. 被引量：17
2翟云,王树鹏,马楠,杨炳儒,张德政.基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法[J].电子学报,2014,42(7):1311-1319. 被引量：18
3杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：31

二级参考文献56

1Weiss G M. Mining with Rarity:A Unifying Framework[J]. SIGKDD Explorations, 2004,6(1) :7-19. 被引量：1
2Weiss G M. Learning with Rare Cases and Small Disjunets [C]//Proc of the 12th Int'l Conf on Machine Learning, 1995:558-565. 被引量：1
3Japkowicz N, Stephen S. The Class Imbalance Problem: A Systematic Study[J]. Intelligent Data Analysis Journal, 2002,6(5) :429 450. 被引量：1
4Chawla N V, Bowyer K W, Hall I. O, et al. SMOTE: Synthetic Minority Over-Sampling Technique[J]. Journal of Artificial Intelligence Research, 2002,16(6) : 321-357. 被引量：1
5Kubat M, Matwin S. Addressing the Curse of Imbalanced Data Sets:One Sided Sampling[C]//Proc of the 14th Int'l Conf on Machine Learning, 1997:179-186. 被引量：1
6Chawla N, Lazarevic A, Hall L, et al. SMOTEBoost: Improving Prcdiction of the Minority Class in Boosting[C]// Proc of the 7th European Conf on Principles and Practice of Knowledge Discovery in Databases, 2003 : 107-119. 被引量：1
7Fan W, Stofol S, Zhang J X. AdaCost: Misclassification Cost Sensitive Boosting[C]//Proc of the 16th Int'l Conf on Machine Learning, 1999: 97-105. 被引量：1
8Joshi M V, Agarwal R C, Kumar V. Predicting Rare Classes: Can Boosting Make any Weak Learner Strong[C]//Proc of the 8th ACM SIGKDD Int'l Conf on Knowledge Discovery and Data Mining, 2002:297-306. 被引量：1
9Zheng Z H, Srihari R. Optimally Combining Positive and Negative Features for Text Categorization[C]//Proc of the Int'l Conf on Machine Learning, 2003 : 241-245. 被引量：1
10Raskutti A, Kowalczyk A. Extreme Rebalancing for SVMs: a SVM Study[J]. SIGKDD Explorations, 2004,6 (1): 60-69. 被引量：1

共引文献62

1张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63. 被引量：1
2王慧燕,徐珊.基于贝叶斯分类器的脉象自动识别方法[J].中国生物医学工程学报,2009,28(5):735-742. 被引量：3
3谷琼,蔡之华,朱莉,王贤明.新型混合重取样算法在岩爆预测中的应用[J].地球科学（中国地质大学学报）,2010,35(2):311-316.
4谷琼,王贤明,李文新.基于非均衡数据集的新型混合重取样算法[J].武汉理工大学学报,2010,32(20):55-60. 被引量：1
5陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
6张永,李卓然,刘小丹.基于主动学习SMOTE的非均衡数据分类[J].计算机应用与软件,2012,29(3):91-93. 被引量：23
7徐飞,郑长江,杨成,陈淑燕.基于重采样的交通拥挤识别方法[J].公路交通科技,2012,29(11):140-144. 被引量：1
8王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
9楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
10王帅,邢延,蔡延光,李格人.基于OpenShift的非均衡数据完整性评估[J].电脑编程技巧与维护,2014(2):36-38.

同被引文献73

1张宇,刘雨东,计钊.向量相似度测度方法[J].声学技术,2009,28(4):532-536. 被引量：133
2陶新民,刘福荣,童智靖,杨立标.不均衡数据下基于SVM的故障检测新算法[J].振动与冲击,2010,29(12):8-12. 被引量：21
3陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
4李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：64
5刘大维,陆明涛.中国居民体育运动参与的二项逻辑回归分析[J].武汉体育学院学报,2012,46(2):48-53. 被引量：15
6黄浩,何钦铭,陈奇,钱烽,何江峰,马连航.基于加权边界度的稀有类检测算法[J].软件学报,2012,23(5):1195-1206. 被引量：6
7王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
8袁兴梅,杨明,杨杨.一种面向不平衡数据的结构化SVM集成分类器[J].模式识别与人工智能,2013,26(3):315-320. 被引量：22
9楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
10胡小生,张润晶,钟勇.两层聚类的类别不平衡数据挖掘算法[J].计算机科学,2013,40(11):271-275. 被引量：6

引证文献9

1王皓晔,刘世娟.基于Logistic回归的用户支付偏好的影响因素分析[J].内蒙古科技与经济,2018(14):45-46. 被引量：1
2魏浩,李红,刘小豫.一种改进的SMOTE算法[J].河南科学,2018,36(7):1009-1013. 被引量：3
3陈虹,肖越,肖成龙,陈建虎.融合最大相异系数密度的SMOTE算法的入侵检测方法[J].信息网络安全,2019(3):61-71. 被引量：3
4夏英,李刘杰,张旭,裴海英.基于层次聚类的不平衡数据加权过采样方法[J].计算机科学,2019,46(4):22-27. 被引量：11
5包志强,胡啸天,赵研,赵媛媛,黄琼丹.基于改进堆叠泛化算法的电信套餐预测[J].西安邮电大学学报,2019,24(2):98-104.
6周晓敏,曹付元,余丽琴.一种基于样本分层的双向过采样方法[J].计算机科学,2019,46(12):83-88. 被引量：5
7蒋华,江日辰,王鑫,王慧娇.ADASYN和SMOTE相结合的不平衡数据分类算法[J].计算机仿真,2020,37(3):254-258. 被引量：16
8熊炫睿,陈高升,熊炼,张媛,程占伟,付明凯.基于簇内样本平均分类错误率的混合采样算法[J].小型微型计算机系统,2021,42(8):1683-1687. 被引量：3
9臧晶,张经纬.基于时间序列的异常检测算法的研究[J].科技资讯,2023,21(10):225-228. 被引量：2

二级引证文献43

1程凤伟.基于划分融合的非平衡SVM分类算法[J].山西大学学报（自然科学版）,2021,44(1):56-61. 被引量：1
2宫雨,李倩,曹馨.基于深度学习的天然气居民客户用气量异常检测[J].煤炭经济研究,2024,44(7):27-34.
3孔刘玲,刘秀文.基于改进YOLOv4算法的船舶目标检测方法[J].船舶工程,2022,44(1):96-103. 被引量：11
4舒服华.基于岭回归的武汉市税收收入影响因素分析[J].湖南税务高等专科学校学报,2018,31(6):44-49. 被引量：2
5李克文,林亚林,杨耀忠.一种改进的基于欧氏距离的SDRSMOTE算法[J].计算机工程与科学,2019,41(11):2063-2070. 被引量：14
6刘坤,文熙,黄闽茗,杨欣欣,毛经坤.基于生成对抗网络的太阳能电池缺陷增强方法[J].浙江大学学报（工学版）,2020,54(4):684-693. 被引量：5
7崔鑫,徐华,宿晨.面向不均衡数据集的过抽样算法[J].计算机应用,2020,40(6):1662-1667. 被引量：9
8孟东霞,李玉鑑.融合特征边界信息的不平衡数据过采样方法[J].计算机工程与应用,2020,56(14):156-160.
9徐玲玲,迟冬祥.面向不平衡数据集的机器学习分类策略[J].计算机工程与应用,2020,56(24):12-27. 被引量：60
10孟东霞,李玉鑑.利用自然最近邻的不平衡数据过采样方法[J].计算机工程与应用,2021,57(2):91-96. 被引量：2

1周玉琴,张晓玫,罗璇.基于随机森林的P2P网络借贷成功率预测研究[J].东北农业大学学报（社会科学版）,2016,14(6):11-17. 被引量：2
2邹永潘,王儒敬,李伟.随机森林算法在小麦育种辅助评价中的应用[J].计算机系统应用,2017,26(12):181-185. 被引量：5
3杨毅,卢诚波,徐根海.面向不平衡数据集的一种精化Borderline-SMOTE方法[J].复旦学报（自然科学版）,2017,56(5):537-544. 被引量：24
4赵建平.航空发动机振动信号整周期等相位重采样技术研究[J].科技风,2017(23):13-13. 被引量：1
5吴亮,谢予星,邹鹏飞.一种利用虚拟数据学习的电力部件识别方法[J].电子设计工程,2017,25(21):1-5. 被引量：4
6TIAN Kai.Heterogeneous Spaces in the City: Study on Spatial Characteristics of Tibetan Settlements in Chengdu[J].Journal of Landscape Research,2014,6(3):31-34.
7张泽杰,苏喜,徐溢,陈李.多功能芯片对合成样本中肝癌细胞HepG2的测试研究[J].分析化学,2017,45(11):1589-1594. 被引量：3
8YANG Liguo.On Perceptibility and Recognizability of Traditional Settlements' Landscape Genes in Chinese Minority Areas: A Case Study in Yutou Dong Minority Village of Tongdao[J].Journal of Landscape Research,2015,7(3):34-39. 被引量：2

智能系统学报

2017年第6期

浏览历史

内容加载中请稍等...

一种基于密度的SMOTE方法研究被引量：9

参考文献3

二级参考文献56

共引文献62

同被引文献73

引证文献9

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

一种基于密度的SMOTE方法研究 被引量：9

参考文献3

二级参考文献56

共引文献62

同被引文献73

引证文献9

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

一种基于密度的SMOTE方法研究被引量：9