一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法被引量：13

An Under-sampling Ensemble Classification Algorithm Based on Fuzzy C-Means Clustering for Imbalanced Data

导出

摘要【目的】解决二分类任务中因类间数据不平衡导致少数类分类准确度低的问题。【方法】提出一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法(ECFCM),即对多数类样本进行基于FCM聚类的欠采样,将聚类中心样本与全部少数类样本组成平衡数据集;利用基于Bagging的集成学习算法对平衡数据集进行分类。【结果】在4组不平衡数据集上的Matlab仿真实验结果表明,ECFCM算法的Acc、AUC和F_1提升幅度最高为5.75%(Spambase), 13.84%(Glass2)和7.54%(Spambase)。【局限】本文采用标准数据集验证ECFCM算法的有效性,当采用实际应用中的不平衡数据时,需要有针对性地研究不平衡数据分类算法。【结论】ECFCM算法分类性能良好,在一定程度上有利于提高不平衡数据中少数类的分类准确度。 [Objective] This paper tries to solve the problem of the low accuracy of minority classification in the binary classification task due to class imbalance.[Methods] An under-sampling ensemble classification algorithm based on fuzzy c-means(FCM) clustering for imbalanced data is proposed.That is,the majority class samples are under-sampled based on FCM clustering,all these cluster center samples and all the minority samples are made up to a balance data set.We use the integrated learning algorithm based on Bagging to classify the balanced data sets.[Results] The Matlab simulation results of experiments on four imbalanced datasets show that the ECFCM algorithm improves Acc,AUC and F1 by up to 5.75%,13.84% and 7.54%.[Limitations] Some standard data sets are used to verify the effectiveness of ECFCM.When in a specific application,a targeted research on classification algorithm is needed.[Conclusions] The ECFCM algorithm performs good to a certain extent,which is conducive to improve the binary classification accuracy of the minority class on imbalanced datasets.

作者肖连杰郜梦蕊苏新宁 Xiao Lianjie;Gao Mengrui;Su Xinning(School of Information Management,Nanjing University,Nanjing 210023,China;Jiangsu Key Laboratory of Data Engineering and Knowledge Service,Nanjing 210023,China)

机构地区南京大学信息管理学院江苏省数据工程与知识服务重点实验室

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第4期90-96,共7页 Data Analysis and Knowledge Discovery

基金国家社会科学基金重大项目"情报学学科建设与情报工作未来发展路径研究"(项目编号:17ZDA291) 南京大学研究生跨学科科研创新项目"大数据环境下情报学理论方法知识库构建研究"(项目编号:2018ZDW03)的研究成果之一

关键词不平衡数据模糊C-均值聚类分类欠采样集成学习 Imbalanced Data Fuzzy C-Means Clustering Classification Under-sampling Ensemble Learning

分类号 TP393 [自动化与计算机技术—计算机应用技术] G35 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献5

1方磊,马溪骏.基于信息熵的改进型支持向量机客户流失预测模型应用研究[J].情报学报,2011,30(6):643-648. 被引量：5
2蔡静颖著..模糊聚类算法及应用[M].北京:冶金工业出版社,2015:131.
3张翔,周明全,耿国华,侯凡.Bagging算法在中文文本分类中的应用[J].计算机工程与应用,2009,45(5):135-137. 被引量：13
4沈学华,周志华,吴建鑫,陈兆乾.Boosting和Bagging综述[J].计算机工程与应用,2000,36(12):31-32. 被引量：66
5毛国君,段立娟编著..数据挖掘原理与算法[M].北京:清华大学出版社,2016:334.

二级参考文献31

1姚敏,沈斌,李明芳.基于多准则神经网络与分类回归树的电信行业异动客户识别系统[J].系统工程理论与实践,2004,24(5):78-83. 被引量：15
2Aask,Eikvill.Text categorization:a survey,Technical Report #941[R]. Norwegian Computing Center, 1999. 被引量：1
3Fabrizio S.Machine learning in automated text categorization[J].J of the ACM(JACM), 2002,34( 1 ) : 1-47. 被引量：1
4Dietterich T G.Machine learning research:four current directions[J]. AI Magazine, 1997,18(4) :97-136. 被引量：1
5Saltow G,Wong A,Yang C.A vector space model for automatic indexing[J].Communications of the ACM, 1975,18( 11 ) :613-620. 被引量：1
6Bryll R,Gutierrez O R,Quek F.Attribute Bagging:Improving accuracy of classifier ensembles by using random features subsets[J]. Pattern Recognition Letters,2003,36(6):1291-1302. 被引量：1
7Langley P,Iba W.Average-case Analysis of Nearest Neighbor algorithm[C]//Proceedings of the Thirteenth International Joint Conference on Artificial Intelligence.San Francisco,USA:Morgan Kaufmann Publishers, 1993 : 889-894. 被引量：1
8Yang Yiming,Liu Xin.A re-examination of text categorization methods[C]//Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), Berkeley, California, USA : 1999 : 42-49. 被引量：1
91．Valiant L G．A Theory of Learnable．Communication of ACM，1984； 27:1134－1142 被引量：1
102．Kearns M，Valiant L G．Learning Boolean Formulae or Factoring．Te－ chnical Report TR－1488，Cambridge，MA:Havard University Aiken Computation Laboratory，1988 被引量：1

共引文献79

1宋星光,夏利民.基于Bagging算法的水库水沙联合智能调度[J].计算机工程与应用,2004,40(25):218-219. 被引量：4
2谢纪刚,裘正定,周铖,王静.分类器集成在财务危机预测中的应用研究[J].复旦学报（自然科学版）,2004,43(5):785-788. 被引量：9
3徐启华,杨瑞.基于AdaBoost算法的故障诊断仿真研究[J].计算机工程与设计,2005,26(12):3210-3212. 被引量：2
4阴国富.基于Boosting算法的车牌汉字识别[J].现代电子技术,2006,29(17):127-129. 被引量：2
5余嘉元,汪存友.运用神经网络集成估计小样本测验的IRT项目参数[J].哈尔滨工程大学学报,2006,27(B07):36-39. 被引量：1
6杨艳,燕东渭,赵奎锋,魏亭.综合学习方法AdaBoost在暴雨预测中的应用[J].计算机系统应用,2007,16(1):51-54. 被引量：1
7蔡津津,赵杰煜,贺思敏.基于AdaBoost方法的蛋白质磷酸化修饰规则抽取[J].计算机工程与设计,2007,28(11):2623-2628. 被引量：1
8侯小静,舒云星.网页文本的组合分类研究[J].计算机与数字工程,2007,35(6):58-59.
9胡金海,谢寿生,杨帆,蔡开龙,王海涛.基于支持向量机的组合分类方法及应用[J].推进技术,2007,28(6):669-673. 被引量：9
10吴建生.最小一乘回归神经网络集成方法股市建模研究[J].计算机工程与设计,2007,28(23):5812-5815. 被引量：4

同被引文献109

1徐建中,孙颖,孙晓光.基于遗传搜索权重的模糊C-均值-VIKOR模型的绿色供应商选择[J].统计与决策,2021,37(4):159-163. 被引量：9
2佐磊,胡小敏,何怡刚,孙洪凯,李兵.小样本数据处理的加速寿命预测方法[J].电子测量与仪器学报,2020,32(11):26-32. 被引量：8
3张粒子,张集,程瑜.电力市场中的串谋溢价和串谋行为规制[J].电网技术,2006,30(24):61-67. 被引量：19
4李伟,杨照芬,牛东晓.基于改进神经网络的用电客户信用评价[J].华东电力,2007,35(4):9-12. 被引量：8
5肖涵,李友荣,吕勇.基于四分位偏差分形维与高斯混合模型的故障识别算法研究[J].振动工程学报,2008,21(1):79-83. 被引量：3
6王文举,范合君.企业价格串谋识别的博弈分析及模拟[J].商业研究,2010(5):49-52. 被引量：2
7吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：166
8李玉鑑,孟东霞,桂智明.几何集成的改进——特征边界点快速计算[J].山东大学学报（工学版）,2011,41(4):56-60. 被引量：2
9王中卿,李寿山,朱巧明,李培峰,周国栋.基于不平衡数据的中文情感分类[J].中文信息学报,2012,26(3):33-37. 被引量：11
10张志武.跨领域迁移学习产品评论情感分析[J].现代图书情报技术,2013(6):49-54. 被引量：6

引证文献13

1张海生,曹喆,杨昌海,骆雲鹏,华回春.基于AdaBoost-DT算法的电力市场串谋行为识别研究[J].电力工程技术,2020,39(2):152-158. 被引量：15
2于艳丽,江开忠,王珂,盛静文.改进K均值聚类的不平衡数据欠采样算法[J].软件导刊,2020,19(6):205-209. 被引量：4
3国强强,朱振方.基于LightGBM算法的移动用户信用评分研究[J].计算机技术与发展,2020,30(9):210-215. 被引量：5
4张蕾.基于卡方差异性和t-SNE的定性数据分类研究[J].电子测量技术,2021,44(5):100-106.
5孟东霞,李玉鑑.基于特征边界欠采样的不平衡数据处理方法[J].统计与决策,2021(11):30-33. 被引量：7
6张志武,薛娟,陈国兰.深度学习框架下类别不平衡数据情感分析[J].现代情报,2021,41(10):75-82. 被引量：8
7杨莲,石宝峰,迟国泰,董轶哲.非均衡数据下基于BPNN LDAMCE的信用评级模型设计及应用[J].数量经济技术经济研究,2022,39(3):152-169. 被引量：4
8杨莲,石宝峰,董轶哲.基于Class Balanced Loss修正交叉熵的非均衡样本信用风险评价模型[J].系统管理学报,2022,31(2):255-269. 被引量：10
9周倩,姚震,孙博.基于自适应k均值聚类的距离加权欠采样算法[J].数据分析与知识发现,2022,6(5):127-136. 被引量：2
10孟东霞,谢林燕.基于k近邻中心偏移因子的欠采样方法[J].统计与决策,2023(12):40-44. 被引量：1

二级引证文献55

1陈可.基于B-SMOTE1-XGBoost预测电信客户流失[J].郑州师范教育,2022,11(4):21-26.
2李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：5
3贺远珍,樊重俊,熊红林.基于代价敏感的AdaBoost双层分类社会救助预测模型[J].计算机与数字工程,2023,51(1):156-162.
4裴潇倜,吕琳,黄鹏杰,陈兆学,林勇.基于U-Net的T细胞斑点检测方法研究[J].中国医学物理学杂志,2021,38(4):518-522.
5柏彬,孙铭泽,陆勇,吴串国,张煜昊.基于TensorFlow框架的施工现场违规行为智能识别方法[J].电工技术,2021(10):190-191. 被引量：3
6胡玉杰,杜景林,董亚,滕达.基于改进AdaBoost-C4.5算法的降雨预测[J].现代电子技术,2021,44(14):6-10. 被引量：2
7谢敬东,黄溪滢,卢浩哲,陆池鑫,孙波,孙欣.电力市场中市场力风险防范方法的研究[J].价格理论与实践,2020(12):49-53. 被引量：13
8刘昱萌,刘斌.基于LGB-FFM-LR算法的在线课程评分预测方法研究[J].电子测量技术,2021,44(16):1-6.
9李雪松,蒋宇,刘胥雯,王阳,丁羽.基于改进Critic-G1算法的发电商市场力综合评价方法[J].中国电力,2021,54(11):59-67. 被引量：4
10罗锦庆,覃捷,黄远明,黄志生,谷昊霖,田琳.基于孤立森林算法对发电机组滥用市场力的判别[J].价格理论与实践,2021(8):159-163. 被引量：2

1王文娜,马瑜,姜雲腾,罗宇卓.分数阶粒子群的模糊聚类图像分割算法研究[J].现代电子技术,2019,42(11):59-63. 被引量：3
2耿嘉艺,钱雪忠,周世兵.新模糊聚类有效性指标[J].计算机应用研究,2019,36(4):1001-1005. 被引量：9
3唐新宇,张新政,赵月爱.云计算中基于群体智能算法的大数据聚类挖掘[J].重庆理工大学学报（自然科学）,2019,33(4):128-133. 被引量：32
4陈静杰,崔金成.基于KMSMOTE和随机森林的爬升段油耗分类[J].计算机应用与软件,2019,36(4):247-250. 被引量：2
5李昊翔,何乐霞.以地下智能式停车模式破解老城区“停车难”的规划探索——以杭州市上城区停车设施布点规划为例[J].低碳世界,2019,9(3):162-164. 被引量：1
6万红,钱锐.模糊C-均值聚类引导的Kinect深度图像修复算法[J].计算机应用研究,2019,36(5):1564-1568. 被引量：8
7邵俊健,王士同.高维数据的增量式聚类算法的距离度量选择研究[J].计算机工程与科学,2019,41(2):214-223. 被引量：6
8陈莉平,宋立冉.基于大数据的脑卒中复发预测模型的构建[J].物联网技术,2019,9(6):50-54. 被引量：7
9丁家满,王思晨,贾连印,游进国,姜瑛.Spark环境下基于综合权重的不平衡数据集成分类方法[J].小型微型计算机系统,2019,40(2):255-259. 被引量：7
10刘耀杰,刘独玉.基于不平衡数据集的改进随机森林算法研究[J].计算机技术与发展,2019,29(6):100-104. 被引量：10

数据分析与知识发现

2019年第4期

浏览历史

内容加载中请稍等...

一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法被引量：13

参考文献5

二级参考文献31

共引文献79

同被引文献109

引证文献13

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法 被引量：13

参考文献5

二级参考文献31

共引文献79

同被引文献109

引证文献13

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法被引量：13