改进K-means的双向采样非均衡数据分类方法被引量：4

Improved the bi-directional sampling unbalanced data classification method of K-means

下载PDF

导出

摘要针对分类器在不均衡数据集上对小类分类准确率较差的问题,提出了改进K-means的双向采样算法KMBS(k-means bi-directional sampling),并将集成学习应用在分类算法上.首先,使用改进的K-means聚类算法将原始数据集划分为不同的聚类簇.其次,在聚类簇中使用改进的SMOTE算法对小类样本过采样,对聚类簇内的大类样本欠采样,使数据集平衡.多次执行该算法可以产生多个差异较大的数据集,因此训练出多个差异较大的分类器,提升集成学习的效果.通过分析实验结果,该算法较现有几种算法不仅能提高整体分类性能,并且有效提高小类样本的分类性能. Aiming at the poor classification accuracy of minority classes by classifier on unbalanced data sets,an improved k-means bi-directional sampling algorithm KMBS(k-means bi-directional sampling)is proposed,and integrated learning is applied to the classification algorithm.First,the improved k-means clustering algorithm is used to divide the original data set into different clustering clusters.Secondly,oversampling of the minority and under-sampling of the majority in the cluster using the modified SMOTE algorithm in the cluster,so as to make the dataset balance.Multiple executions of this algorithm can produce multiple data sets with large differences,so multiple classifiers with large differences can be trained to improve the effect of ensemble learning.By analyzing the experimental results,this algorithm can not only improve the overall classification performance,but also improve the classification performance of a few kinds of samples.

作者柳毅曾昊 LIU Yi;ZENG Hao(College of Computer Science,Guangdong University of Technology,Guangzhou 510006,China)

机构地区广东工业大学计算机学院

出处《微电子学与计算机》北大核心 2020年第3期60-65,共6页 Microelectronics & Computer

基金国家自然科学基金(61572144) 广州市教育系统创新学术团队(1201610027)。

关键词不均衡学习双向采样分类算法集成学习 imbalanced learning bi-directional sampling classification ensemble learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王璐林..面向不平衡样本的Boosting分类算法研究[D].哈尔滨工业大学,2013:
2张金伟..不平衡数据分类研究及在肿瘤识别中的应用[D].中国计量学院,2012:
3杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：31

二级参考文献12

1Weiss GM. Mining with rarity: A unifying framework [ J ]. SIGKDD Explorations, 2004,6(1) : 7 - 19. 被引量：1
2Chawla N, Bowyer K, Hall L, Kegelmeyer W. SMOTE: Synthetic minority over-sampling technique[ J]. Journal of Artificial Intelligence Research,2002,16(1) :321 - 357. 被引量：1
3Kubat M,Matwin S. Addressing the curse of imbalanced training sets:one-sided selection[A] .Proc of the 14th International Conference on Machine Leaming[C]. San Francisco,CA: Morgan Kaufmann, 1997.217 - 225. 被引量：1
4Japkowicz N, Stephen S. The class imbalance problem: a systematic study [J]. Intelligent Data Analysis Journal, 2002, 6 (5) :429 - 450. 被引量：1
5Gustavo E, Batista P, Ronaldo C.A study of the behavior of several methods for balancing machine learning training data [J]. SIGKDD Explorations, 2004,6 ( 1 ) : 20 - 29. 被引量：1
6Veropoulos K, Campbell C, Cristianini N. Controlling the sensitivity of support vector machines[ A]. Proceedings of the International Joint Conference on AI[ C ]. San Francisco, CA: Morgan Kaufmann, 1999.55 - 60. 被引量：1
7T Imam,K M Ting,J Kamruzzaman. z-SVM:An SVM for improved classification of imbalanced data [ A ]. Australian Joint Conference on AI[ C]. Hobart, Australia: Springer, 2006.264 -273. 被引量：1
8L M Manevitz,M Yousef. One-class SVMs for document classification[ J]. Journal of Machine Leaming Research, 2001,2 (1):139- 154. 被引量：1
9Chawla N, Bowyer K, Hall L, Kegelmeyer W. SMOTEBoost: Improving prediction of the minority class in boosting[A]. 7th European Conference on Principles and Practice of Knowledge Discovery in Databases [ C ]. Cavtat-Dubrovnik, Croatia: Springer,2003. 107- 119. 被引量：1
10Wu G, Chang E. Class-boundary alignment for imbalanced dataset learning[ A]. Workshop on Leaming from Imbalanced Data Sets Ⅱ,ICML[C]. Washington, DC: AAAI Press,2003: 49 - 56. 被引量：1

共引文献30

1张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
2王慧燕,徐珊.基于贝叶斯分类器的脉象自动识别方法[J].中国生物医学工程学报,2009,28(5):735-742. 被引量：3
3谷琼,蔡之华,朱莉,王贤明.新型混合重取样算法在岩爆预测中的应用[J].地球科学（中国地质大学学报）,2010,35(2):311-316.
4谷琼,王贤明,李文新.基于非均衡数据集的新型混合重取样算法[J].武汉理工大学学报,2010,32(20):55-60. 被引量：1
5陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
6王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
7楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
8胡小生.改进随机子空间与决策树相结合的不平衡数据分类方法[J].佛山科学技术学院学报（自然科学版）,2013,31(5):22-26.
9翟云,王树鹏,马楠,杨炳儒,张德政.基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法[J].电子学报,2014,42(7):1311-1319. 被引量：18
10王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734. 被引量：24

同被引文献32

1王海泉,侯宇亮,魏建华,徐晓滨,苏孟豪,张姗姗.基于多目标蜂群算法的数据分类方法[J].重庆大学学报（自然科学版）,2020,43(1):74-81. 被引量：4
2王晓黎,王文杰.基于向量空间模型的文本检索系统[J].微电子学与计算机,2006,23(6):188-190. 被引量：18
3谌志群,徐宁,王荣波.基于主题演化图的网络论坛热点跟踪[J].情报科学,2013,31(3):147-150. 被引量：22
4申国伟,杨武,王巍,于淼.面向大规模微博消息流的突发话题检测[J].计算机研究与发展,2015,52(2):512-521. 被引量：15
5安计勇,高贵阁,史志强,孙磊.一种改进的K均值文本聚类算法[J].传感器与微系统,2015,34(5):130-133. 被引量：19
6刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情报科学,2017,35(2):16-21. 被引量：41
7余辉,黄永峰,胡萍.微博舆情的Hadoop存储和管理平台设计与实现[J].电子技术应用,2017,43(3):120-123. 被引量：5
8翟俊海,张素芳,周昭一.用模糊积分集成重复训练极限学习机的数据分类方法[J].小型微型计算机系统,2018,39(6):1223-1227. 被引量：4
9萧婧婕,陈志云.基于灰狼算法的主题爬虫[J].计算机科学,2018,45(B11):146-148. 被引量：8
10王永旭,栾峰,杨平亚,王书恒.NX CAM数控加工与Teamcenter分类库集成技术研究[J].机械制造与自动化,2019,48(1):71-73. 被引量：5

引证文献4

1王林,陈青超.基于Hadoop的灰狼优化K-means算法在主题发现的研究[J].微电子学与计算机,2022,39(4):24-32. 被引量：2
2戴飞,焦攀科,程子航,程颖.基于多学科协作模式的远程会诊自动分诊方法[J].自动化技术与应用,2022,41(7):69-72.
3朱建霞.基于聚类算法的海量医院财务数据精准分类方法[J].自动化技术与应用,2023,42(4):79-82. 被引量：1
4陈彦榕,梁旭,陈康,黄思源,张宇星.基于间隔损失神经网络的异常翻栏检测方法[J].计算机科学与应用,2023,13(7):1454-1464.

二级引证文献3

1赵健.基于hadoop的舰船通信网络数据并行处理方法[J].舰船科学技术,2023,45(7):158-161.
2高溪,王良浩.基于SVM主动学习的制革企业财务管理数据分类方法[J].皮革与化工,2023,40(6):17-22.
3陶淘,彭颖,张晨亮.基于Hadoop技术的气象数据实时传输监控系统设计[J].计算机测量与控制,2024,32(1):114-120.

1齐玉东,丁海强,赵锦超,孙明玮.基于biRNN的海军军械不均衡文本数据集处理方法[J].计算机与现代化,2019,0(12):21-26. 被引量：3
2王家驹,万忠兵,何仲潇,汪佳,谢智,王枭.基于多维尺度分析和改进K-means的台户关系辨识方法[J].电气自动化,2020,42(2):56-59. 被引量：6
3施雯.改进K-means算法下的电力大数据分析平台研究[J].现代科学仪器,2019,36(5):92-94. 被引量：1
4刘树栋,魏嘉敏.基于谱聚类和成对数据表示的多层感知机分类算法[J].计算机科学,2019,46(S11):194-198. 被引量：5
5韩琮师,李旭健.改进的K-means算法研究[J].软件,2020,41(3):21-23. 被引量：6
6王嘉锋,赵佳琦,张冲,蔡珠虹.便携式超声在"和平方舟"号医院船海外医疗服务中的应用探讨[J].中华航海医学与高气压医学杂志,2019,26(6):505-507. 被引量：4
7孙伟鹏,吴锡生,孟斌.基于Spark并行的密度峰值聚类算法[J].计算机应用研究,2020,37(1):163-166. 被引量：2
8谢波,赵亚男,高利,高峰.基于激光雷达点云的小目标语义分割增强方法[J].激光杂志,2020,41(4):18-23. 被引量：2
9贾海利,张健,祁宇明,邓三鹏.云制造平台资源需求的高效匹配策略研究[J].现代制造工程,2020(4):36-43. 被引量：7
10中宣部授予“和平方舟”号医院船“时代楷模”称号[J].国际援助,2019,0(6).

微电子学与计算机

2020年第3期

浏览历史

内容加载中请稍等...

改进K-means的双向采样非均衡数据分类方法被引量：4

参考文献3

二级参考文献12

共引文献30

同被引文献32

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

改进K-means的双向采样非均衡数据分类方法 被引量：4

参考文献3

二级参考文献12

共引文献30

同被引文献32

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

改进K-means的双向采样非均衡数据分类方法被引量：4