基于自适应k均值聚类的距离加权欠采样算法被引量：2

Under-sampling Algorithm with Weighted Distance Based on Adaptive K-Means Clustering

导出

摘要【目的】消除分类问题中类不平衡数据对分类精度的影响。【方法】首先,使用自适应k均值聚类算法对多数类数据集进行聚类,找到并删除离群点;其次,计算数据与聚类中心加权距离并排序,根据簇密度对多数类数据顺序采样;最后,将采样得到的数据与少数类数据集合并,输入分类算法进行训练。【结果】实验结果表明,在25组不平衡数据集上算法最大AUC平均值达到0.912,相比较于其他方法最少提升了0.014,平均运行时间仅为1.377 s;应用在两组不平衡大数据集上,算法也有很好的表现。【局限】不适合多分类问题,仅适合解决二分类问题。【结论】算法能够找到最适k值,检测并删除离群点,解决类不平衡问题,提高分类精度。算法速度快,开销小,适合不平衡大数据集的应用。 [Objective] This study tries to reduce the impacts of imbalanced data on classification accuracy.[Methods] First, we used the adaptive k-means clustering algorithm to process the majority class and remove the outliers. Then, we calculated the weighted distance between data and the centers of the clusters to sort the weighted distances. We also sequentially sampled the majority class according to the density of the clusters.Finally, we trained the classification algorithm combining of the sampled data and the minority class. [Results]The average max AUC values reached 0.912 with 25 imbalanced datasets, which was at least 0.014 higher than other methods. Our new algorithm’s average running time was 1.377s, and worked well with imbalanced big data sets. [Limitations] The proposed model could not address the multi-classification issues. [Conclusions] This new algorithm could identify the optimal k-value, detect and remove the outliers, solve class imbalance problem, and improve classification accuracy. It is capable of processing imbalanced large data sets faster and cost-effectively.

作者周倩姚震孙博 Zhou Qian;Yao Zhen;Sun Bo(College of Information Science and Engineering,Shandong Agricultural University,Taian 271018,China;Library of Shandong Agricultural University,Taian 271018,China)

机构地区山东农业大学信息科学与工程学院山东农业大学图书馆

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第5期127-136,共10页 Data Analysis and Knowledge Discovery

基金山东省自然科学基金青年基金项目(项目编号:ZR2018QF002) 山东农业大学图书情报研究项目(项目编号:TQ201902)的研究成果之一。

关键词类不平衡聚类距离加权欠采样 Class Imbalance Clustering Weighted Distance Undersampling

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1崔彩霞,曹付元,梁吉业.基于密度峰值聚类的自适应欠采样方法[J].模式识别与人工智能,2020,33(9):811-819. 被引量：10
2邓成越.高校图书馆社会化服务中用户信用体系研究[J].图书情报工作,2018,62(23):59-64. 被引量：11
3肖连杰,郜梦蕊,苏新宁.一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法[J].数据分析与知识发现,2019,3(4):90-96. 被引量：13
4陆妙芳,杨有龙.基于密度峰值聚类和径向基函数的过采样算法[J].计算机工程与应用,2022,58(21):67-74. 被引量：1

二级参考文献22

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2田昊.高校图书馆读者的信用档案建设[J].情报资料工作,2005,26(5):94-96. 被引量：11
3赵俊强,韩琳,李湛.信用风险转移与银行系统表现——基于美国信用衍生品交易市场面板数据的实证研究[J].金融研究,2007(05A):147-160. 被引量：47
4周云梅.高校图书馆用户个人信用风险评价体系研究[J].图书馆学研究,2008(6):85-87. 被引量：7
5张翔,周明全,耿国华,侯凡.Bagging算法在中文文本分类中的应用[J].计算机工程与应用,2009,45(5):135-137. 被引量：13
6张建国,田秋菊.我国高校图书馆向社会开放的冷思考[J].大学图书情报学刊,2009,27(1):19-22. 被引量：30
7方磊,马溪骏.基于信息熵的改进型支持向量机客户流失预测模型应用研究[J].情报学报,2011,30(6):643-648. 被引量：5
8茹丽君.国内外高校图书馆开展信用管理研究现状[J].咸宁学院学报,2011,31(3):157-158. 被引量：3
9侯婷,赵晓瑞.高校图书馆用户信用评价指标体系构建思路[J].图书馆工作与研究,2012(8):103-105. 被引量：2
10成永娟.高校图书馆读者信用评价体系的应用研究[J].图书情报工作,2012,56(19):74-79. 被引量：10

共引文献30

1杜文艳.数字图书馆用户信用体系建设研究[J].图书馆学刊,2019,41(10):32-35. 被引量：3
2张海生,曹喆,杨昌海,骆雲鹏,华回春.基于AdaBoost-DT算法的电力市场串谋行为识别研究[J].电力工程技术,2020,39(2):152-158. 被引量：15
3于艳丽,江开忠,王珂,盛静文.改进K均值聚类的不平衡数据欠采样算法[J].软件导刊,2020,19(6):205-209. 被引量：4
4王月堂.公共图书馆开展信用服务的实践与启示[J].河南图书馆学刊,2020,40(6):34-35.
5国强强,朱振方.基于LightGBM算法的移动用户信用评分研究[J].计算机技术与发展,2020,30(9):210-215. 被引量：5
6王波.基于数据挖掘的图书馆文献资源供应商评价[J].电子设计工程,2020,28(22):43-46. 被引量：2
7柯行思,吴梦昭,李博,王云飞,周苏.基于改进熵权法的电力信用数据敏感度监控算法[J].电子设计工程,2020,28(24):66-69. 被引量：4
8李伟超,王慧,赵亚南,李经钰,杨照方.大数据环境下用户信用管理体系建设研究[J].图书馆理论与实践,2021(3):102-108. 被引量：2
9张蕾.基于卡方差异性和t-SNE的定性数据分类研究[J].电子测量技术,2021,44(5):100-106.
10孟东霞,李玉鑑.基于特征边界欠采样的不平衡数据处理方法[J].统计与决策,2021(11):30-33. 被引量：7

同被引文献18

1岳佳,王士同.高斯混合模型聚类中EM算法及初始化的研究[J].微计算机信息,2006,22(11X):244-246. 被引量：51
2蔡小波,许大欣,戴全发.重力异常匹配导航的算法实现与仿真分析[J].大地测量与地球动力学,2007,27(3):60-63. 被引量：9
3张敏,袁辉.拉依达(PauTa)准则与异常值剔除[J].郑州工业大学学报,1997,18(1):84-88. 被引量：138
4戴全发,许大欣,蔡小波,王勇.重力异常匹配辅助导航解算模型的优化[J].大地测量与地球动力学,2007,27(4):31-34. 被引量：11
5刘蕊洁,张金波,刘锐.模糊c均值聚类算法[J].重庆工学院学报（自然科学版）,2008,22(2):139-141. 被引量：37
6樊振宇.BP神经网络模型与学习算法[J].软件导刊,2011,10(7):66-68. 被引量：107
7聂琳娟,吴云孙,金涛勇,超能芳.基于海水质量亏损引起的重力异常反演南海海底地形[J].大地测量与地球动力学,2012,32(1):43-46. 被引量：9
8王璇璇,陈宁江,练林明,郭芷柔.基于谱聚类和矩阵分解的改进协同过滤推荐算法[J].广西大学学报（自然科学版）,2020,45(2):313-320. 被引量：13
9李卫疆,唐铭,余正涛.基于多通道Bi-GRU和损失再平衡的不平衡样本情感分类研究[J].中文信息学报,2022,36(2):160-170. 被引量：2
10孙林,秦小营,徐久成,薛占熬.基于K近邻和优化分配策略的密度峰值聚类算法[J].软件学报,2022,33(4):1390-1411. 被引量：22

引证文献2

1吴帅,陈宁江.基于密度峰值和K近邻的密度均衡采样方法[J].广西大学学报（自然科学版）,2023,48(4):931-942.
2皮紫超,乔鹏燕,蒋敦洪,丁桂艳.基于K-means的BP神经网络模型的海域重力适配区研究[J].电脑迷,2023(7):22-24.

1刘稀文,段隆振,段文影.基于FCM的簇内欠采样算法[J].南昌大学学报（理科版）,2021,45(5):437-444. 被引量：2
2周玉,孙红玉,房倩,夏浩.不平衡数据集分类方法研究综述[J].计算机应用研究,2022,39(6):1615-1621. 被引量：25
3孔刘玲,刘秀文.基于改进YOLOv4算法的船舶目标检测方法[J].船舶工程,2022,44(1):96-103. 被引量：11
4杜迎雪,刘卫锋,常娟.毕达哥拉斯三角模糊VIKOR多属性决策方法[J].郑州航空工业管理学院学报,2022,40(3):106-112. 被引量：1

数据分析与知识发现

2022年第5期

浏览历史

内容加载中请稍等...

基于自适应k均值聚类的距离加权欠采样算法被引量：2

参考文献4

二级参考文献22

共引文献30

同被引文献18

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于自适应k均值聚类的距离加权欠采样算法 被引量：2

参考文献4

二级参考文献22

共引文献30

同被引文献18

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于自适应k均值聚类的距离加权欠采样算法被引量：2