Spark环境下基于综合权重的不平衡数据集成分类方法被引量：7

Integrated Classification Method of Imbalanced Data Based on Comprehensive Weight in Spark

下载PDF

导出

摘要不平衡数据分类经常面临样本严重不平衡、少数类样本分类精度低的问题,随着数据规模增大,分类效率也成为了瓶颈问题.针对以上问题,本文结合spark高效的数据处理能力,提出了一种Spark环境下基于综合权重的不平衡数据集成分类方法.该方法首先依照多数类样本中每类样本的权重以及少数类样本量获得的综合权重进行采样,并与少数类样本组成平衡规模的训练数据集;其次,采用基于相关性的特征选择方法选择最优的特征子集,并对随机森林算法进行改进优化以及利用其获得子分类器.最后在Spark环境下,以UCI数据集进行实验验证.实验结果表明本文方法不仅提高了整体分类精度,而且提升了分类效率. Imbalanced data classification often faces the problem of severe sample imbalance and lowaccuracy of minority sample classification,and with the increase of data size,classification efficiency has also become a bottleneck problem. In viewof the above problems,combined with the efficient data processing ability of Spark,this paper proposes an integrated classification method of imbalanced data based on comprehensive weight in Spark environment. Firstly,the method samples by comprehensive weight which obtained by in accordance with weight of each class of samples in majority class samples and samples of minority class amount from the original sample. and form a balanced scale of training data set with samples of minority class;Secondly,we select the optimal feature subset based on the correlation based feature selection method to improve and optimize the random forest algorithm,and use it to get the sub classifiers;Finally,in the Spark environment,using UCI data set experimental verification. The experimental results showthat the proposed method not only improves the accuracy of the overall classification,but also improves the classification efficiency.

作者丁家满王思晨贾连印游进国姜瑛 DING Jia-man;WANG Si-chen;JIA Lian-yin;YOU Jin-guo;JIANG Ying(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)

机构地区昆明理工大学信息工程与自动化学院

出处《小型微型计算机系统》 CSCD 北大核心 2019年第2期255-259,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(51467007 61562054 61462050)资助

关键词不平衡数据分类样本采集综合权重随机森林 SPARK imbalance data classification sample sampling comprehensive weight random forest Spark

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP181 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献11

1蒋盛益,苗邦,余雯.基于一趟聚类的不平衡数据下抽样算法[J].小型微型计算机系统,2012,33(2):232-236. 被引量：12
2胡小生,温菊屏,钟勇.动态平衡采样的不平衡数据集成分类方法[J].智能系统学报,2016,11(2):257-263. 被引量：13
3刘绍毓,周杰,李弼程,席耀一,唐浩浩.基于多分类SVM-KNN的实体关系抽取方法[J].数据采集与处理,2015,30(1):202-210. 被引量：20
4李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：64
5谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法[J].计算机学报,2014,37(8):1704-1718. 被引量：64
6秦静,钱雪忠,王卫涛,谢国伟,宋威.一种处理不平衡大数据的并行随机森林算法[J].微电子学与计算机,2017,34(4):22-27. 被引量：8
7邹权,郭茂祖,刘扬,王峻.类别不平衡的分类方法及在生物信息学中的应用[J].计算机研究与发展,2010,47(8):1407-1414. 被引量：26
8曹鹏,栗伟,赵大哲.基于决策准则优化的不均衡数据分类[J].小型微型计算机系统,2014,35(5):961-966. 被引量：2
9王雯,赵衎衎,李翠平,陈红,孙辉.Spark平台下的短文本特征扩展与分类研究[J].计算机科学与探索,2017,11(5):732-741. 被引量：9
10李克文,杨磊,刘文英,刘璐,刘洪太.基于RSBoost算法的不平衡数据分类方法[J].计算机科学,2015,42(9):249-252. 被引量：21

二级参考文献181

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
3李建中,杨昆,高宏,骆吉洲,郭政.考虑样本不平衡的模型无关的基因选择方法[J].软件学报,2006,17(7):1485-1493. 被引量：24
4毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
5凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
6陈斌,冯爱民,陈松灿,李斌.基于单簇聚类的数据描述[J].计算机学报,2007,30(8):1325-1332. 被引量：18
7Bartlett P L, Traskin M. AdaBoost is consistent. Journal of Machine Learning Research, 2007, 8:2347-2368. 被引量：1
8Schapire R E. The convergence rate of AdaBoost [open prob lem]//Proceedings of the 23rd Conference on Learning Theo ry. Haifa, Israel, 2010. 被引量：1
9Japkowicz N. Learning from imbalanced data sets: A com parison of various strategies/ /Proceedings of the AAAI 2000 Workshop, 2000:10-15. 被引量：1
10Chawla N V, Japkowicz N, Kotcz A. Workshop on learning from imbalanced data sets//Proceedings of the ICML' 2003. Washington, DC, USA, 2003. 被引量：1

共引文献271

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：4
2李欣,俞卫琴.基于改进GS-XGBoost的个人信用评估[J].计算机系统应用,2020,29(11):145-150. 被引量：8
3盖超会,王成刚.基于改进布谷鸟算法与SVM的矿用变压器故障诊断[J].煤炭工程,2019,51(11):134-137. 被引量：6
4李敏,章国豪,陈梓樑,郭志勇,胡晓敏.基于差分进化的多目标粒子群特征选择算法[J].计算机应用研究,2020,37(1):76-79. 被引量：8
5张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：21
6林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
7陈金坦,康恒政,杨燕,周伟雄.一种用于不平衡数据的分类算法[J].山东大学学报（工学版）,2011,41(2):96-101. 被引量：1
8张玉芳,王勇,熊忠阳,刘明.不平衡数据集上的文本分类特征选择新方法[J].计算机应用研究,2011,28(12):4532-4534. 被引量：8
9郭颖婕,刘晓燕,郭茂祖,邹权.植物抗性基因识别中的随机森林分类方法[J].计算机科学与探索,2012,6(1):67-77. 被引量：15
10朱庆文.重中之重:加强和改进思想政治工作[J].理论学习（浙江）,2000(2):42-42.

同被引文献64

1张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：21
2熊英.基于SOM的水声数据可视化算法优化研究[J].舰船科学技术,2019,41(22):130-132. 被引量：1
3林少娃,陈奕汝,顾洁,伍蓓蓓,雍旭龙.基于隐含狄利克雷分布主题模型和特征级异构数据融合的电力故障主动性预警研究[J].电子器件,2022,45(2):432-438. 被引量：13
4肖冰,王亮,徐胜华,梁勇,刘晓.Delaunay三角网的鄱阳湖水陆地形数据整合研究[J].测绘科学,2019,44(1):48-52. 被引量：6
5李慧,李正,佘堃.一种基于综合不放回抽样的随机森林算法改进[J].计算机工程与科学,2015,37(7):1233-1238. 被引量：15
6余征,龚勋,李天瑞,张钧波.Hadoop的小图片处理技术及其在人脸特征提取上的应用[J].小型微型计算机系统,2015,36(8):1891-1895. 被引量：6
7郭华平,董亚东,邬长安,范明.面向类不平衡的逻辑回归方法[J].模式识别与人工智能,2015,28(8):686-693. 被引量：10
8赵腾,王林童,张焰,田世明.采用互信息与随机森林算法的用户用电关联因素辨识及用电量预测方法[J].中国电机工程学报,2016,36(3):604-614. 被引量：95
9胡小生,温菊屏,钟勇.动态平衡采样的不平衡数据集成分类方法[J].智能系统学报,2016,11(2):257-263. 被引量：13
10王桂玲,韩燕波,张仲妹,朱美玲.基于云计算的流数据集成与服务[J].计算机学报,2017,40(1):107-125. 被引量：52

引证文献7

1唐姊茜.多媒体网络视频监控前端数据动态集成仿真[J].计算机仿真,2020,37(4):155-158. 被引量：6
2詹青.基于数字标签的电子档案序列大数据并行分类系统设计[J].现代电子技术,2020,43(14):152-155. 被引量：5
3刘波.基于多源数据集成的地理信息系统数据高效整合研究[J].经纬天地,2021(5):93-96. 被引量：6
4阚学达,桂琼,张攀峰.基于决策边界的倾斜森林分类算法[J].计算机工程与设计,2022,43(2):391-398. 被引量：1
5周翔,翟俊海,黄雅婕,申瑞彩,侯璎真.大数据环境下的投票特征选择算法[J].小型微型计算机系统,2022,43(5):936-942. 被引量：1
6朱迪,华敏.基于SOM的心电监护仪数据可视化集成方法[J].现代科学仪器,2022,39(5):30-34. 被引量：1
7吕文官,薛峰.基于改进级联算法的不平衡数据集分类检测算法[J].保定学院学报,2024,37(2):98-103.

二级引证文献20

1朱海鹏,赵磊,秦昆,王耀斐.基于大数据分析的电力监控网络安全主动防护策略研究[J].电测与仪表,2020,57(21):133-139. 被引量：44
2冯毓翔,杨振.广播电视应用软件网络数据交互分析[J].无线互联科技,2020,17(22):55-56.
3李爱玲.广播电视应用软件网络数据交互分析[J].环球首映,2020(8):115-115.
4吕宝利.基于UAV低空航测的矿山地质测量数据分类系统设计[J].世界有色金属,2021,46(17):15-16.
5胡挺峰.基于ML-kNN算法的大数据分类系统设计[J].信息与电脑,2022,34(1):71-73. 被引量：4
6周长春,姜杰,李谦,朱海燕,李之军,鲁柳利.基于融合特征选择算法的钻速预测模型研究[J].钻探工程,2022,49(4):31-40. 被引量：6
7杨艳静.基于多节点距离测量的地理信息数据库更新方法研究[J].经纬天地,2022(3):70-73. 被引量：1
8张挺,李寒旭,张晔,陈和荆.基于Bagging集成CHAID决策树算法的神东矿区煤灰熔融温度预测[J].广州化工,2022,50(14):179-183. 被引量：1
9赵世巍.电网智能网络巡检一体化系统的研究与应用[J].今日自动化,2022(8):4-6.
10朱迪,华敏.基于SOM的心电监护仪数据可视化集成方法[J].现代科学仪器,2022,39(5):30-34. 被引量：1

1王君.云计算平台建设与应用[J].中国战略新兴产业,2018(11X):32-32. 被引量：3
2杜向凯.大数据时代人力资源管理创新思考[J].幸福生活指南,2018,0(15):197-198.
3苗文凯,孟云灵.浅析云计算技术在教育中的应用[J].信息记录材料,2019,20(1):135-136. 被引量：1
4陈旭,刘鹏鹤,孙毓忠,沈曦,张磊,王晓青,孙晓平,程伟.面向不均衡医学数据集的疾病预测模型研究[J].计算机学报,2019,42(3):596-609. 被引量：45
5周传华,柳智才,丁敬安,周家亿.基于特征选择与集成学习的钓鱼网站检测方法[J].计算机应用研究,2019,36(4):1128-1132. 被引量：7
6赵小强,刘梦依.基于不平衡数据集的主动学习分类算法[J].控制工程,2019,26(2):314-319. 被引量：8
7王馨月,景丽萍.基于分层抽样的不均衡数据集成分类[J].深圳大学学报（理工版）,2019,36(1):24-32. 被引量：6
8宋敬文.大数据与个人信息保护[J].信息周刊,2018,0(29):189-189.
9张本才,王志海,孙艳歌.一种多样性和精度加权的数据流集成分类算法[J].智能系统学报,2019,14(1):179-185. 被引量：7
10王进.建筑工程造价模型的优化设计与仿真[J].微型电脑应用,2019,35(3):77-79.

小型微型计算机系统

2019年第2期

浏览历史

内容加载中请稍等...

Spark环境下基于综合权重的不平衡数据集成分类方法被引量：7

参考文献11

二级参考文献181

共引文献271

同被引文献64

引证文献7

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

Spark环境下基于综合权重的不平衡数据集成分类方法 被引量：7

参考文献11

二级参考文献181

共引文献271

同被引文献64

引证文献7

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

Spark环境下基于综合权重的不平衡数据集成分类方法被引量：7