基于MapReduce和上采样的两类非平衡大数据集成分类被引量：3

Binary Ensemble Classification for Imbalanced Big Data Based on MapRecuce and Upper Sampling

下载PDF

导出

摘要提出了一种基于MapReduce和上采样的两类非平衡大数据分类方法,该方法分为5步:(1)对于每一个正类样例,用MapReduce寻找其异类最近临;(2)在两个样例点之间的直线上生成若干个正类样例;(3)以新的正类样例子集的大小为基准,将负类样例随机划分为若干子集;(4)用负类样例子集和正类样例子集构造若干个平衡数据子集;(5)用平衡数据子集训练若干个分类器,并对训练好的分类器进行集成。在5个两类非平衡大数据集上与3种相关方法进行了实验比较,实验结果表明本文提出的优于这3种方法。 Based on MapReduce and upper sampling,an approach for imbalanced big data classification is proposed in this paper. The proposed method includes five steps：（ 1） For each positive instance,its nearest neighbor is found by MapReduce.（ 2） Some positive instances on the line between the two points are created.（ 3）According to the cardinality of the set of positive instances,the set of negative instances is partitioned into some subsets.（ 4） Some balanced subsets are generated with the set of positive instances and the subset of negative instances.（ 5） Some classifiers are trained by extreme learning machine on the generated balanced subsets,and the trained classifiers are integrated by majority voting for classifying new instances. Experimental comparisons with three related methods are conducted on five imbalanced big data sets. The experimental results show that the proposed method outperforms the three methods.

作者翟俊海张明阳王陈希刘晓萌王耀达 Zhai Junhai1,2 , Zhang Mingyang2 , Wang Chenxi3 , Liu Xiaomeng2 , Wang Yaoda2(1. Key Lab of Machine Learning and Computational Intelligence, Baoding, 071002, China; 2. College of Mathematics and Infor mation Science, IIebei University, Baoding, 071002, China; 3. College of Computer Science and Technology, IIebei University Baoding, 071002, Chin)

机构地区河北省机器学习与计算智能重点实验室河北大学数学与信息科学学院河北大学计算机科学与技术学院

出处《数据采集与处理》 CSCD 北大核心 2018年第3期416-425,共10页 Journal of Data Acquisition and Processing

基金国家自然科学基金(71371063)资助项目河北省自然科学基金(F2017201026)资助项目河北大学自然科学研究计划(799207217071)资助项目

关键词大数据非平衡分类上采样最近邻 big data imbalanced classification upper sampling nearest neighbor

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2397
2钱宇华,成红红,梁新彦,王建新.大数据关联关系度量研究综述[J].数据采集与处理,2015,30(6):1147-1159. 被引量：17
3吴启晖,邱俊飞,丁国如.面向频谱大数据处理的机器学习方法[J].数据采集与处理,2015,30(4):703-713. 被引量：21
4吉根林,赵斌.时空轨迹大数据模式挖掘研究进展[J].数据采集与处理,2015,30(1):47-58. 被引量：40
5亓峰,唐晓璇,邢宁哲,季浩.未来大数据环境下的配用电通信网虚拟网络架构及应用[J].数据采集与处理,2015,30(3):511-518. 被引量：18
6宋寿鹏,邵勇华,堵莹.采样方法研究综述[J].数据采集与处理,2016,31(3):452-463. 被引量：15

二级参考文献399

1孙禄杰,柏满迎.相关系数与连接函数[J].统计与决策,2006,22(16):4-6. 被引量：11
2Nature. Big Data [EB/OL]. [2012-10-02]. http,//www. nature, com/news/specials/bigdata/index, html. 被引量：1
3Bryant R E, Katz R H, Lazowska E D. Big-Data computing : Creating revolutionary breakthroughs in commerce, science, and society [R]. [2012-10-02]. http:// www. cra. org/ccc/docs/init/Big_Data, pdf. 被引量：1
4Science. Special online collection: Dealing with data [EB/OL]. [2012-10-02]. http://www, sciencemag, org/site/ special/data/, 2011. 被引量：1
5Agrawal D, Bernstein P, Bertino E, et al. Challenges and opportunities with big data A community white paper developed by leading researchers across the United States [R/OL]. [2012-10-02]. http://cra, org/ccc/docs/init/bigdata whitepaper, pdf. 被引量：1
6Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and productivity [R/OL]. [ 2012-10-02 ]. http://www, mekinsey, corn/ Insights]MGI[Research/Teehnology _ and _ Innovation]Big _ data The next frontier for innovation. 被引量：1
7World Economic Forum. Big data, big impact: New possibilities for international development [R/OL]. [2012- 10-02]. http://www3, weforum, org/docs/WEF TC MFS BigDataBigImpact_Briefing 2012. pdf. 被引量：1
8Big Data Across the Federal Government [EB/OL]. [2012-10-02]. http://www, whitehouse, gov/sites/default/ files/microsites/ostp/big_data fact sheet_final_ 1. pdf. 被引量：1
9UN Global Pulse. Big Data for Development:Challenges Opportunities [R/OL]. [ 2012-10-02 ]. http://www. unglobalpulse, org/proj ects/BigDataforDevelopment. 被引量：1
10Times N Y. The age of big data fEB/OLd. [2012-10 -02]. http://www, nytimes, com/2012/02/12/sunday review/big- datas-impact in-the-world, html?pagewanted=all. 被引量：1

共引文献2498

1韩莹莹,钟专,褚月娇,康春阳,李东霓,王志佳,刘晓阳,张白羽.基于大数据智能化背景下神经病学实践教学体系构建的探索[J].中国实验诊断学,2023,27(8):1006-1009. 被引量：1
2李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
3孙昊鹏.大数据在新冠肺炎疫情中的应用和缺失[J].郑州师范教育,2020,9(3):91-96. 被引量：1
4闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：7
5叶青.违法立案的检察监督机制研究[J].国家检察官学院学报,2024,32(1):53-68. 被引量：2
6刘厚营.大数据在安保工作情报分析中的应用[J].工程技术研究,2018,3(1):243-244. 被引量：1
7肖楠,陈红梅.从融媒体到智媒体:一种技术驱动下的传媒经济发展路径[J].新闻知识,2020(9):19-22. 被引量：3
8杨东,郑清洋.从TikTok事件看数字人民币的路径选择:从流量入口到金融优势的转化[J].新疆师范大学学报（哲学社会科学版）,2021,42(4):126-135. 被引量：6
9刘生龙,张晓明,杨竺松.互联网使用对农村居民收入的影响[J].数量经济技术经济研究,2021,38(4):103-119. 被引量：74
10李跃先,殷传涛,魏亿钢.基于本体与中间件的科技资源数据集成方法[J].标准科学,2021(5):21-28. 被引量：4

同被引文献29

1胡竞竞,徐习东,裘鹏,陆翌,黄晓明.直流配电系统保护技术研究综述[J].电网技术,2014,38(4):844-851. 被引量：103
2严胜,罗湘,贺之渊.直流电网核心装备及关键技术展望[J].电力系统自动化,2019,43(3):205-215. 被引量：58
3徐铭铭,肖立业,王海风,林良真.一种基于Prony算法的直流配电网电缆故障定位方法[J].电工电能新技术,2015,34(4):1-5. 被引量：35
4李斌,何佳伟.柔性直流配电系统故障分析及限流方法[J].中国电机工程学报,2015,35(12):3026-3036. 被引量：160
5赵彪,赵宇明,王一振,刘国伟,宋强,袁志昌,姚森敬.基于柔性中压直流配电的能源互联网系统[J].中国电机工程学报,2015,35(19):4843-4851. 被引量：96
6张紫光,付媛,王毅.基于VSC的直流电网输电线路单极接地故障分析[J].现代电力,2017,34(1):82-88. 被引量：5
7和敬涵,张明,罗国敏,于冰,洪泽祺.一种利用故障暂态过程的柔性直流配电网故障测距方法[J].电网技术,2017,41(3):985-992. 被引量：45
8姚楠,彭敦陆.MapReduce架构下的大规模轨迹数据压缩策略[J].小型微型计算机系统,2017,38(5):941-945. 被引量：2
9孙德才,王晓霞.一种基于MapReduce的大数据集相似自连接算法[J].计算机科学,2017,44(5):20-25. 被引量：3
10陈锦铭,李岩,孔月萍,郭雅娟,邹云峰,朱道华.含高渗透率分布式光伏的配电网故障停电损失评估[J].电力需求侧管理,2017,19(5):18-22. 被引量：9

引证文献3

1高超,薛毓强,林雨丰.基于时间常数的直流配电网故障测距方案[J].电器与能效管理技术,2019,0(22):68-76. 被引量：1
2贾丽娜.基于大数据处理平台的计算任务调度的配置优化[J].电脑编程技巧与维护,2021(1):106-107. 被引量：1
3张婷.基于无限深度神经网络的非平衡大数据集群匿名化调度算法[J].计算技术与自动化,2022,41(3):71-76. 被引量：4

二级引证文献6

1林成镇,郑昕.低压配电电缆巡检用非接触式电压传感器的仿真与实验分析[J].电器与能效管理技术,2020(7):1-7. 被引量：3
2同军红.基于B-CNN模型的非平衡大数据智能分类方法研究[J].信息与电脑,2023,35(15):162-164. 被引量：2
3沙伟燕,胡伟,何宁辉,张涛,谢海滨.大规模虚拟储能平抑新能源功率预测误差优化调度方法[J].电力科学与技术学报,2023,38(6):167-174. 被引量：2
4苗盈涵.基于大数据分析的分布式电力系统优化调度研究[J].光源与照明,2024(5):114-116.
5董慧.基于蚁群优化的变电站通信网络负荷信息调度技术[J].通信电源技术,2024,41(20):86-88.
6余华东,张步忠,濮光宁.无线网络突发流量数据分区调度方法[J].海南热带海洋学院学报,2024,31(5):80-87.

1崔丽娜.基于聚类的非平衡K-NN分类方法[J].现代计算机,2017,23(22):6-9.
2王庆超,付光远,汪洪桥,辜弘扬,王超.基于局部空间变稀疏约束的多核学习方法[J].电子学报,2018,46(4):930-937. 被引量：4
3孙艳歌,王志海,白洋.一种面向不平衡数据流的集成分类算法[J].小型微型计算机系统,2018,39(6):1178-1183. 被引量：4
4京津冀“智慧供热”彰显协同破题思路[J].供热制冷,2018,0(5):18-18.
5陈洋波,窦鹏,张涛.基于Landsat的多分类器集成遥感影像分类[J].测绘科学,2018,43(8):97-103. 被引量：9
6袁泉,郭江帆.新型含噪数据流集成分类的算法[J].计算机应用,2018,38(6):1591-1595. 被引量：24
7陈涛.基于教与学优化算法的基因表达谱选择性集成分类[J].科学技术与工程,2018,18(21):232-238. 被引量：2
8黄天云,刘一平.基于二类Logistic回归的小微企业网贷在线评估及实现[J].西南民族大学学报（自然科学版）,2018,44(4):381-389. 被引量：1
9侯莉莎.大数据集合中冗余特征排除的聚类算法设计[J].现代电子技术,2018,41(14):48-50. 被引量：9
10安喆,徐熙平,杨进华,乔杨,刘洋.结合图像语义分割的增强现实型平视显示系统设计与研究[J].光学学报,2018,38(7):77-83. 被引量：21

数据采集与处理

2018年第3期

浏览历史

内容加载中请稍等...

基于MapReduce和上采样的两类非平衡大数据集成分类被引量：3

参考文献6

二级参考文献399

共引文献2498

同被引文献29

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于MapReduce和上采样的两类非平衡大数据集成分类 被引量：3

参考文献6

二级参考文献399

共引文献2498

同被引文献29

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于MapReduce和上采样的两类非平衡大数据集成分类被引量：3