Spark环境下不完整数据集成填充方法被引量：6

Integrated Imputation Method of Incomplete Data in Spark

下载PDF

导出

摘要目前已有的不完整数据填充方法大多局限于单一类型的缺失变量,对大规模数据的填充效果相对弱势.为了解决真实大数据中混合类型变量的缺失问题,本文提出了一个新的模型——SXGBI(Spark-based eXtreme Gradient Boosting Imputation),其适应于连续型和分类型两种缺失变量并存的不完整数据填充,同时具备快速处理大数据的泛化能力.该方法通过对集成学习方法XGBoost的改进,将多种补全算法结合在一起,构建了一个集成学习器,并结合Spark分布式计算框架进行了并行化设计,能较好地运行于Spark分布式集群上.实验表明,随着缺失率的增长,SXGBI在RMSE、PFC和F1几项评价指标上都取得了比实验中其它填充方法更好的填充结果.此外,它还可以有效地运用在大规模的数据集上. At present,the existing imputation methods for incomplete data are mostly limited to a single type of missing variables,and the filling effect of large-scale data is relatively weak.In order to cope with the problem of mixed-type variables missing in real big data,this paper proposes a novel model which is suitablefor both continuous and categorical data,contains strong generalization capabilities and can scale up to exceedingly large datasets.Hence,we propose SXGBI(Spark-based eXtreme Gradient Boosting Imputation),a method which combines multiple imputation algorithms to construct an integrated learner by improving an ensemble learning method——XGBoost.With the parallel design of Spark distributed computing framework,XGBoost can run well on Spark distributed cluster.Comparing with existing filling methods,this assumption proves to be powerful since extensive experiments demonstrate that SXGBIcan still achieve better results in RMSE,PFC and F1 than other imputation methods with the increase of the missing rate.Besides,it can be successfully trained on a large-scale dataset.

作者邹萌萍彭敦陆 ZOU Meng-ping;PENG Dun-lu(School of Optional-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2021年第1期111-116,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61772342,61703278)资助。

关键词 SPARK XGBoost 不完整数据填充混合型变量 Spark XGBoost incomplete data imputation mixed-type variables

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1朱明,王春梅,高翔,王静.XGBoost在卫星网络协调态势预测中的应用[J].小型微型计算机系统,2019,40(12):2561-2565. 被引量：5
2李国和,杨绍伟,吴卫江,郑艺峰.基于聚类的连续型数据缺失值充填方法[J].计算机工程,2019,45(9):32-39. 被引量：12
3杨晨,梁意文,谭成予,周雯.结合XGBoost的树突状细胞改进算法[J].计算机工程,2019,45(9):194-197. 被引量：6

二级参考文献20

1杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
2梁斌,徐文福,李成,刘宇.地球静止轨道在轨服务技术研究现状与发展趋势[J].宇航学报,2010,31(1):1-13. 被引量：105
3曹莹,苗启广,刘家辰,高琳.AdaBoost算法研究进展与展望[J].自动化学报,2013,39(6):745-758. 被引量：262
4高晓阳.对卫星网络轨道/频率协调中若干问题的探讨[J].中国空间科学技术,2000,20(3):37-42. 被引量：2
5黄骞,郑颖尔,邓钰桥.基于XGBoost节假日路网流量预测研究[J].公路,2018,63(12):229-233. 被引量：7
6卜范玉,陈志奎,张清辰.基于聚类和自动编码机的缺失数据填充算法[J].计算机工程与应用,2015,51(18):13-17. 被引量：7
7张海燕,潘冀.协调弧的概念及其应用[J].中国无线电,2015,0(9):43-46. 被引量：4
8高科,刁兴春,曹建军.含缺失属性值的问题数据检测与修复[J].计算机工程与设计,2016,37(3):643-649. 被引量：9
9牛咏梅.基于粗糙集的海量数据挖掘算法研究[J].现代电子技术,2016,39(7):115-119. 被引量：10
10韩飞,沈镇林.基于不完备集双聚类的缺失数据填补算法[J].计算机工程,2016,42(4):20-26. 被引量：12

共引文献18

1路玫,曹大明,王宪龄,赵喜新.穴贴扶正升白膏对化疗小鼠造血及免疫系统的实验研究[J].河南中医,2000,20(3):17-19. 被引量：2
2戈士文,张艳,腊胜明,李月华.气血葆口服液与阿霉素合用对荷瘤小鼠化疗的增效作用[J].河南中医,2000,20(3):20-21. 被引量：4
3李鹏飞.基于K-means聚类算法的高校图书馆用户分类及价值评价[J].电子元器件与信息技术,2019,3(9):73-76. 被引量：7
4丁敬安,张欣海,胡博,周国民.基于集成学习的不完备数据补全算法研究[J].中国电子科学研究院学报,2020,15(1):78-83. 被引量：5
5杜春丽,任雪莹,杜子杰.湖北省磷矿资源生态开发效率评估与分类管理[J].金属矿山,2020,49(6):198-203. 被引量：2
6徐伟,孙向阳,邸泽雷坤.改进DCA算法用于工程时序数据异常检测[J].四川职业技术学院学报,2020,30(4):154-160. 被引量：1
7黄紫成,李影.基于模糊C均值聚类的缺失数据填充方法[J].吉首大学学报（自然科学版）,2020,41(2):23-26. 被引量：4
8张艺,周雯,梁意文,谭成予.基于数字微分的函数化树突状细胞算法模型[J].计算机工程,2020,46(9):54-60.
9胡雪,彭敦陆.张量表达下的多模态交通缺失数据补全算法[J].小型微型计算机系统,2021,42(1):105-110. 被引量：3
10韩红桂,赵子凡,伍小龙,杨士恒,何政,赵楠.基于改进随机森林的城市污水处理过程运行数据清洗方法[J].北京工业大学学报,2021,47(5):421-430. 被引量：10

同被引文献63

1刘佳星,张宏烈,刘艳菊,刘彦忠.基于缺失率的不完整数据填补算法[J].统计与决策,2021(2):39-41. 被引量：17
2张川登,张浩,赖敏.电解铝厂整流所综合自动化系统的数据采集方法研究[J].轻金属,2022(12):45-48. 被引量：2
3何辉,薛典军,王林飞,骆遥,田嵩.航空物探空间数据显示平台设计[J].物探与化探,2012,36(4):669-673. 被引量：2
4李清泉,李德仁.大数据GIS[J].武汉大学学报（信息科学版）,2014,39(6):641-644. 被引量：179
5郭丹丹.大数据在会计档案管理中的应用前景[J].内蒙古科技与经济,2014(11):69-72. 被引量：8
6沈琳,胡国清,陈立章,谭红专.缺失森林算法在缺失值填补中的应用[J].中国卫生统计,2014,31(5):774-776. 被引量：11
7吴冲龙,刘刚,张夏林,何珍文,张志庭.地质科学大数据及其利用的若干问题探讨[J].科学通报,2016,61(16):1797-1807. 被引量：74
8蒋晋文,刘伟光.XGBoost算法在制造业质量预测中的应用[J].智能计算机与应用,2017,7(6):58-60. 被引量：29
9吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：75
10冯兴杰,王文超.Hadoop与Spark应用场景研究[J].计算机应用研究,2018,35(9):2561-2566. 被引量：33

引证文献6

1杨宇.基于spark技术的心脏病预测平台研究与设计[J].电子测试,2021,32(17):91-93.
2熊露露,年梅,张俊.基于缺失率的不完整就业预测数据填充算法[J].现代电子技术,2022,45(15):104-108. 被引量：3
3王仕兴,尹小康,何可,赵思为,郭明.基于EMSpark计算框架的电磁大数据分析[J].信息技术与信息化,2022(12):145-150.
4翟小乐,任云鹏,蒋丽铭.基于Spark框架的图书馆文献信息检索方法[J].信息与电脑,2023,35(8):60-62.
5胡建平,严永康.半监督学习算法下数字化信息归并分类仿真[J].计算机仿真,2023,40(12):502-505.
6卢皓天.ArcObject的智慧电厂一体化数据整合技术应用[J].粘接,2024,51(7):173-176.

二级引证文献3

1王娜,张吉,王金鑫.基于改进贝叶斯模型的高校毕业生就业预测方法[J].信息与电脑,2023,35(5):242-244.
2王莉.基于数据挖掘的大学生留省就业趋势预测方法[J].信息与电脑,2023,35(7):56-58.
3罗玫.基于随机森林模型的民办高校毕业生就业预测研究[J].科技经济市场,2023(12):110-112.

1杨利,昌杰,张浩,刘俊彤.基于Xgboost算法的大学生积极心理品质预测及影响因素分析[J].黑龙江工业学院学报（综合版）,2021,21(1):52-56. 被引量：3
2彭瑜.工业人工智能的应用前景及其边缘计算应用[J].自动化博览,2021,38(2):8-11.
3孙咏,刘学生.大数据时代下的数据可视化[J].商业2.0（经济管理）,2020(12):0326-0326.
4郭正齐,张晓丽,王月婷.Sentinel-2A多特征变量反演针叶林地上生物量能力评估[J].北京林业大学学报,2020,42(11):27-38. 被引量：8
5卢正霖.新形势下警务战术指挥[J].法制博览（名家讲坛、经典杂文）,2021(7):187-188.
6范伟,李世光,武志鹏,段晨,宗明成.光刻调焦调平测量系统算法比较研究[J].计算机与数字工程,2021,49(3):427-432. 被引量：1
7李旭阳,牛鑫,胡军星,袁俊锋,孟晗.基于集成学习的智能电网主机恶意软件检测方法[J].重庆大学学报,2021,44(3):144-150. 被引量：6
8黄毓,樊春笋,施亚男.基于CLHLS项目2018年横断面数据的高龄人群高血压、糖尿病患病率及相关因素研究[J].实用临床医药杂志,2021,25(2):49-53. 被引量：12
9黄峻嘉,张琪,赵娜,李蓉,苏宇涵,周涛.基于近视筛查数据的近视影响因素分析和近视预测[J].电子科技大学学报,2021,50(2):256-260. 被引量：20
10游凤,李代伟,张海清,汪杰,彭莉,王震.基于归一化KNNI的随机森林填补算法[J].成都信息工程大学学报,2021,36(1):32-40. 被引量：2

小型微型计算机系统

2021年第1期

浏览历史

内容加载中请稍等...

Spark环境下不完整数据集成填充方法被引量：6

参考文献3

二级参考文献20

共引文献18

同被引文献63

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

Spark环境下不完整数据集成填充方法 被引量：6

参考文献3

二级参考文献20

共引文献18

同被引文献63

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

Spark环境下不完整数据集成填充方法被引量：6