针对机器学习中残缺数据的近似补全方法被引量：5

Approximate Imputation Method for Missing Data in Machine Learning

下载PDF

导出

摘要针对机器学习中含残缺项的数据不能被有效利用,导致分类和回归准确率不高的问题,提出了一种近似补全方法——k-ANNO方法。给定残缺的数据样本,该方法首先通过离线构建的图结构来近似搜索与该样本最接近的k个近邻顶点,然后采用快速二次规划估计各近邻的最优权重,最后基于权重值来补全样本中的残缺项,用户可以根据实际需求在补全效率与准确性之间折中。k-ANNO方法较好地解决了机器学习中普遍存在的数据残缺问题,有效抑制了数据残缺对分类和回归精度的干扰。利用多份公开数据集评估了k-ANNO方法的补全效果,结果表明:当加速比在2~10之间时,k-ANNO方法的分类错误率比已有的均值补全、C均值补全、自组织映射补全方法低1%~4%,回归均方根误差比已有方法低约0.5~2.0;当样本规模为4 000时,在不同加速比参数下,k-ANNO方法的计算效率比朴素k近邻方法高约35%~320%。 An approximate imputation method called k-ANNO is proposed to handle the problems of missing data in machine learning field given a missing sample.The proposed method begins by constructing an offline graph to approximately search nearest neighbors of the partially missing sample efficiently.Then a fast quadratic programming algorithm is utilized to determine the optimal weight for each neighbor.Finally,unmissed parts of the neighbors are used to impute the missing attributes by the estimated weights.Users get the freedom to weigh up between efficiency and imputation accuracy.The widespread data missing problems are well solved in this paper and k-ANNO is able to depress the impact of missing data effectively.Experiments on various well known datasets show that when the speedup rate parameters are between 2 and 10,k-ANNO method outperforms existing ones such as mean imputation or C-Means imputation etc.and the classification error and the regression error are 1% to 4% and 0.5-2.0 lower than those,respectively.Meanwhile,k-ANNO outperforms nave k-NN imputation with a faster efficiency increased by 35%-320% faster.

作者曹卫权褚衍杰李显 CAO Weiquan;CHU Yanjie;LI Xian(National Key Laboratory of Science and Technology on . Blind Signal Processing,610041, China)

机构地区盲信号处理重点实验室

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2017年第10期142-148,共7页 Journal of Xi'an Jiaotong University

基金国家自然科学基金资助项目(U1536105)

关键词机器学习残缺项二次规划补全方法 machine learning missing attributes quadratic programming imputation method

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1杨雷,李贵鹏,张萍.无线传感网络数据缺失下的通信优化仿真[J].计算机仿真,2013,30(12):249-252. 被引量：9
2孟杰,李春林.基于随机森林模型的分类数据缺失值插补[J].统计与信息论坛,2014,29(9):86-90. 被引量：27
3张孙力,杨慧中.基于改进的K近缺失数据补全[J].计算机与应用化学,2015,32(12):1499-1502. 被引量：8
4张晓琴,程誉莹.基于随机森林模型的成分数据缺失值填补法[J].应用概率统计,2017,33(1):102-110. 被引量：30
5吴小姣,李高明,易大莉,刘岭,张彦琦,易东,伍亚舟.基因表达谱的非参缺失森林填补算法研究[J].中国卫生统计,2016,33(6):1068-1070. 被引量：5

二级参考文献28

1毕艳忠,孙利民.传感器网络中的数据融合[J].计算机科学,2004,31(7):101-103. 被引量：23
2张思才,张方晓.一种遗传算法适应度函数的改进方法[J].计算机应用与软件,2006,23(2):108-110. 被引量：51
3徐磊,武坤.基于遗传算法的多目标QoS多播路由算法[J].电脑与信息技术,2006,14(6):12-15. 被引量：3
4周四望,林亚平,聂雅琳,王继良,张锦.无线传感器网络中基于数据融合的移动代理曲线动态路由算法研究[J].计算机学报,2007,30(6):894-904. 被引量：40
5Pang Ming - bao, Hao Xin - ping. Traffic Flow Prediction of chaos Time Series by Using Subtractive Clustering for Fuzzy Neural Net- work Modeling[C]. Second International Symposium on Intelligent Information Technology Application ,2008 -3:1364 - 1367. 被引量：1
6J Zhao, R Govindan, D Estrin. Residual energy scans for monitoring wireless sensor networks[C]. Proceedings of the IEEE Wilress Communications and Networking Conference ( WCNC' 02), 2002 : 17 -21. 被引量：1
7K Homik and M Stinehcombe. Multilayer Feedforward Networks Are Universal Approximators[J]. Neural Networks, 2, 1989:356 - 366. 被引量：1
8Qi Yu, Yoan Miche. Regularized extreme learning machine for regression with missing data. Neurocomputing, 2013, 102:45-51. 被引量：1
9Lakshminarayan K, et al. Imputation of missing data in industrial databases. Applied Intelligence, 1999, 11:259-275. 被引量：1
10Gerhard Tutz, Shahla Ramzan. Improved methods for the imputation of missing data by nearest neighbor methods. Computational Statistics and Data Analysis, 2015, 90:84-99. 被引量：1

共引文献72

1尹谷双,廖茜茜,朱龙昌,朱锴,杨正乾,陈斌.基于深度学习的变压器故障后验分析[J].云南电业,2024(1):24-28.
2尹谷双,廖茜茜,朱龙昌,朱锴,杨正乾,陈斌.基于深度学习的变压器故障后验分析[J].云南电业,2023(11):29-34.
3朱力,王盛利,于立.弹道导弹的雷达探测系统仿真[J].计算机仿真,2000,17(1):46-48. 被引量：1
4程开富,刘心莲.HWLPCVD多晶硅薄膜的制备及性能分析[J].四川真空,2000(1):23-23.
5谢娅娅.无线传感网络通信优化仿真分析[J].电子技术与软件工程,2014(9):79-79.
6李俊松,苏艳涛.无线传感网络通信的优化研究[J].信息通信,2014,27(8):38-38.
7兰风星,刘继周.无线传感网络数据缺失的通信仿真优化分析[J].中国电子商务,2014,0(22):84-84.
8程钢,郑富娥.传感器数据定位测距算法优化仿真与研究[J].计算机仿真,2015,32(12):284-286. 被引量：2
9王秀玲,王海晶,金睿,陈冶灿.基于加权数据融合的传感器定位测距算法[J].计算机仿真,2016,33(3):250-253. 被引量：2
10刘展,金勇进,韩显男.基于倾向得分匹配的缺失数据插补方法[J].数学的实践与认识,2016,46(12):193-201. 被引量：3

同被引文献40

1《中国信用》杂志编辑部电子商务领域信用建设研究课题组.电子商务领域“双十一”信用环境评价和提示(2020年度)[J].中国信用,2020(11):22-33. 被引量：1
2阮仁宗,冯学智,肖鹏峰,沈渭寿.基于机器学习规则推理的湿地识别研究[J].地理科学,2005,25(6):731-736. 被引量：4
3张宝雷,张淑敏,周万村.基于多源数据的若尔盖湿地土地利用遥感自动调查[J].土壤,2008,40(2):283-287. 被引量：13
4李春艳,华德尊,陈丹娃,王萍,任佳.人工神经网络在城市湿地生态环境质量评价中的应用[J].北京林业大学学报,2008,30(S1):282-286. 被引量：7
5金勇进.缺失数据的插补调整[J].数理统计与管理,2001,20(6):47-53. 被引量：68
6张网娟,许国艳,李敏佳,朱帅.基于卷积神经网络的缺失数据填充方法[J].微电子学与计算机,2019,36(3):48-52. 被引量：9
7孟杰,李春林.基于随机森林模型的分类数据缺失值插补[J].统计与信息论坛,2014,29(9):86-90. 被引量：27
8卜范玉,陈志奎,张清辰.基于深度学习的不完整大数据填充算法[J].微电子学与计算机,2014,31(12):173-176. 被引量：12
9陈云,石松,潘彦,俞立.基于SVM混合集成的信用风险评估模型[J].计算机工程与应用,2016,52(4):115-120. 被引量：27
10刘建明,唐霞,李龙.基于机器学习的VoIP流量在线识别系统[J].电子技术应用,2016,42(8):133-137. 被引量：5

引证文献5

1安强强,张峰,李赵兴,张雅琼.基于机器学习的VoIP流量在线识别系统设计与实现研究[J].电子设计工程,2018,26(16):103-106. 被引量：2
2毛颖颖.可扩展机器学习中残缺数据补全方法研究[J].信息与电脑,2018,30(17):32-33.
3陈忠升.基于机器学习规则推理的湿地识别研究[J].科学大众（科技创新）,2020(10):103-104.
4陈艳,蒋伟杰.电商企业信用风险预警模型的缺失值鲁棒性[J].福建电脑,2021,37(8):56-59. 被引量：1
5岳志强.基于机器学习算法的运动员训练效果评估研究[J].电子设计工程,2021,29(20):110-114. 被引量：4

二级引证文献7

1李芳菊.基于Hadoop的网络行为大数据安全实体识别系统设计[J].现代电子技术,2019,42(17):75-79. 被引量：15
2张晋博,丁传红.基于神经网络的模数转换电路动态误差源识别系统设计[J].现代电子技术,2019,42(21):53-57. 被引量：30
3张旭,谌莉.体育娱乐用品零售价格指数预测研究——基于深度学习算法的分析[J].价格理论与实践,2021(9):116-119. 被引量：2
4许浩天.基于国内体育数据科学的应用研究综述[J].文体用品与科技,2023(6):105-107.
5李崇敏,潘道雍.运动员训练评估模型双值系数修正分析[J].内蒙古师范大学学报（自然科学汉文版）,2023,52(6):645-650.
6孙媛.大数据背景下的电子商务信用风险预警研究[J].佳木斯大学学报（自然科学版）,2024,42(4):52-55. 被引量：1
7张晓明.针对篮球罚篮命中率的目标检测、姿态分析算法设计[J].集宁师范学院学报,2024,46(3):65-70.

1林源.展厅内外——全国城市雕塑设计方案展览侧记[J].美术,1984(7):21-23.
2贺敬之.迎接我国城市雕塑事业的黄金时代——在全国城市雕塑第二次规划会议上的讲话[J].美术,1984(7):3-6. 被引量：2
3全山石.从挫折中见光明[J].美术,1962(1):48-50. 被引量：3
4蔡道法.初中代数解题中几个常用方法[J].数学教学通讯,1983,0(3):23-25.
5李书甫.政治选择题的分类与解题方法[J].思想政治课教学,1987,0(4):44-45.
6郭文超.会计业务计算题预测和计算人平利润率[J].武汉财会,1986(3).
7全国城市雕塑设计方案展览开幕全国城市雕塑第二次规划会议同时召开[J].美术,1984(6).
8最优权重组合模型和高光谱估算苹果叶片全磷含量[J].中国园艺文摘,2017,33(11):233-233.
9马熙茹.用共产主义思想育人的一点体会全国“五讲四美”为人师表代表会议先进个人[J].思想政治课教学,1983,0(5):29-30.
10施怀东.充满哲理的小溪[J].思想政治课教学,1985,0(9):46-47.

西安交通大学学报

2017年第10期

浏览历史

内容加载中请稍等...

针对机器学习中残缺数据的近似补全方法被引量：5

参考文献5

二级参考文献28

共引文献72

同被引文献40

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

针对机器学习中残缺数据的近似补全方法 被引量：5

参考文献5

二级参考文献28

共引文献72

同被引文献40

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

针对机器学习中残缺数据的近似补全方法被引量：5