基于近邻噪声处理的KNN缺失数据填补算法被引量：29

Predicting Missing Values with KNN Based on the Elimination of Neighbor Noise

下载PDF

导出

摘要在优化算法的研究中,针对KNN算法对缺失数据的填补效果会因为原始数据中存在噪声而受到严重影响的问题,根据待填补缺失数据最近邻的近邻关系,提出了一种新的缺失数据填补算法——ENN-KNN(Eliminate Neighbor Noise k-Nearest Neighbor)。通过比较待填补缺失数据每个最近邻的真实近邻程度能够有效地识别潜在的噪声最近邻。最后使用所有非噪声最近邻对待填补缺失数据进行填补,从而消除了噪声最近邻对填补结果的影响。通过观察四组UCI数据集的仿真结果,可知ENN-KNN算法的填补准确性总体上要优于KNN算法。 Traditional KNN imputation method for dealing with missing data is severely affected by the noise in the original data. This paper presents a novel imputation method for dealing with missing data, which is based on the relationship of nearest neighbors of missing data ENN-KNN（ Eliminate Neighbor Noise k-Nearest Neighbor）. ENN -KNN imputation method can effectively identify potential noise nearest neighbor by comparing each real nearest de- gree of nearest neighbor of missing data. It uses all nearest neighbors which are not noise nearest neighbor to deal with missing data, for this reason it can eliminate the effect of noise nearest neighbor for dealing with missing data. The experiment results of four groups of UCI data sets show that the ENN-KNN imputation method is overall superior to KNN imputation method on the performance of prediction accuracy.

作者郝胜轩宋宏周晓锋

机构地区中国科学院沈阳自动化研究所中国科学院大学

出处《计算机仿真》 CSCD 北大核心 2014年第7期264-268,共5页 Computer Simulation

基金北京市自然科学基金(7110001)

关键词缺失数据填补近邻噪声最近邻 Missing data imputation Nearest neighbors Noise nearest neighbor

分类号 TP391.9 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献5

1郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：266
2王改堂,李平,苏成利.基于多K最近邻回归算法的软测量模型[J].信息与控制,2011,40(5):639-645. 被引量：6
3李稚楹,杨武,谢治军.PageRank算法研究综述[J].计算机科学,2011,38(B10):185-188. 被引量：48
4李文杰,李文明.基于k-近邻算法的定位方法设计和仿真[J].计算机仿真,2009,26(4):194-196. 被引量：10
5潘章明,陈尹立.基于共享反K近邻的局部离群点检测算法[J].计算机仿真,2013,30(2):269-273. 被引量：7

二级参考文献71

1冯瑞,张玥杰,张艳珠,邵惠鹤.基于加权支持向量机的移动建模方法及其在软测量中的应用(英文)[J].自动化学报,2004,30(3):436-441. 被引量：11
2董梅,杨曾,张健,王能.基于信号强度的无线局域网定位技术[J].计算机应用,2004,24(12):49-52. 被引量：36
3熊志化,张继承,邵惠鹤.基于高斯过程的软测量建模[J].系统仿真学报,2005,17(4):793-794. 被引量：37
4张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
5戚华春,黄德才,郑月锋.具有时间反馈的PageRank改进算法[J].浙江工业大学学报,2005,33(3):272-275. 被引量：27
6常玉清,邹伟,王福利,毛志忠.基于支持向量机的软测量方法研究[J].控制与决策,2005,20(11):1307-1310. 被引量：18
7黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146. 被引量：69
8李勇,邵诚.一种新的灰关联分析算法在软测量中的应用[J].自动化学报,2006,32(2):311-317. 被引量：21
9袁平,毛志忠,王福利.基于多支持向量机的软测量模型[J].系统仿真学报,2006,18(6):1458-1461. 被引量：18
10廖巍,熊伟,王钧,景宁,钟志农.可伸缩的增量连续k近邻查询处理[J].软件学报,2007,18(2):268-278. 被引量：10

共引文献331

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：5
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
4周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
5宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
6毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
7曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：31
8刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量：11
9李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
10邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究[J].计算机工程与应用,2004,40(30):175-177. 被引量：5

同被引文献219

1孙华东,周孝信,李若梅.感应电动机负荷参数对电力系统暂态电压稳定性的影响[J].电网技术,2005,29(23):1-6. 被引量：95
2陈曦,李翔晨,李炜,楼宗元.基于信息熵的谣言信息度量方法[J].华中科技大学学报（自然科学版）,2013,41(S1):413-417. 被引量：5
3武建虎,贺佳,贺宪民,程红岩.多变量缺失数据的不同处理方法及分析结果比较[J].第二军医大学学报,2004,25(9):1013-1016. 被引量：17
4晏敏,彭楚武,颜永红,曾云,曾健平.红外测温原理及误差分析[J].湖南大学学报（自然科学版）,2004,31(5):110-112. 被引量：77
5孙磊,刘春红,王永红,韩变玲,路东庆.采油井远程测控指挥系统的研制与应用[J].信息技术,2005,29(3):20-22. 被引量：1
6韩松来,张辉,周华平.基于关联度函数的决策树分类算法[J].计算机应用,2005,25(11):2655-2657. 被引量：36
7杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
8张国英,沙芸,江慧娜.基于粒子群优化的快速KNN分类算法[J].山东大学学报（理学版）,2006,41(3):120-123. 被引量：8
9林升梁,刘志.基于RBF核函数的支持向量机参数选择[J].浙江工业大学学报,2007,35(2):163-167. 被引量：143
10张景超,张承学,鄢安河,张鹏飞,李奎.基于自组织神经网络和稳态模型的多台感应电动机聚合方法[J].电力系统自动化,2007,31(11):44-48. 被引量：14

引证文献29

1林春艳,孙艾维,陆达钧.区域性能耗监测平台数据质量保障方法探讨[J].建筑科学,2020,36(S02):402-408. 被引量：3
2冉娟,任琼.关于大数据存储过程中缺失信息检测仿真[J].计算机仿真,2018,35(12):451-455. 被引量：3
3伊卫国,冯向营.不完备数据集的关联分析填补方法及应用[J].大连交通大学学报,2015,36(6):99-101. 被引量：1
4韩飞,沈镇林.基于不完备集双聚类的缺失数据填补算法[J].计算机工程,2016,42(4):20-26. 被引量：12
5王江涛,陈锻生,温新竹.基于Hadoop平台的KNN分类器的优化和实现[J].太原理工大学学报,2016,47(4):513-517. 被引量：2
6吴蔚沁.基于机器学习算法的建筑能耗监测数据异常识别及修复方法[J].建设科技,2017(9):60-62. 被引量：15
7孙瑞.虚拟计算机数据存储空间稳定性优化仿真[J].计算机仿真,2017,34(9):345-348. 被引量：7
8张睿萍,马宗梅.大数据网络信息系统缺失优化检测仿真研究[J].计算机仿真,2017,34(9):428-431. 被引量：2
9张朋.大数据中用户所需信息资源检测仿真[J].计算机仿真,2017,34(11):422-425. 被引量：1
10曹勇,崔治国,武根峰,刘辉,李冉.基于机器学习算法的空调系统运行数据噪声识别与清洗技术研究[J].建筑节能,2018,46(5):79-83. 被引量：4

二级引证文献142

1丁剑明.基于EMD-LSTM的DAS系统巷道安全监测方法[J].工矿自动化,2024,50(S01):21-24.
2周雨航,车明亮,王晓文,钞振华,张驰,于扬鸿.图像分类方法对比评价研究[J].智能计算机与应用,2021,11(11):43-48.
3李凡东,陈鹏.热处理炉群集散控制系统(DCS)[J].金属热处理,2000,25(3):44-46. 被引量：1
4韩帅,张黎,谭兴国,李庆民,娄杰.基于损耗分析的大容量高频变压器铁芯材料选型方法[J].高电压技术,2012,38(6):1486-1491. 被引量：32
5路玫,曹大明,王宪龄,赵喜新.穴贴扶正升白膏对化疗小鼠造血及免疫系统的实验研究[J].河南中医,2000,20(3):17-19. 被引量：2
6吴治刚.稳态网络海量可公开数据完整性高效检测仿真[J].计算机仿真,2019,36(1):449-452. 被引量：4
7袁浩.网络教学资源利用率优化管理仿真研究[J].计算机仿真,2017,34(10):221-224. 被引量：8
8冯巍,邱占芝,宋旭东.基于分布式K近邻的护舷撞击能量预测法[J].计算机工程与设计,2017,38(10):2740-2744. 被引量：1
9张朋.大数据中用户所需信息资源检测仿真[J].计算机仿真,2017,34(11):422-425. 被引量：1
10梁剑波,梁丽香.大数据环境下特征数据优化提取仿真[J].计算机仿真,2017,34(12):345-348. 被引量：4

1郑奇斌,刁兴春,曹建军,周星,许永平.结合局部敏感哈希的k近邻数据填补算法[J].计算机应用,2016,36(2):397-401. 被引量：4
2韩飞,沈镇林.基于不完备集双聚类的缺失数据填补算法[J].计算机工程,2016,42(4):20-26. 被引量：12
3高雅平,陈一民,邹一波,黄晨,高明柯,李启明.优化改进的深度图像空洞填补算法[J].计算机工程与设计,2016,37(11):3040-3044. 被引量：2
4张赤,丰洪才,金凯,杨婷.基于聚类分析的缺失数据最近邻填补算法[J].计算机应用与软件,2014,31(5):282-284. 被引量：13
5邵晓晨,宋蕊.CSRimpute算法填补效果的正则化参数灵敏度分析[J].中国管理信息化,2016,19(23):159-162.
6张婵.一种基于支持向量机的缺失值填补算法[J].计算机应用与软件,2013,30(5):226-228. 被引量：15
7符欲梅,朱芳,昝昕武.基于支持向量机的桥梁健康监测系统残缺数据填补[J].传感技术学报,2012,25(12):1706-1710. 被引量：7
8晁静.一种改进的缺值属性填补方法[J].西部大开发（中旬刊）,2012(8):107-107.
9何云,皮德常.基于精简关联度的基因表达数据迭代填补算法[J].计算机科学,2015,42(11):251-255. 被引量：3
10毛玫静,鄂旭,谭艳,杨明婧.基于属性相关度的缺失数据填补算法研究[J].计算机工程与应用,2016,52(6):74-79. 被引量：9

计算机仿真

2014年第7期

浏览历史

内容加载中请稍等...

基于近邻噪声处理的KNN缺失数据填补算法被引量：29

参考文献5

二级参考文献71

共引文献331

同被引文献219

引证文献29

二级引证文献142

相关作者

相关机构

相关主题

浏览历史

基于近邻噪声处理的KNN缺失数据填补算法 被引量：29

参考文献5

二级参考文献71

共引文献331

同被引文献219

引证文献29

二级引证文献142

相关作者

相关机构

相关主题

浏览历史

基于近邻噪声处理的KNN缺失数据填补算法被引量：29