基于LPP和l_(2,1)的KNN填充算法

KNN Imputation Algorithm Based on LPP and l_(2,1)

下载PDF

导出

摘要传统的KNN缺失值填充算法存在没有利用样本间属性的相关性,也没有考虑到保持样本数据本身的结构和去除噪声样本的问题。本文提出利用训练样本重构测试样本从而进行最近邻缺失值填充的方法,该方法重构过程充分利用样本间的相关性,也用到LPP(保局投影)保持数据结构在重构过程中不变,同时引入l2,1范式用于去除噪声样本。在UCI数据集上的仿真实验结果表明,该方法比传统的KNN填充算法以及基于属性信息熵的Entropy-KNN算法有更高的预测准确度。 Traditional KNN missing data filling algorithm does not utilize the correlation between the properties of samples,Neither considers but also does not consider to maintain the sample structures and removes noise samples.In this paper,a method of using training samples to reconstruct the test sample is proposed,which is used for the nearest neighbor missing data imputation.The method makes full use of the correlation between samples,uses the LPP（locality preserving projection）to maintain the data structure in the process of reconstruction,and uses l2,1norm to remove noise samples.Simulation experiments on UCI data sets show that the proposed method has higher prediction accuracy than the traditional KNN algorithm and Entropy-KNN algorithm based on attribute information entropy.

作者苏毅娟孙可邓振云尹科军

机构地区广西师范学院计算机与信息工程学院广西师范大学计算机科学与信息工程学院广西师范大学广西多源信息挖掘与安全重点实验室

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2015年第4期55-62,共8页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金资助项目(61170131 61263035 61363009) 国家863计划资助项目(2012AA011005) 国家973计划资助项目(2013CB329404) 广西自然科学基金资助项目(2012GXNSFGA060004 2015GXNSFAA139306) 广西八桂创新团队和广西百人计划资助项目

关键词缺失值填充 K最近邻保局投影重构 missing data imputation KNN LPP reconstruction

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献17

1ZHANG Shi-chao , JIN Zhi , ZHU Xiao-feng. Missing data imputation by utilizing information within incomplete instances[J].Journal of Systems and Software, 2011 ,84(3) :452-459. 被引量：1
2ZHU Xiao-feng, ZHANG Shi-chao , JIN Zhi, et al. Missing value estimation for mixed-attribute data sets[J]. IEEE Trans Knowl Datp. Eng,2011,23(1):110-121. 被引量：1
3ZHANG Shi-chao , ZHANG Cheng-qi. Propagating temporal relations of intervals by matrix[J]. Applied Artificial Intelligence, 2002,16 (1) : 1-27. 被引量：1
4SILVA-RAMIREZ E L, PINO-MEJIAS R, LOPEZ-COELLO M, et al. Missing value imputation on missing completely at random data using multilayer perceptrons[J].Neural Networks,2011,24(1) :121-129. 被引量：1
5BU Fan-yu , CHEN Zhi-kui , ZHANG Qing-chen , et al.Incomplete high-dimensional data imputation algorithm using feature selection and clustering analysis on cloud[EB/OL]. (2015-05-06) [2015-06-22]. http://link. springer. com / article/10.1007 I s11227-015-1433-9. 被引量：1
6RAHMAN M G,ISLAM M Z.FIMUS: a framework for imputing missing values using co-appearance, correlation and similarity analysis[J].Knowl Based Syst,2014,56:311-327. 被引量：1
7ZHU Xiao-feng,HUANG Zi,SHEN Heng-tao v et al.Dimensionality reduction by mixed kernel canonical correlation analysis[J].Pattern Recognition, 2012 ,45(8) : 3003-3016. 被引量：1
8ZHU Xiao-feng,HUANG Zi,CHENG Hong vet al.Sparse hashing for fast multimedia search[J].ACM Trans Inf Syst , 2013,31 (2) : 9. 被引量：1
9ZHU Xiao-feng,HUANG Zi, YANG Yang,et al.Self-taught dimensionality reduction on the high-dimensional smallsized data[J].Pattern Recognition,2013,46(l) :215-229. 被引量：1
10HE Xiao-fei,NIYOGI P.Locality preserving projections[C]//THRUN S, SAUL L K, SCHOLKOPF B. Advances in Neural Information Processing Systems 16. Cambridge, MA: MIT Press, 2004:153-160. 被引量：1

二级参考文献13

1魏孝章,豆增发.一种基于信息增益的K-NN改进算法[J].计算机工程与应用,2007,43(19):188-191. 被引量：9
2Wu Xindong,Kumar V,Quinlan J R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2008,14(1 ): 1-37. 被引量：1
3HanJiawei MichelineKambe.数据挖掘概念与技术[M].北京：机械工业出版社,2001.. 被引量：149
4MITCHELL TM.机器学习[M].曾华军,张银奎.北京:机械工业出版社,2003. 被引量：30
5Paolo S. A Multi-objective Optimization Approach for Class Imbalance Learning[J]. Pattern Recognition, 2011, 44(8): 1801- 1810. 被引量：1
6Tan Songbo. Neighbor-weighted K-nearest Neighbor for Unbalanced Text Corpus[J]. Expert Systems with Applications, 2005, 28(4): 667-671. 被引量：1
7Jason V H, Taghi K. Knowledge Discovery from Imbalanced and Noisy Data[J]. Knowledge and Data Engineering, 2009, 68(12): 1513-1542. 被引量：1
8Holland J H. Adaptation in Nature and Artificial Systems[M]. Ann Arbor, USA: The University of Michigan Press, 1975. 被引量：1
9陆微微,刘晶.一种提高K-近邻算法效率的新算法[J].计算机工程与应用,2008,44(4):163-165. 被引量：22
10郝秀兰,陶晓鹏,徐和祥,胡运发.kNN文本分类器类偏斜问题的一种处理对策[J].计算机研究与发展,2009,46(1):52-61. 被引量：33

共引文献59

1王玲,姬长英,陈兵林.黑背景下收获前棉花图像色特征生成及其品级聚类分析[J].棉花学报,2007,19(2):119-123. 被引量：3
2周靖,刘晋胜.一种采用类相关度优化距离的KNN算法[J].微计算机应用,2010,31(11):7-12. 被引量：15
3许燕青.基于平均距离的K-近邻分类改进算法[J].电脑编程技巧与维护,2010(24):41-42.
4周靖,刘晋胜.采用特征相关性差异优化距离的改进k近邻算法[J].计算机工程与设计,2011,32(9):3178-3181.
5童先群,周忠眉.基于层次聚类法的Entropy-KNN算法[J].漳州师范学院学报（自然科学版）,2012,25(1):43-47. 被引量：2
6徐永华,李广水.基于距离加权模板约简和属性信息熵的增量SVM入侵检测算法[J].计算机科学,2012,39(12):76-78. 被引量：10
7李娟,王宇平.基于维样本近邻区间的分类算法研究[J].华中科技大学学报（自然科学版）,2012,40(12):39-43. 被引量：1
8郑洁,秦永彬,许道云.基于Relief的特征加权壳近邻分类算法[J].计算机工程与设计,2013,34(3):951-954. 被引量：2
9王平霞,郝志廷.决策树技术在高职院校学生成绩分析中的应用研究[J].电脑知识与技术,2013,9(5):2960-2963. 被引量：9
10李泽安,陈建平,章雅娟,赵为华.高维数据挖掘中特征选择的稳健方法[J].计算机应用,2013,33(8):2194-2197. 被引量：3

1刘星毅,农国才.几种不同缺失值填充方法的比较[J].南宁师范高等专科学校学报,2007,24(3):148-150. 被引量：8
2张红霞.缺失值填充:基于信息增益的方法[J].计算机工程与设计,2006,27(24):4810-4812. 被引量：8
3覃泽.基于信息增益的数据库缺失值填充算法[J].微计算机信息,2007,23(04X):180-181. 被引量：4
4金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
5朱曼龙.MkNNI:基于相互最近邻的缺失值填充新方法[J].现代计算机,2012,18(21):8-11. 被引量：3
6徐宇明,陈诚,熊赟,朱扬勇.APT-KNN:一种面向分类问题的高效缺失值填充算法[J].计算机应用与软件,2011,28(4):135-139. 被引量：12
7苏毅娟,程德波,宗鸣,李凌,朱永华.稀疏编码的最近邻填充算法[J].计算机应用研究,2015,32(7):1942-1945. 被引量：3
8赵亮,陈志奎,张清辰.基于分布式减法聚类的不完整数据填充算法[J].小型微型计算机系统,2015,36(7):1409-1414. 被引量：10
9简彩仁,陈晓云.基于稀疏表示和最小二乘回归的基因表达数据分类方法[J].福州大学学报（自然科学版）,2015,43(6):738-741. 被引量：5
10宗鸣,龚永红,文国秋,程德波,朱永华.基于稀疏学习的kNN分类[J].广西师范大学学报（自然科学版）,2016,34(3):39-45. 被引量：8

广西师范大学学报（自然科学版）

2015年第4期

浏览历史

内容加载中请稍等...

基于LPP和l_(2,1)的KNN填充算法

参考文献17

二级参考文献13

共引文献59

相关作者

相关机构

相关主题

浏览历史