随机森林填补算法在对不完备信息系统填补时具有可靠的填补性能,同时由于填补时需要多次进行随机森林建模导致算法计算量大。为了缩短算法的运行时间,提出了NKNNI-RFI(normalization k nearest neighbor imputation-random forest imput...随机森林填补算法在对不完备信息系统填补时具有可靠的填补性能,同时由于填补时需要多次进行随机森林建模导致算法计算量大。为了缩短算法的运行时间,提出了NKNNI-RFI(normalization k nearest neighbor imputation-random forest imputation)缺失数据填补算法。通过改变R F I算法中预填补,即使用填补更为准确的归一化KNNl(normalization k nearest neighbor imputation,NKNNI)作为预填补,为RFI算法中使用随机森林模型预测填补值提供了更接近于原始数据集的数据,使RFI算法能够在更短的时间内完成填补任务且保持良好的填补效果。实验中使用10个UCI标准数据集,将提出的算法与RFI、NKNNI、SVMI和R0USTIDA算法进行比较并使用NRMSE、PFC和A R T填补评价方法对算法效果进行评价。实验结果表明:提出算法的NRMSE和PFC与RFI算法相同,NRMSE比NKNN1、SVM1和R0USTIDA算法约低0.02~0.8,PFC比NKNNI、SVMI和R0USTIDA算法约低0.01~0.6,ART相比RFI算法最大减少程度达53%。展开更多
文摘随机森林填补算法在对不完备信息系统填补时具有可靠的填补性能,同时由于填补时需要多次进行随机森林建模导致算法计算量大。为了缩短算法的运行时间,提出了NKNNI-RFI(normalization k nearest neighbor imputation-random forest imputation)缺失数据填补算法。通过改变R F I算法中预填补,即使用填补更为准确的归一化KNNl(normalization k nearest neighbor imputation,NKNNI)作为预填补,为RFI算法中使用随机森林模型预测填补值提供了更接近于原始数据集的数据,使RFI算法能够在更短的时间内完成填补任务且保持良好的填补效果。实验中使用10个UCI标准数据集,将提出的算法与RFI、NKNNI、SVMI和R0USTIDA算法进行比较并使用NRMSE、PFC和A R T填补评价方法对算法效果进行评价。实验结果表明:提出算法的NRMSE和PFC与RFI算法相同,NRMSE比NKNN1、SVM1和R0USTIDA算法约低0.02~0.8,PFC比NKNNI、SVMI和R0USTIDA算法约低0.01~0.6,ART相比RFI算法最大减少程度达53%。