完整的PM_(2.5)时空数据集是实现大气污染防治的关键。然而,实时获取的PM_(2.5)数据集容易受机器故障、人为失误、大气等因素影响普遍存在缺失。针对现有缺失值重构方法未能充分顾及PM_(2.5)日周期性及其与影响因子之间的复杂关系等问题...完整的PM_(2.5)时空数据集是实现大气污染防治的关键。然而,实时获取的PM_(2.5)数据集容易受机器故障、人为失误、大气等因素影响普遍存在缺失。针对现有缺失值重构方法未能充分顾及PM_(2.5)日周期性及其与影响因子之间的复杂关系等问题,本文提出了一种顾及日周期性的PM_(2.5)站点缺失值重构方法(Daily Periodicity-Based Spatial-Temporal Interpolation,DP-STF)。DP-STF首先以日观测数据为处理单元基于时空相关性对缺失位置筛选最优时空邻域,然后利用P-BSHADE(Point Estimation Model of Biased Sentinel Hospital-based Area Disease Estimation)顾及时空异质性以迭代方式对缺失数据进行时空初始估计,最后利用Stacking集成机器学习拟合PM_(2.5)与其影响因子的复杂时空非线性关系,并用于缺失PM_(2.5)数据估计。以京津冀2020年小时尺度PM_(2.5)站点数据为研究对象,利用DP-STF方法对缺失数据重构并与7种经典方法对比。实验结果表明:相比传统方法,DP-STF精度最优,其平均RMSE、MAE至少降低了39.83%、40.12%,R^(2)至少提高了5.56%。此外,DP-STF还能够有效捕捉PM_(2.5)极值,极大提升了在时空非平稳区的预测精度。展开更多
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插...电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.展开更多
文摘完整的PM_(2.5)时空数据集是实现大气污染防治的关键。然而,实时获取的PM_(2.5)数据集容易受机器故障、人为失误、大气等因素影响普遍存在缺失。针对现有缺失值重构方法未能充分顾及PM_(2.5)日周期性及其与影响因子之间的复杂关系等问题,本文提出了一种顾及日周期性的PM_(2.5)站点缺失值重构方法(Daily Periodicity-Based Spatial-Temporal Interpolation,DP-STF)。DP-STF首先以日观测数据为处理单元基于时空相关性对缺失位置筛选最优时空邻域,然后利用P-BSHADE(Point Estimation Model of Biased Sentinel Hospital-based Area Disease Estimation)顾及时空异质性以迭代方式对缺失数据进行时空初始估计,最后利用Stacking集成机器学习拟合PM_(2.5)与其影响因子的复杂时空非线性关系,并用于缺失PM_(2.5)数据估计。以京津冀2020年小时尺度PM_(2.5)站点数据为研究对象,利用DP-STF方法对缺失数据重构并与7种经典方法对比。实验结果表明:相比传统方法,DP-STF精度最优,其平均RMSE、MAE至少降低了39.83%、40.12%,R^(2)至少提高了5.56%。此外,DP-STF还能够有效捕捉PM_(2.5)极值,极大提升了在时空非平稳区的预测精度。
文摘电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.