期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
缺失数据插补方法的比较研究 被引量:22
1
作者 宋亮 万建洲 《统计与决策》 CSSCI 北大核心 2020年第18期10-14,共5页
文章通过对样本数据缺失值问题的分析,在随机缺失模式下选择科学有效的插补法对数据缺失问题进行研究,然后以市场中顾客对商品的喜爱度作为调查对象,构建模型对其进行实证分析,并在与多重插补法结合运用的基础上研究不同缺失率下的插补... 文章通过对样本数据缺失值问题的分析,在随机缺失模式下选择科学有效的插补法对数据缺失问题进行研究,然后以市场中顾客对商品的喜爱度作为调查对象,构建模型对其进行实证分析,并在与多重插补法结合运用的基础上研究不同缺失率下的插补效果。结果显示,随着缺失率的提高,调查中所获得的数据可用性减少,同时插补法的效果也随之降低。在四种插补法中,EM插补和多重插补的插补效果优于其余两种,同时运用模型与多重插补相结合的插补效果也不错。因此根据不同的缺失率,需要选择合适的插补法对数据进行插补。 展开更多
关键词 抽样调查 缺失值 插补法 逻辑回归分析
下载PDF
序列缺失数据的灰插值推理方法 被引量:11
2
作者 金义富 朱庆生 邢永康 《控制与决策》 EI CSCD 北大核心 2006年第2期236-240,共5页
根据灰色系统理论和序列数据的特性,提出一种灰插值方法.建立前向灰预测和后向灰预测模型,充分利用缺失值时区窗口内的全部信息对其进行推理.分别在单序列时建立递进灰拟合模型,在多维数据集时利用属性相关性,对插值结果进行学习优化.... 根据灰色系统理论和序列数据的特性,提出一种灰插值方法.建立前向灰预测和后向灰预测模型,充分利用缺失值时区窗口内的全部信息对其进行推理.分别在单序列时建立递进灰拟合模型,在多维数据集时利用属性相关性,对插值结果进行学习优化.通过与常用插值方法的比较实验表明,该方法具有较好的光滑性和预测效果. 展开更多
关键词 缺失值 灰插值 灰拟合 属性相关性
下载PDF
大气污染物PM2.5缺失数据插值方法的比较研究:基于北京市数据 被引量:11
3
作者 曹凯鑫 汤猛猛 +4 位作者 葛建鸿 李泽康 王晓芸 李国星 魏雪涛 《环境与职业医学》 CAS CSCD 北大核心 2020年第4期299-305,共7页
[背景]地面监测站点大气污染物数据越来越多地被应用到环境流行病学个体暴露评估中。鉴于大气监测等实时数据缺失信息无法弥补,利用历史数据进行相关研究时,不同填补方法引起的预测误差将影响研究者对结果的判断。[目的]综合比较6种插... [背景]地面监测站点大气污染物数据越来越多地被应用到环境流行病学个体暴露评估中。鉴于大气监测等实时数据缺失信息无法弥补,利用历史数据进行相关研究时,不同填补方法引起的预测误差将影响研究者对结果的判断。[目的]综合比较6种插值方法在大气污染物PM2.5数据中的填补效果,评估每种插值方法平均预测误差大小,为暴露评估中测量误差大小提供线索。[方法]基于2016年北京市35个监测站点PM2.5数据,选取3个有代表性的评价站点(东四、密云和房山),基于4个统计量(中位绝对误差、中位相对误差、均方误差和均方根误差)进行6种插值方法(日均值、最近监测站点、多重线性回归、多重插补、反距离权重和克里金插值法)插值效果的比较研究。[结果]6种插值方法中,在"东四"站点,多重线性回归插值法效果最优,其次为反距离权重插值法,日均值插值法最差;均方根误差分别为6.67、8.19和52.19;日均值插值法中位绝对误差为19.00,其余各方法中位绝对误差均在4以内。"密云"站点多重插补法插值效果最优,其次为克里金插值法,日均值插值法最差;均方根误差分别为8.34、11.76和42.53;日均值插值法中位绝对误差为16.00,其余各方法中位绝对误差均在5以内。"房山"站点克里金插值法效果最优,其次为多重插补法,日均值插值法最差;均方根误差分别为18.74、22.73和50.93;日均值插值法中位绝对误差为27.50,其余各方法中位绝对误差均在10以内。3个站点综合分析,克里金插值法最优,其次为多重插补法,日均值插值法最差;均方根误差分别为13.65、14.77和48.74;日均值插值法中位绝对误差为19.00,其余各方法中位绝对误差均在5以内。[结论]6种插值方法中,克里金插值法和多重插补法插值效果较优,日均值插值法效果最差;克里金插值法稳定性高于反距离权重插值法。除日均值插值法外,� 展开更多
关键词 缺失值填补 插值方法 交叉验证 大气污染物 克里金插值法 多重插补法
原文传递
基于改进低秩矩阵补全的交通量数据缺失值插补方法 被引量:8
4
作者 陈小波 陈程 +3 位作者 陈蕾 韦中杰 蔡英凤 周俊杰 《交通运输工程学报》 EI CSCD 北大核心 2019年第5期180-190,共11页
提出了一种低秩矩阵补全的改进方法以研究道路交通量数据缺失值插补问题。应用基于核范数的低秩矩阵补全对交通量数据矩阵中的缺失值进行第1轮插补;通过层次聚类算法将交通量数据划分为不同类别,使得同类中的数据具有较强相关性,异类中... 提出了一种低秩矩阵补全的改进方法以研究道路交通量数据缺失值插补问题。应用基于核范数的低秩矩阵补全对交通量数据矩阵中的缺失值进行第1轮插补;通过层次聚类算法将交通量数据划分为不同类别,使得同类中的数据具有较强相关性,异类中的数据具有较弱的相关性;在每类样本上应用低秩矩阵补全得到缺失值的第2轮插补;为了减少聚类数的影响,提出最小二乘回归集成学习方法将不同聚类数下的插补结果进行融合,得到最终的交通量数据插补结果;用美国俄勒冈州波特兰市的交通量数据比较了5种方法的插补误差,并分析了不同聚类数和距离度量方法的影响。研究结果表明:在完全随机缺失模式下,缺失率为10%~60%时,其相对于传统的低秩矩阵补全模型的插补误差降低了5.93%~9.11%;在随机缺失和混合缺失模式下,插补误差也分别降低了8.32%~9.55%和8.14%~9.20%;集成不同聚类数下的多个插补结果比单一聚类数下的插补误差降低2.62%~4.76%。可见,在3种数据缺失模式下,改进低秩矩阵补全方法降低了交通量数据的插补误差,能有效提高插补后交通量数据的有效性。 展开更多
关键词 智能交通 最小二乘回归 缺失值插补 低秩矩阵补全 层次聚类 插补误差
原文传递
农业经济调查缺失数据的贝叶斯和Bootstrap多重插补的比较 被引量:6
5
作者 熊巍 潘传快 祁春节 《统计与决策》 CSSCI 北大核心 2019年第4期11-15,共5页
响应和数据缺失是农业经济调查数据中普遍存在的问题,可以分别采取贝叶斯法和Bootstrap法进行多重插补以完成模型构建。文章通过对柑橘主产区种植户调查的缺失数据的实证分析发现,根据两者处理后的农业经济计量模型都有较好的估计检验效... 响应和数据缺失是农业经济调查数据中普遍存在的问题,可以分别采取贝叶斯法和Bootstrap法进行多重插补以完成模型构建。文章通过对柑橘主产区种植户调查的缺失数据的实证分析发现,根据两者处理后的农业经济计量模型都有较好的估计检验效果,贝叶斯法有更显著的检验统计量和更精确的区间估计,而Bootstrap法更易于操作。 展开更多
关键词 缺失值 成列删除 贝叶斯法 BOOTSTRAP法 多重插补
下载PDF
基于协同演化遗传算法的个体特征信息识别技术方法
6
作者 关金金 《长沙大学学报》 2024年第5期31-38,共8页
在当前的个体特征信息分析过程中,依靠单一的遗传算法进行特征识别,只考虑了个体对自然环境的适应情况,使得最终识别结果AUC值较低。因此,提出基于协同演化遗传算法的个体特征信息识别技术(CEGA-IFIR)。运用贝叶斯网络构造最优分类器,... 在当前的个体特征信息分析过程中,依靠单一的遗传算法进行特征识别,只考虑了个体对自然环境的适应情况,使得最终识别结果AUC值较低。因此,提出基于协同演化遗传算法的个体特征信息识别技术(CEGA-IFIR)。运用贝叶斯网络构造最优分类器,从大数据中挖掘出个体数据,再展开局部低秩矩阵补全(LRMC)集成学习,实现个体数据集中缺失数据的插补处理。以信息熵概念为核心,设计个体特征向量信息增益评估函数。以最大特征信息增益为目标,结合协同演化算法和遗传算法进行个体特征信息识别求解,充分考虑多个个体在进化过程中的相互影响、相互适应特点,输出有效的特征信息识别结果。实验结果表明:CEGA-IFIR方法应用后,所得个体特征信息识别结果的AUC值相较于两种对比方法的AUC值(分别为0.74和0.61)更高,最大值达到0.93,满足了预期设计要求。 展开更多
关键词 协同演化 遗传算法 个体特征 缺失值插补 遗传编码 信息识别
下载PDF
基于因果分析的能源系统缺失值补充研究
7
作者 房旭 《软件导刊》 2024年第1期103-107,共5页
针对传统行业中传感器因周围环境导致数据丢失或缺失的困境,提出在未知数据分布情况下基于因果分析对能源系统中的多变量数据进行深度学习的方法,并利用其结果对缺失值进行补充。首先,对样本进行再均衡;其次,基于LSTM的多变量构建模型,... 针对传统行业中传感器因周围环境导致数据丢失或缺失的困境,提出在未知数据分布情况下基于因果分析对能源系统中的多变量数据进行深度学习的方法,并利用其结果对缺失值进行补充。首先,对样本进行再均衡;其次,基于LSTM的多变量构建模型,利用因果分析优化其深度学习的优化器,去除在学习过程中不被期望的影响因子,削弱特征值与稳定偏转之间的伪相关,并结合安慰剂效应排除稳定偏转对特征值的影响;再次,将特征值与有害因子相减,获得去除有害因子的值进而优化模型得到更优结果。这种方法解决了在机器学习过程中对头部数据的欠拟合和对尾部数据的过拟合问题。在多变量的能源系统数据集中进行实验,结果表明,该方法在将缺失值插补收敛到真实值的问题上精度更高。 展开更多
关键词 因果分析 神经网络 长尾分布 缺失值插补
下载PDF
顾及日周期性的PM_(2.5)站点缺失值重构
8
作者 李坤禹 李艳艳 +1 位作者 陈东兴 陈传法 《地球信息科学学报》 EI CSCD 北大核心 2024年第9期2093-2105,共13页
完整的PM_(2.5)时空数据集是实现大气污染防治的关键。然而,实时获取的PM_(2.5)数据集容易受机器故障、人为失误、大气等因素影响普遍存在缺失。针对现有缺失值重构方法未能充分顾及PM_(2.5)日周期性及其与影响因子之间的复杂关系等问题... 完整的PM_(2.5)时空数据集是实现大气污染防治的关键。然而,实时获取的PM_(2.5)数据集容易受机器故障、人为失误、大气等因素影响普遍存在缺失。针对现有缺失值重构方法未能充分顾及PM_(2.5)日周期性及其与影响因子之间的复杂关系等问题,本文提出了一种顾及日周期性的PM_(2.5)站点缺失值重构方法(Daily Periodicity-Based Spatial-Temporal Interpolation,DP-STF)。DP-STF首先以日观测数据为处理单元基于时空相关性对缺失位置筛选最优时空邻域,然后利用P-BSHADE(Point Estimation Model of Biased Sentinel Hospital-based Area Disease Estimation)顾及时空异质性以迭代方式对缺失数据进行时空初始估计,最后利用Stacking集成机器学习拟合PM_(2.5)与其影响因子的复杂时空非线性关系,并用于缺失PM_(2.5)数据估计。以京津冀2020年小时尺度PM_(2.5)站点数据为研究对象,利用DP-STF方法对缺失数据重构并与7种经典方法对比。实验结果表明:相比传统方法,DP-STF精度最优,其平均RMSE、MAE至少降低了39.83%、40.12%,R^(2)至少提高了5.56%。此外,DP-STF还能够有效捕捉PM_(2.5)极值,极大提升了在时空非平稳区的预测精度。 展开更多
关键词 PM_(2.5) 缺失值重构 日周期性 集成机器学习 空气污染 时空插值 时空异质性
原文传递
银行存款模型及应用分析(英文) 被引量:3
9
作者 朱世武 张尧庭 《经济数学》 2001年第1期1-7,共7页
近年来 ,越来越多的国际知名企业都认识到了从原始数据中寻找规律对决策管理的重要性 .一些顶尖级的银行产品企业 ,象 IBM,Oracle,Informix和 Sybase等 ,已经开发了许多用于银行数据挖掘的软件产品 ,并为国际上的一些著明银行建立了高... 近年来 ,越来越多的国际知名企业都认识到了从原始数据中寻找规律对决策管理的重要性 .一些顶尖级的银行产品企业 ,象 IBM,Oracle,Informix和 Sybase等 ,已经开发了许多用于银行数据挖掘的软件产品 ,并为国际上的一些著明银行建立了高精度的统计模型以支持银行管理 .存款是银行评价业绩的一项重要指标 .建立高精度的存款模型有利于银行的日常资金管理 ,能提高银行的资金利用率 ,降低成本等 .本文以国内某大城市两大银行的实际业务数据为背景 ,给出了银行存款模型的建立过程 ,并分析了模型的应用 .本文的一些有趣结果对时间序列建模有一定的启示 . 展开更多
关键词 GARCH模型 ARIMA模型 STATESPACE模型 内插 外推 谱分析 统计模型 资金管理 银行存款模型
下载PDF
不同缺失比例下的缺失值插补方法比较
10
作者 单锐 杨婧 +1 位作者 朱文元 王芳 《信息技术》 2023年第12期52-56,共5页
现实中获得的数据集往往存在缺失值,为了研究不同缺失值插补方法在不同缺失比例下的插补效果,文中选择数值型和混合型的完整数据集,设置不同的缺失比例,分别使用均值插补、K近邻插补、多变量特征插补、随机森林插补四种方法对其进行插补... 现实中获得的数据集往往存在缺失值,为了研究不同缺失值插补方法在不同缺失比例下的插补效果,文中选择数值型和混合型的完整数据集,设置不同的缺失比例,分别使用均值插补、K近邻插补、多变量特征插补、随机森林插补四种方法对其进行插补,并使用决策树分类器拟合填补后的数据集,通过计算分类精度比较四种方法的填补效果。实验结果表明,在缺失比例不大于50%时,多变量特征插补和随机森林插补方法在数值型和混合型数据集上的插补效果优于其他两种方法。 展开更多
关键词 数据缺失 均值插补 K近邻插补 多变量特征插补 随机森林插补
下载PDF
风电场风机测量风速缺损值的组合填充模型 被引量:2
11
作者 杜杰 彭丽霞 +3 位作者 刘玉宝 潘林林 王雷 曹一家 《电力自动化设备》 EI CSCD 北大核心 2015年第9期125-129,共5页
针对风电场内邻近多台风机测量风速同时发生缺损的工况,提出基于小波神经网络的组合填充算法。首先,分别采用空间邻点法、Pearson相关系数法和动态时间规整算法对风电场内两两风机的测量风速相似性进行分析;其次,提取与缺损测量风速风... 针对风电场内邻近多台风机测量风速同时发生缺损的工况,提出基于小波神经网络的组合填充算法。首先,分别采用空间邻点法、Pearson相关系数法和动态时间规整算法对风电场内两两风机的测量风速相似性进行分析;其次,提取与缺损测量风速风机在缺损时刻前后风速演化最相似的若干台风机的测量风速,构建小波神经网络,进行单个模型的填充方法研究;最后,提出基于熵权的组合填充模型。实验结果表明,在进行非线性风速相似性度量时,动态时间规整算法优于Pearson相关系数法;基于相似性风速时序构建的神经网络,提高了模型的学习和泛化性能;组合填充模型的精度和平稳性优于单个模型。对风电场内每台风机进行模拟实验增加了模型的普适性。 展开更多
关键词 风电场 风速 测量 缺损值 组合填充 小波神经网络
下载PDF
基于改进循环神经网络的多数据流缺失值估计 被引量:2
12
作者 汪广明 何滔 +2 位作者 熊玺 卢玉龙 王明涛 《粘接》 CAS 2022年第2期108-111,共4页
为准确估计多传感数据流中的缺失值,提出了一种改进循环神经网络模型。所设计的改进循环神经网络由插值模块和插补模块组成,其中插值模块是在数据流内捕获传感数据之间的时间相关性;插补模块则是基于全连接神经元层在不同数据流之间捕... 为准确估计多传感数据流中的缺失值,提出了一种改进循环神经网络模型。所设计的改进循环神经网络由插值模块和插补模块组成,其中插值模块是在数据流内捕获传感数据之间的时间相关性;插补模块则是基于全连接神经元层在不同数据流之间捕获传感数据值之间的时间相关性。循环神经网络模型还使用Dropout方法进行多重插补以进一步提高估计准确度。基于真实电力设备传感数据的实验,结果表明:所设计改进循环神经网络能够实现缺失传感数据的准确估计。 展开更多
关键词 缺失值 数据流 循环神经网络 插值模块 插补模块 DROPOUT
下载PDF
特长钢箱梁桥面GNSS数据处理 被引量:1
13
作者 汤同旭 《测绘标准化》 2021年第2期28-33,共6页
为获取桥梁的运营状态,保障桥梁的养护与安全运营,需要对通过GNSS测量获取的桥面监测数据进行准确而有效的处理与分析。对于桥面GNSS监测数据中存在粗差问题,采用2种粗差剔除方法进行探测,并对其效果进行对比分析,结果表明,采用拉依达... 为获取桥梁的运营状态,保障桥梁的养护与安全运营,需要对通过GNSS测量获取的桥面监测数据进行准确而有效的处理与分析。对于桥面GNSS监测数据中存在粗差问题,采用2种粗差剔除方法进行探测,并对其效果进行对比分析,结果表明,采用拉依达法会产生“弃真”的错误,因此,对桥面变形监测数据应采用改进未确知滤波法;对于桥面监测数据不连续问题,采用3种拟合方法进行缺失值插补并进行对比分析,结果表明,无论缺失值较少或者较多,正交多项式插值法的效果都要优于拉格朗日插值法和三次样条插值法。最后,利用奇异谱分析处理桥面变形信号的优点,对观测数据的有效主分量进行重构,可减少噪声对监测数据的影响。 展开更多
关键词 全球导航卫星系统 数据处理 粗差探测 缺失值插补 奇异谱分析 去噪
下载PDF
基于SE-TCN的一维低采样卫星帆板温度遥测数据插补方法
14
作者 许凯凯 张锐 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2023年第6期810-820,共11页
针对因入境时间短、组帧错误等原因导致的卫星帆板温度遥测数据缺失问题,提出一种基于引入注意力机制的时间卷积网络(SE-TCN)的自回归预测方法。温度遥测数据可看作是具有较强规律性的渐周期信号,采用SE-TCN对历史数据到未来数据的映射... 针对因入境时间短、组帧错误等原因导致的卫星帆板温度遥测数据缺失问题,提出一种基于引入注意力机制的时间卷积网络(SE-TCN)的自回归预测方法。温度遥测数据可看作是具有较强规律性的渐周期信号,采用SE-TCN对历史数据到未来数据的映射进行拟合完成缺失值的插补,同时为表征对实际缺失数据集的插补效果,增加评价指标的计算方式,有效解决了使用物理模型仿真和统计学方法插值偏差过大,及无法计算实际插值效果的问题。与长短时记忆网络和时间卷积网络等模型相比,SE-TCN在测试集和实际缺失数据集上均得到了更好的插值效果。 展开更多
关键词 遥测数据 时序数据 缺失值插补 时间卷积网络 低采样
下载PDF
基于灰色理论的城市日用水量缺失值估计方法
15
作者 陈磊 陈保 《中国农村水利水电》 北大核心 2014年第8期49-51,共3页
针对传统日用水量数据补缺法存在主观性较强的不足,提出了缺失值的灰色组合插值法。利用自相关系数法分析日用水量序列,确定与缺失值相关性较大的前和后日用水量序列;基于灰色理论,根据前后序列,分别对缺失值进行后插和前插预测;优化组... 针对传统日用水量数据补缺法存在主观性较强的不足,提出了缺失值的灰色组合插值法。利用自相关系数法分析日用水量序列,确定与缺失值相关性较大的前和后日用水量序列;基于灰色理论,根据前后序列,分别对缺失值进行后插和前插预测;优化组合前后插值,获得缺失值的组合预测值。实例分析结果表明,与传统的平均值法相比,的计算方法具有更高的预测精度。 展开更多
关键词 灰色理论 日用水量 缺失值 组合插值
下载PDF
基于相似性度量的风功率数据填补方法
16
作者 任子昱 刘景霞 《电工技术》 2022年第20期53-55,178,共4页
风电机组的运行参数尤其是功率数据具有极其重要的价值,然而在数据采集、传输和记录的过程中存在各种原因会导致数据缺失。为此,提出了一种基于相似性度量的风功率数据填补方法。该方法利用数据特征,使用欧式距离、动态时间弯曲距离和... 风电机组的运行参数尤其是功率数据具有极其重要的价值,然而在数据采集、传输和记录的过程中存在各种原因会导致数据缺失。为此,提出了一种基于相似性度量的风功率数据填补方法。该方法利用数据特征,使用欧式距离、动态时间弯曲距离和最大公共子序列等相似性度量方法,寻找最相似的等长序列填补缺失值,并与均值插值、多点三次样条插值和自回归滑动平均模型等方法进行对比,结果表明了该方法的有效性和优越性。 展开更多
关键词 风功率数据 缺失值 插补法 相似性度量
下载PDF
基于深度嵌入聚类的ICU患者生理数据缺失插补
17
作者 李建华 朱泽阳 +1 位作者 徐礼胜 孙国哲 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第5期639-645,共7页
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插... 电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性. 展开更多
关键词 重症监护单元 电子病历 缺失值插补 深度嵌入聚类 邻近度矩阵
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部