期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于近邻噪声处理的KNN缺失数据填补算法 被引量:29
1
作者 郝胜轩 宋宏 周晓锋 《计算机仿真》 CSCD 北大核心 2014年第7期264-268,共5页
在优化算法的研究中,针对KNN算法对缺失数据的填补效果会因为原始数据中存在噪声而受到严重影响的问题,根据待填补缺失数据最近邻的近邻关系,提出了一种新的缺失数据填补算法——ENN-KNN(Eliminate Neighbor Noise k-Nearest Neighbor)... 在优化算法的研究中,针对KNN算法对缺失数据的填补效果会因为原始数据中存在噪声而受到严重影响的问题,根据待填补缺失数据最近邻的近邻关系,提出了一种新的缺失数据填补算法——ENN-KNN(Eliminate Neighbor Noise k-Nearest Neighbor)。通过比较待填补缺失数据每个最近邻的真实近邻程度能够有效地识别潜在的噪声最近邻。最后使用所有非噪声最近邻对待填补缺失数据进行填补,从而消除了噪声最近邻对填补结果的影响。通过观察四组UCI数据集的仿真结果,可知ENN-KNN算法的填补准确性总体上要优于KNN算法。 展开更多
关键词 缺失数据填补 近邻 噪声最近邻
下载PDF
多元时间序列缺失数据填补方法 被引量:16
2
作者 李正欣 张凤鸣 +2 位作者 王瑛 陶茜 李超 《系统工程与电子技术》 EI CSCD 北大核心 2018年第1期225-230,共6页
多元时间序列是一种普遍存在的数据类型,受多种干扰因素的作用,序列中难免存在缺失数据,影响后续的分析处理。首先,针对存在缺失数据的序列,搜索与其同类的相似序列,构建训练集;然后,利用最小二乘支持向量机,分别进行多变量填补和单变... 多元时间序列是一种普遍存在的数据类型,受多种干扰因素的作用,序列中难免存在缺失数据,影响后续的分析处理。首先,针对存在缺失数据的序列,搜索与其同类的相似序列,构建训练集;然后,利用最小二乘支持向量机,分别进行多变量填补和单变量填补;第三,根据多变量和单变量填补结果的差异度,提出了一种组合阈值填补方法。最后,对所提方法进行了实验验证,结果表明,它具有较高的填补精度且适用于缺失数据较多的场合。 展开更多
关键词 多元时间序列 缺失数据填补 相似性搜索 最小二乘支持向量机
下载PDF
基于机器学习的配电网异常缺失数据动态清洗方法 被引量:10
3
作者 梅玉杰 李勇 +3 位作者 周王峰 郭钇秀 邓威 乔学博 《电力系统保护与控制》 EI CSCD 北大核心 2023年第7期158-169,共12页
针对传统配电网数据清洗过程中异常数据判断阈值需要人为设定、缺失数据填补效率不佳的局限性,提出基于机器学习的配电网异常缺失数据一体化动态清洗方法。首先,基于局部异常因子检测算法和高斯混合模型,提出一种异常数据动态检测改进算... 针对传统配电网数据清洗过程中异常数据判断阈值需要人为设定、缺失数据填补效率不佳的局限性,提出基于机器学习的配电网异常缺失数据一体化动态清洗方法。首先,基于局部异常因子检测算法和高斯混合模型,提出一种异常数据动态检测改进算法,实现配电网异常数据阈值的准确自动选择。其次,基于随机森林算法与最小二乘回归法,提出一种配电网缺失数据动态填补算法。根据缺失数据时间长度自适应优化填补算法,在保证数据填补精度的同时降低计算时间。在此基础上,通过异常数据检测和缺失数据填补共同构建一体化动态清洗架构。采用湖南某地区配电网数据进行实例验证,结果表明所提方法可实现异常辨识阈值准确自动选择,有效检测配电网异常数据,并且实现缺失数据填补精度与速度的平衡,具有较好的工程应用价值。 展开更多
关键词 配电网 数据清洗 异常数据辨识 缺失数据填补 高斯混合模型 随机森林
下载PDF
一种基于双聚类的缺失数据填补方法 被引量:12
4
作者 郝胜轩 宋宏 周晓锋 《计算机应用研究》 CSCD 北大核心 2015年第3期674-678,共5页
针对现实数据集的数据缺失问题,提出了一种基于双聚类的缺失数据填补新方法。该算法利用双聚类簇内平均平方残值越小簇内数据相似性越高的这一特性,将缺失数据的填补问题转换为求解特定双聚类簇最小平均平方残值的问题,进而实现了数据... 针对现实数据集的数据缺失问题,提出了一种基于双聚类的缺失数据填补新方法。该算法利用双聚类簇内平均平方残值越小簇内数据相似性越高的这一特性,将缺失数据的填补问题转换为求解特定双聚类簇最小平均平方残值的问题,进而实现了数据集中缺失元素的预测;再利用二次函数求解极小值的思想对包含有缺失数据的特定双聚类簇最小平均平方残值的问题进行求解,并进行了数学上的分析证明。最后进行仿真验证,通过观察UCI数据集的实验结果可知,提出的算法具有较高的填补准确性。 展开更多
关键词 缺失数据填补 双聚类 双聚类数据填补 数据清洗
下载PDF
基于不完备集双聚类的缺失数据填补算法 被引量:12
5
作者 韩飞 沈镇林 《计算机工程》 CAS CSCD 北大核心 2016年第4期20-26,共7页
缺失数据填补是数据清洗领域的一个重要问题。由于绝大部分局部填补方法基于全部属性进行分类,未考虑对象属性之间的关联性,因此基于不完备集双聚类,提出一种缺失数据填补算法。该算法利用双聚类完美簇的平均平方残基为0及簇内的属性值... 缺失数据填补是数据清洗领域的一个重要问题。由于绝大部分局部填补方法基于全部属性进行分类,未考虑对象属性之间的关联性,因此基于不完备集双聚类,提出一种缺失数据填补算法。该算法利用双聚类完美簇的平均平方残基为0及簇内的属性值波动一致的特点,对缺失数据进行填补。通过数学分析,把寻找含有缺失值的最大完美簇问题转化为求解缺失对象与其他对象之间的最大相似属性集问题,在相同的最大相似属性集下,以缺失值的众数作为填补值。采用4组UCI数据集进行实验,结果表明,该算法相比ROUSTIDA算法平均提高了77.13%的填补值精确度。 展开更多
关键词 缺失数据填补 不完备集 双聚类 最大相似属性集 数据清洗 完美簇
下载PDF
基于自注意力生成对抗网络的电力设备在线监测缺失数据填补 被引量:4
6
作者 周远翔 林孟龙 +2 位作者 陈健宁 白正 陈明 《高电压技术》 EI CAS CSCD 北大核心 2023年第5期1795-1809,共15页
电力设备的在线监测系统常出现不同程度的数据缺失,而传统的缺失数据填补模型精度较低。因此提出一种基于自注意力生成对抗网络(self-attention generative adversarial networks,SA-GAN)的电力设备在线监测缺失数据填补模型。首先搭建... 电力设备的在线监测系统常出现不同程度的数据缺失,而传统的缺失数据填补模型精度较低。因此提出一种基于自注意力生成对抗网络(self-attention generative adversarial networks,SA-GAN)的电力设备在线监测缺失数据填补模型。首先搭建基于自注意力机制的时间序列填补模型,并对权重融合模块进行改进,然后将时间序列填补模型作为生成器,构造对应的判别器与损失函数,提出了具有自注意力机制的生成对抗网络SA-GAN,对电力设备在线监测数据进行缺失填补。最后通过实际工程中的电力变压器、高压电缆在线监测数据对模型进行训练与测试,验证了模型的有效性。结果表明,通过局部遮掩对110 kV变压器在线监测数据进行自然缺失模拟并通过各类缺失填补模型进行补全时,SA-GAN模型的平均绝对误差(mean absolute error,MAE)最高为0.11,均方根误差(root mean square error,RMSE)最高为0.17,较其他模型分别至少降低19.10%、14.07%,验证了SA-GAN模型的有效性;对9.51%自然缺失率下的220 kV高压电缆在线监测数据进行填补时,SA-GAN模型的MAE为0.58,RMSE为0.84,较其他模型分别至少降低21.71%、14.43%,表明该模型可在电力设备状态异常且部分监测数据缺失的条件下有效恢复缺失数据。此外,经SA-GAN模型填补之后的数据有效提高了高压电缆序列的预测精度,间接验证了SA-GAN模型缺失数据填补的有效性。 展开更多
关键词 自注意力 生成对抗网络 在线监测 缺失数据填补 时序特征
下载PDF
基于面板数据模型的拱坝缺失数据填补方法 被引量:1
7
作者 崔欣然 石立 +3 位作者 陆希 顾昊 吴艳 朱明远 《水力发电学报》 CSCD 北大核心 2024年第3期94-107,共14页
混凝土拱坝作为重要的水工建筑物,由于监测设备故障、人为因素等影响,导致其监测数据频繁出现缺失的现象,降低了大坝安全评估与预测的有效性与准确性。传统方法多仅依赖单测点测值进行插补,忽略了测点之间的相关性与异质性。本文提出了... 混凝土拱坝作为重要的水工建筑物,由于监测设备故障、人为因素等影响,导致其监测数据频繁出现缺失的现象,降低了大坝安全评估与预测的有效性与准确性。传统方法多仅依赖单测点测值进行插补,忽略了测点之间的相关性与异质性。本文提出了一种基于面板数据模型的变形缺失数据插补方法。首先,改进传统变形相似性增量速度指标,解决了其分母可能等于零的问题。其次,提出了一种组合加权方法以计算变形相似性综合指标,并采用改进的基于密度聚类方法对变形监测点进行分类。随后,建立了面板模型,以填补不同区域内的缺失数据。本文提出的方法可以更准确地填补混凝土拱坝变形数据的缺失,从而能够有效地解决变形监测数据缺失的问题。 展开更多
关键词 缺失数据填补 变形相似性指标 聚类方法 面板数据模型 混凝土拱坝
下载PDF
基于支持向量机的桥梁健康监测系统残缺数据填补 被引量:7
8
作者 符欲梅 朱芳 昝昕武 《传感技术学报》 CAS CSCD 北大核心 2012年第12期1706-1710,共5页
针对桥梁健康监测系统中采集数据具有小样本、非线性且时序的特点,提出一种基于支持向量机的残缺数据填补方法,在分析数据的自相关性基础上,利用支持向量回归机原理,选择适当维数的样本作为支持向量机的输入向量,据此进行了残缺数据的预... 针对桥梁健康监测系统中采集数据具有小样本、非线性且时序的特点,提出一种基于支持向量机的残缺数据填补方法,在分析数据的自相关性基础上,利用支持向量回归机原理,选择适当维数的样本作为支持向量机的输入向量,据此进行了残缺数据的预测;并与BP神经网络的填补效果相比较,实验结果显示了支持向量机在更小样本情况下填补残缺数据的优势和强泛化能力。 展开更多
关键词 桥梁健康监测系统 缺失数据填补 时间序列 支持向量机
下载PDF
基于Apriori和GP-XGBoost的特高拱坝变形缺失数据填补方法 被引量:6
9
作者 吴诚姝 陈波 刘庭赫 《水资源与水工程学报》 CSCD 北大核心 2022年第6期151-158,166,共9页
变形监测数据作为特高拱坝服役性态最直观的表征,蕴藏着丰富的时空信息和演变规律,对工程长治久安意义重大。然而,多源多维的变形监测数据受仪器本身及外界因素影响,往往存在数据缺失的现象,会对接下来的数据分析工作造成干扰。针对大... 变形监测数据作为特高拱坝服役性态最直观的表征,蕴藏着丰富的时空信息和演变规律,对工程长治久安意义重大。然而,多源多维的变形监测数据受仪器本身及外界因素影响,往往存在数据缺失的现象,会对接下来的数据分析工作造成干扰。针对大坝变形监测序列中的缺失数据,基于Apriori关联规则算法挖掘测点变形在空间维度上的关联性,得到目标测点的强关联测点,随后以强关联测点的变形监测数据作为输入样本,利用贝叶斯优化的XGBoost回归模型填补了目标测点的空缺变形监测序列。结合锦屏一级特高拱坝工程实例表明,该填补方法实现了变形监测空缺信息的高效、精准填补,可用于类似大坝工程的变形缺失数据填补。 展开更多
关键词 特高拱坝 变形监测 缺失数据填补 Apriori关联规则 XGBoost回归
下载PDF
基于缺失数据填补的风电齿轮箱状态监测研究 被引量:6
10
作者 徐健 刘长良 +1 位作者 王梓齐 赵陆阳 《仪器仪表学报》 EI CAS CSCD 北大核心 2022年第9期88-97,共10页
风电机组监控和数据采集系统的现场数据普遍存在缺失问题,会对下游状态监测任务产生一定负面影响。为此,提出一种结合注意力机制的掩膜自编码网络,用于填补面板数据样本中的缺失值,增加可用样本数量,提升状态监测结果的准确性与连续性... 风电机组监控和数据采集系统的现场数据普遍存在缺失问题,会对下游状态监测任务产生一定负面影响。为此,提出一种结合注意力机制的掩膜自编码网络,用于填补面板数据样本中的缺失值,增加可用样本数量,提升状态监测结果的准确性与连续性。该方法以降噪自编码网络为整体框架,在编码阶段通过注意力机制对缺失值进行掩膜处理,赋予缺失值更高的权重以强化网络对其关注程度,在解码阶段将缺失值填补后输出完备数据样本。随后,利用长短时记忆网络提取的样本特征对目标变量参数进行预测,依据预测残差实现状态监测。使用某风电齿轮箱运行数据验证,结果表明:提出方法的数据填补偏差相较对比方法至少改善17.2%;与数据填补前相比,数据填补后样本数量显著增加,使状态监测网络对正常数据的预测残差平均下降37.4%,对故障数据的检测率提升6.8%。 展开更多
关键词 缺失数据填补 自编码网络 注意力机制 风电机组 状态监测
下载PDF
综合岭回归和SARIMA方法在桥梁健康监测数据分析中的应用 被引量:2
11
作者 谌桢文 常军 《科学技术与工程》 北大核心 2023年第20期8846-8853,共8页
桥梁健康监测系统的实测数据普遍存在缺失问题,为了保证桥梁监测数据的完整性,更好地预测桥梁未来的健康状况,提出了一种具有样本内和样本外预测能力的组合模型。样本外预测可以基于现在数据预测未来的桥梁健康状态,样本内回归用于填补... 桥梁健康监测系统的实测数据普遍存在缺失问题,为了保证桥梁监测数据的完整性,更好地预测桥梁未来的健康状况,提出了一种具有样本内和样本外预测能力的组合模型。样本外预测可以基于现在数据预测未来的桥梁健康状态,样本内回归用于填补传感器数据中的缺失值,确保桥梁监测数据的完整性。由于不同位置处相同类型传感器的相关性较强,首先利用岭回归(ridge regression,RR)解决共线性问题,建立各传感器数据之间的关联,并预测缺失数据。接着引入季节性差分自回归滑动平均(seasonal autoregressive integrated moving average,SARIMA)方法,利用其样本外预测能力并结合岭回归方法预测桥梁未来运行数据。最后,将该方法应用于实桥中,验证了其有效性,为传感器数据填补以及预测桥梁未来状态提供了有效的预测模型。 展开更多
关键词 数据 缺失数据填补 数据预测 岭回归(RR) 季节性差分自回归滑动平均(SARIMA)
下载PDF
新能源汽车激光雷达传感器缺失数据填补方法研究
12
作者 辜文杰 付宽 《微型电脑应用》 2024年第1期161-165,共5页
为了增强车辆激光雷达传感器数据采集的全面性,研究新能源汽车激光雷达传感器缺失数据填补方法。利用数据融合的点云采集技术和中值滤波算法,预处理点云数据。采用改进的噪声密度聚类算法构建点云超体素块,建立图模型,并利用图割算法进... 为了增强车辆激光雷达传感器数据采集的全面性,研究新能源汽车激光雷达传感器缺失数据填补方法。利用数据融合的点云采集技术和中值滤波算法,预处理点云数据。采用改进的噪声密度聚类算法构建点云超体素块,建立图模型,并利用图割算法进行全局聚类。结合典型地物特征提取地物信息,并利用全景图像进行密集匹配填补缺失区域,以完成点云数据中空洞区域的填补。实验结果表明,该方法能够有效实现缺失数据的填补,并且填补效果良好。填补后的点云数据与缺失区域原始点云在深度方向上的分布状况几乎一致。 展开更多
关键词 新能源汽车 激光雷达 传感器 缺失数据填补 点云采集 点云去噪
下载PDF
基于改进LSTM的重型柴油车远程监测NO_(x)浓度缺失数据填补 被引量:2
13
作者 邓明星 欧阳含笑 +2 位作者 钱枫 祝能 许小伟 《环境科学学报》 CAS CSCD 北大核心 2023年第11期245-257,共13页
氮氧化物(NO_(x))浓度是重型柴油车远程排放治理研究中的关键指标.车辆实际行驶时,由于NO_(x)传感器控制策略的限制,导致NO_(x)浓度采集数据存在大量缺失,影响了远程监控系统对重型柴油车NO_(x)排放状况的有效评估.鉴于此现象,本文提出... 氮氧化物(NO_(x))浓度是重型柴油车远程排放治理研究中的关键指标.车辆实际行驶时,由于NO_(x)传感器控制策略的限制,导致NO_(x)浓度采集数据存在大量缺失,影响了远程监控系统对重型柴油车NO_(x)排放状况的有效评估.鉴于此现象,本文提出了一种改进的长短时记忆网络数据填补模型(SE-CNN-BiLSTM)对NO_(x)浓度缺失数据进行精确填补.首先,采用皮尔逊相关性和主成分分析确定最优特征子集作为模型输入,使用滑动窗口划分模型训练集、测试集和验证集;其次,引入通道注意力模块(SE-block)优化一维卷积神经网络(1D-CNN),增强填补模型特征提取能力;在此基础上,由双向长短时记忆网络(BiLSTM)学习监测缺失数据的前后变化规律并完成模型训练和填补;最后,通过对比分析试验,验证所提模型对NO_(x)浓度数据填补的有效性和适用性.结果表明,基于SE-CNN-BiLSTM模型的缺失数据填补方法能够有效解决NO_(x)浓度数据缺失问题,从而提高了远程监控系统对NO_(x)排放状况评估的准确性. 展开更多
关键词 重型柴油车 缺失数据填补 注意力机制 卷积神经网络 长短期记忆网络
原文传递
点云数据直线检测及其在人工林树木计数中的应用
14
作者 方浩 李红军 《武汉大学学报(信息科学版)》 EI CAS CSCD 北大核心 2024年第2期208-215,共8页
基于激光点云数据进行人工林调查时,由于激光扫描时树木的遮挡与自遮挡、树木被砍伐等原因造成扫描的点云数据有缺失,遗漏树木的位置判断不准确,森林调查结果误差大,解决这一问题的关键是实现缺失树木的填补。定义了离散点集共线度的概... 基于激光点云数据进行人工林调查时,由于激光扫描时树木的遮挡与自遮挡、树木被砍伐等原因造成扫描的点云数据有缺失,遗漏树木的位置判断不准确,森林调查结果误差大,解决这一问题的关键是实现缺失树木的填补。定义了离散点集共线度的概念,构建了一个基于点集共线度最大化模型并结合直线检测进行缺失数据填补的方法。模拟数据实验结果:该方法的平均准确率为97.28%;人工林数据实验结果:该方法检测到9棵缺失树的位置,共线度由0.2193增大为0.2705。实验结果表明,该方法不仅可以实现缺失位置的最优推断,加强填补后数据的共线关系,也可应用于人工林的缺失树木计数。 展开更多
关键词 离散点集 直线检测 缺失数据填补 树木计数 共线度
原文传递
高校智能电表缺失数据修复方法
15
作者 陈庆斌 杨耿煌 +1 位作者 耿丽清 苏娟 《国外电子测量技术》 2024年第5期136-143,共8页
高校运行数据在采集、传输、存储过程中往往会产生数据缺失。对此,提出一种基于改进长短期记忆神经网络-链式方程多重插补法的缺失数据修复方法。采用链式方程多重插补法,通过迭代对每个缺失的属性值产生多个填补值,从而产生多个完整数... 高校运行数据在采集、传输、存储过程中往往会产生数据缺失。对此,提出一种基于改进长短期记忆神经网络-链式方程多重插补法的缺失数据修复方法。采用链式方程多重插补法,通过迭代对每个缺失的属性值产生多个填补值,从而产生多个完整数据集,并进行分析优化得到一个最终的完整数据集。为提高缺失值修复精度,在长短期记忆神经网络的预测任务中,采用麻雀搜索算法进行超参数寻优,并结合均值匹配模型对缺失数据进行修复。使用北方某高校2019年数据进行验证,通过无自然缺失算例和自然缺失算例对提出方法进行评估,结果表明,在无自然缺失算例中,整体归因误差为0.106,较其他模型至少降低29.3%,验证了方法的有效性;对11.8%自然缺失率下的数据进行填补,经提出的方法填补之后的数据有效提高了高校后续运行数据的预测精度,间接验证了缺失数据填补的有效性。 展开更多
关键词 高校运行数据 缺失数据填补 链式方程多重插补 长短期记忆神经网络
下载PDF
基于半监督学习的输电线路状态预测 被引量:1
16
作者 王艳芹 徐宁 +2 位作者 董祯 王勇 张洪珊 《电力系统及其自动化学报》 CSCD 北大核心 2023年第7期129-136,共8页
输电线路状态评估及预测对于合理制定运维策略、提高运维水平具有重大意义。针对现有模型无法兼顾鲁棒性和数据需求量的问题,本文提出一种基于半监督学习的状态预测方法。首先,对拓展后的特征向量,利用正则矩阵填补缺失数据,并通过表征... 输电线路状态评估及预测对于合理制定运维策略、提高运维水平具有重大意义。针对现有模型无法兼顾鲁棒性和数据需求量的问题,本文提出一种基于半监督学习的状态预测方法。首先,对拓展后的特征向量,利用正则矩阵填补缺失数据,并通过表征学习解决稀疏编码问题。然后,借助少量标注样本初步确定线路区段在不同缺陷状态下的类别中心。最后,使用未标注样本对模型估计参数进行修正。算例分析表明,该方法与现有模型相比,识别准确率大幅提升且数据使用效率更高。 展开更多
关键词 输电线路 缺陷状态预测 缺失数据填补 表征学习 半监督学习
下载PDF
基于电力大数据的供电重点园区电容量控制模型
17
作者 陆嘉铭 奚增辉 +2 位作者 王卫斌 姚嵘 洪祎祺 《微型电脑应用》 2023年第9期181-184,共4页
目前电容量控制方法存在最佳储能容量低、总收益增加量小问题。提出基于电力大数据的供电重点园区电容量控制模型构建方法。采用低秩矩阵补全方法对电力大数据进行填补处理。在经济学基本原理和最优化理论的基础上建立供电重点园区电容... 目前电容量控制方法存在最佳储能容量低、总收益增加量小问题。提出基于电力大数据的供电重点园区电容量控制模型构建方法。采用低秩矩阵补全方法对电力大数据进行填补处理。在经济学基本原理和最优化理论的基础上建立供电重点园区电容量控制模型,实现供电重点园区电容量的控制。实验结果表明,本文方法的最佳储能容量高、总收益增加量大。 展开更多
关键词 电力大数据 供电重点园区 缺失数据填补 电容量控制模型
下载PDF
基于时空相关性的交通物联网缺失数据填补算法
18
作者 梁庆 付青坤 +1 位作者 田海安 彭志浩 《电脑知识与技术》 2023年第18期4-9,共6页
针对交通物联网中传感数据存在缺失问题,根据交通领域传感器空间布局具有线性分布的特征,以及感知数据在时间上的广义随机平稳特性,提出基于时空相关性的LIN_BP数据填补算法。当缺失数据个数为1时,利用空间相关性创建BP神经网络模型进... 针对交通物联网中传感数据存在缺失问题,根据交通领域传感器空间布局具有线性分布的特征,以及感知数据在时间上的广义随机平稳特性,提出基于时空相关性的LIN_BP数据填补算法。当缺失数据个数为1时,利用空间相关性创建BP神经网络模型进行数据估计。当缺失数据为多个时,首先,基于时域平稳性建立线性插值(Linear Interpolation,LIN)模型;随后将LIN模型的估计值与已知数据输入到BP神经网络模型,得到基于时空相关性的LIN_BP模型的估计数据。为了验证模型的有效性,对高速公路多个检测点的交通流量真实数据进行实验分析。实验结果表明,相比只使用单一属性的模型本算法的估计误差小、准确度更高、填补效果更好。 展开更多
关键词 交通物联网 缺失数据填补 时空相关性 线性插值 BP神经网络
下载PDF
基于归一化KNNI的随机森林填补算法 被引量:2
19
作者 游凤 李代伟 +3 位作者 张海清 汪杰 彭莉 王震 《成都信息工程大学学报》 2021年第1期32-40,共9页
随机森林填补算法在对不完备信息系统填补时具有可靠的填补性能,同时由于填补时需要多次进行随机森林建模导致算法计算量大。为了缩短算法的运行时间,提出了NKNNI-RFI(normalization k nearest neighbor imputation-random forest imput... 随机森林填补算法在对不完备信息系统填补时具有可靠的填补性能,同时由于填补时需要多次进行随机森林建模导致算法计算量大。为了缩短算法的运行时间,提出了NKNNI-RFI(normalization k nearest neighbor imputation-random forest imputation)缺失数据填补算法。通过改变R F I算法中预填补,即使用填补更为准确的归一化KNNl(normalization k nearest neighbor imputation,NKNNI)作为预填补,为RFI算法中使用随机森林模型预测填补值提供了更接近于原始数据集的数据,使RFI算法能够在更短的时间内完成填补任务且保持良好的填补效果。实验中使用10个UCI标准数据集,将提出的算法与RFI、NKNNI、SVMI和R0USTIDA算法进行比较并使用NRMSE、PFC和A R T填补评价方法对算法效果进行评价。实验结果表明:提出算法的NRMSE和PFC与RFI算法相同,NRMSE比NKNN1、SVM1和R0USTIDA算法约低0.02~0.8,PFC比NKNNI、SVMI和R0USTIDA算法约低0.01~0.6,ART相比RFI算法最大减少程度达53%。 展开更多
关键词 不完备信息系统 缺失数据填补 NKNNI 随机森林填补 填补评价方法
下载PDF
基于模拟退火优化双聚类的基因数据填补方法 被引量:1
20
作者 朱娴 杨明 +1 位作者 马卫 朱俊 《计算机应用与软件》 2017年第11期247-251,共5页
基因表达数据是由DNA微阵列实验产生的大规模矩阵,能有效地提取生物学信息,由于受到实验条件限制,基因表达数据往往存在缺失值,需要进行缺失数据的填补。传统的缺失数据填补方法是基于基因表达数据的单一特征,未充分考虑数据矩阵间的相... 基因表达数据是由DNA微阵列实验产生的大规模矩阵,能有效地提取生物学信息,由于受到实验条件限制,基因表达数据往往存在缺失值,需要进行缺失数据的填补。传统的缺失数据填补方法是基于基因表达数据的单一特征,未充分考虑数据矩阵间的相关性。针对双聚类均方残值越小基因表达数据相关性越高这一特性进行研究,提出一种基于模拟退火优化双聚类的缺失数据填补方法(bi-SA),采用模拟退火法确定最优双聚类,从而实现缺失数据的最有效填补。四组真实基因表达数据实验表明,bi-SA方法能够获得较高的填补准确性。 展开更多
关键词 基因表达数据 缺失数据填补 模拟退火法 双聚类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部