期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
一种不完备混合数据集成聚类算法 被引量:20
1
作者 史倩玉 梁吉业 赵兴旺 《计算机研究与发展》 EI CSCD 北大核心 2016年第9期1979-1989,共11页
集成聚类技术由于具有较好的泛化能力,目前引起了研究者的高度关注.已有研究主要关注数值型完备数据的集成聚类问题.然而,实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值.为此,针对不完备... 集成聚类技术由于具有较好的泛化能力,目前引起了研究者的高度关注.已有研究主要关注数值型完备数据的集成聚类问题.然而,实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值.为此,针对不完备混合数据提出了一种集成聚类算法,首先利用3种缺失值填充方法对不完备混合数据进行完备化处理;其次在3种填充后的不同完备数据集上分别多次执行K-Prototypes算法产生基聚类结果;最后对基聚类结果进行集成.在UCI真实数据集上与传统聚类算法通过实验进行了比较分析,实验结果表明提出的算法是有效的. 展开更多
关键词 集成聚类 不完备数据 混合数据 缺失值填充 K原型聚类算法
下载PDF
基于Map-Reduce的大数据缺失值填充算法 被引量:18
2
作者 金连 王宏志 +1 位作者 黄沈滨 高宏 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期312-321,共10页
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性... 缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度. 展开更多
关键词 缺失值填充 概率推理 MAP-REDUCE
下载PDF
基于灰色关联分析的类中心缺失值填补方法 被引量:13
3
作者 刘莎 杨有龙 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第5期871-878,共8页
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(G... 真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果. 展开更多
关键词 数据分析 不完整数据 缺失值填补 类中心 灰色关联分析
下载PDF
风电输出功率预测技术研究综述 被引量:12
4
作者 武煜昊 王永生 +3 位作者 徐昊 陈振 张哲 关世杰 《计算机科学与探索》 CSCD 北大核心 2022年第12期2653-2677,共25页
风电具有的波动性、间歇性等特点对并网造成一定程度的影响,提前进行风电功率预测是解决上述问题的一个重要途径。但传感器传输、网络通信等不可控因素的存在,导致采集到用于风电功率预测的数据存在异常值和缺失值,因此在进行风电功率... 风电具有的波动性、间歇性等特点对并网造成一定程度的影响,提前进行风电功率预测是解决上述问题的一个重要途径。但传感器传输、网络通信等不可控因素的存在,导致采集到用于风电功率预测的数据存在异常值和缺失值,因此在进行风电功率预测前应当进行相应的异常值检测和缺失值插补操作。为进一步促进风电数据清洗及预测技术的发展,对当前现有模型及方法进行分析与总结,并对现有技术进行划分、对比。从时序数据出发,首先,对风电预测领域的异常值检测方法的研究现状进行分类、分析与总结,对现有异常检测方法所存不足与缺陷进行概述,并对未来发展中或将成为重点的研究方向进行展望;其次,将现有的缺失值处理方法的评价指标进行描述,根据处理方式的不同将处理技术按照常规处理方法、辨别式的插补方法、生成式的插补方法及物理特性方法进行分析与总结,并对现有研究中所存问题进行分析;最后,对现有研究中的预测方法、多层级预测及自适应预测系统的研究现状进行分析总结,并对现有预测存在的挑战及未来发展方向进行了总结与展望。 展开更多
关键词 深度学习 风电功率预测 异常值检测 缺失值插补 时间序列数据
下载PDF
基于临床数据集的缺失值处理方法比较 被引量:11
5
作者 李琳 杨红梅 +3 位作者 杨日东 胡珊 张学良 周毅 《中国数字医学》 2018年第4期8-10,80,共4页
目的:对于数据缺失的处理方法是基于数据集研究的重要组成部分,缺失数据不仅会增大统计分析的复杂性和难度,还会导致分析结果的偏倚。因此,需要提供有效的方法降低缺失数据对整体的影响。方法:基于医学临床数据集,针对不同数据类型,比较... 目的:对于数据缺失的处理方法是基于数据集研究的重要组成部分,缺失数据不仅会增大统计分析的复杂性和难度,还会导致分析结果的偏倚。因此,需要提供有效的方法降低缺失数据对整体的影响。方法:基于医学临床数据集,针对不同数据类型,比较了KNN插补、随机森林插补、决策树插补、多重插补4种不同的插补方法在不同的缺失率下的插补效果,并采用均方根误差和错误率评价插补效果。结果:KNN插补和决策树插补对缺失率有较高要求,当缺失率≥50%时这两种方法不适用;多重插补和随机森林插补对不同的缺失率情况下的插补效果变化不明显。结论:各插补方法对不同缺失率和不同的数据类型的插补效果不同。在以上四种方法中,随机森林插补在本研究中表现出较好的插补效果。 展开更多
关键词 缺失值插补 缺失率 随机森林插补 多重插补
下载PDF
LSTM在输变电设备缺失值填补中的应用 被引量:12
6
作者 辜超 白德盟 +1 位作者 王晶 闫丹凤 《电测与仪表》 北大核心 2019年第5期63-69,142,共8页
输变电设备是电网的重要组成部分,其状态量值表征了设备的基本运行状态。由于一些不可控因素,在采集时会有一些"空值"。这些缺失值不仅意味着信息空白,更重要的是它会影响后续数据挖掘和统计分析等工作的进行。文中提出了一... 输变电设备是电网的重要组成部分,其状态量值表征了设备的基本运行状态。由于一些不可控因素,在采集时会有一些"空值"。这些缺失值不仅意味着信息空白,更重要的是它会影响后续数据挖掘和统计分析等工作的进行。文中提出了一种基于长短时记忆网络(LSTM)的缺失值填补方法,与经典的数据挖掘方法进行对比,实验表明所提方法的填补结果在均方根误差这一评价指标上有20%的提升。同时还综合考虑了同一设备下其他不同状态量以及气象因素的影响。最后,利用所述方法对国网某省公司电网线路的在线监测数据进行了缺失值填补和验证,结果表明该方法在常规条件下具有较好的填补效果。 展开更多
关键词 长短时记忆网络 缺失值填补 电力设备状态数据
下载PDF
一种基于CAEs-LSTM融合模型的窃电检测方法 被引量:11
7
作者 董立红 肖纯朗 +1 位作者 叶鸥 于振华 《电力系统保护与控制》 EI CSCD 北大核心 2022年第21期118-127,共10页
为解决现有的智能电网电力盗窃行为检测方法中准确性不足、检测效率低下等问题,提出了一种由卷积自编码器网络(convolutional auto-encoders,CAEs)和长短期记忆网络(long short term memory,LSTM)相结合的CAEs-LSTM检测模型。该模型通... 为解决现有的智能电网电力盗窃行为检测方法中准确性不足、检测效率低下等问题,提出了一种由卷积自编码器网络(convolutional auto-encoders,CAEs)和长短期记忆网络(long short term memory,LSTM)相结合的CAEs-LSTM检测模型。该模型通过分析数据集的特点对电力数据进行二维转换,设计卷积自编码器结构,采用池化、下采样和上采样重构电力数据的二维空间特征,加入高斯噪声提高模型鲁棒性,并构建长短期记忆网络以学习全局时序特征。最后,对提取的时空特征进行融合从而检测能源窃贼,并进行了参数调优。在由国家电网公布的真实数据集上,通过将CAEs-LSTM模型与支持向量机、LSTM以及宽深度卷积神经网络进行对比,CAEs-LSTM模型的平均精度均值和曲线下面积值均最优。仿真实验表明,基于CAEs-LSTM模型的窃电检测方法具有更高的窃电检测效率和精度。 展开更多
关键词 窃电检测 长短期记忆网络 卷积自编码器 深度学习 缺失值填补
下载PDF
Missing Data Imputation for Traffic Flow Based on Improved Local Least Squares 被引量:6
8
作者 Gang Chang Yi Zhang Danya Yao 《Tsinghua Science and Technology》 EI CAS 2012年第3期304-309,共6页
Complete and reliable field traffic data is vital for the planning, design, and operation of urban traf- fic management systems. However, traffic data is often very incomplete in many traffic information systems, whic... Complete and reliable field traffic data is vital for the planning, design, and operation of urban traf- fic management systems. However, traffic data is often very incomplete in many traffic information systems, which hinders effective use of the data. Methods are needed for imputing missing traffic data to minimize the effect of incomplete data on the utilization. This paper presents an improved Local Least Squares (LLS) ap- proach to impute the incomplete data. The LLS is an improved version of the K Nearest Neighbor (KNN) method. First, the missing traffic data is replaced by a row average of the known values. Then, the vector angle and Euclidean distance are used to select the nearest neighbors. Finally, a regression step is used to get weights of the nearest neighbors and the imputation results. Traffic flow volume collected in Beijing was analyzed to compare this approach with the Bayesian Principle Component Analysis (BPCA) imputation ap- proach. Tests show that this approach provides slightly better performance than BPCA imputation to impute missing traffic data. 展开更多
关键词 Local Least Squares (LLS) vector angle missing value imputation traffic flow
原文传递
针对大规模数据的分布一致缺失值插补算法 被引量:3
9
作者 余嘉茵 何玉林 +1 位作者 崔来中 黄哲学 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第5期740-753,共14页
缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构... 缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构还原为导向的数据分布一致MVI(distribution consistency-based MVI, DC-MVI)算法。首先,DC-MVI算法基于概率分布一致性原则构建了用于确定最优插补值的目标函数;其次,利用推导出的可行缺失值优化规则获取与原始完整值保持最大分布一致性且方差最为接近的插补值;最后,在分布式环境下,针对大数据的随机样本划分(random sample partition, RSP)数据块并行训练DC-MVI算法,获得大规模数据缺失值对应的插补值。实验结果表明:DC-MVI算法不仅能生成与原始完整值保持给定显著性水平下概率分布一致的插补值,还具有比另外5种经典的和3种最新的MVI算法更快的插补速度和更好的插补效果,进而证实DC-MVI算法是一种可行的大规模数据MVI算法。 展开更多
关键词 文字信息处理 缺失值插补 分布一致性 最大均值差异 大规模数据 随机样本划分 分布式计算
原文传递
基于DSGAN-OD模型的文物感知数据缺失值插补方法研究
10
作者 袁小佩 朱容波 +1 位作者 王俊 刘浩 《中南民族大学学报(自然科学版)》 CAS 2024年第4期485-493,共9页
高质量的文物感知数据对文物保护具有重要意义,然而,由于文物所处自然环境条件恶劣,感知数据中不可避免地存在缺失值,同时文物中同一类缺失数据具有样本少的特点.现有的缺失值处理方法没有充分考虑文物数据中的噪声干扰以及小样本数据... 高质量的文物感知数据对文物保护具有重要意义,然而,由于文物所处自然环境条件恶劣,感知数据中不可避免地存在缺失值,同时文物中同一类缺失数据具有样本少的特点.现有的缺失值处理方法没有充分考虑文物数据中的噪声干扰以及小样本数据间的时空关联性,导致缺失值插补的精确度较低.为此,提出了一种基于半监督生成对抗网络的缺失值插补模型(DSGAN-OD).该模型首先通过降噪自编码器(DAE)对多维数据进行降噪与降维预处理,然后针对生成对抗网络的无监督属性导致文物数据当中的分类标签信息不能被充分利用的不足,将DAE获得的低维表达向量作为半监督生成对抗网络(SemiGAN)的学习样本来获得缺失数据集的特征.同时,填充顺序决策(OD)方法根据数据间的时空关联性确定缺失值填充顺序,最后按照该顺序利用SemiGAN生成的完整数据对缺失值依次插补.在UCI标准数据集和文物温湿度数据上的实验结果表明:与现有的基于生成对抗网络的插补方法GAIN、随机森林插补法以及基于链式规则的多次插补法MICE相比,提出的缺失值插补模型DSGAN-OD的精确度分别提升了21%、48.2%及45.1%. 展开更多
关键词 缺失值插补 文物安防 DSGAN-OD模型 填充顺序决策
下载PDF
基于aFCM-KNN的风电功率缺失值填补
11
作者 李一凡 黄景涛 关海平 《计算机仿真》 2024年第8期52-57,共6页
风电实时运行数据在采集、传输和存储过程中的缺失值问题,给基于运行数据的风电功率预测等应用带来困难。针对以上问题,提出一种基于自适应模糊聚类的近邻填补算法aFCM-KNN。鉴于风电数据自身具有的强随机性和波动性,基于FCM算法根据风... 风电实时运行数据在采集、传输和存储过程中的缺失值问题,给基于运行数据的风电功率预测等应用带来困难。针对以上问题,提出一种基于自适应模糊聚类的近邻填补算法aFCM-KNN。鉴于风电数据自身具有的强随机性和波动性,基于FCM算法根据风速对风电数据进行工况聚类,为解决FCM需人为设定聚类个数受主观影响较大的问题,依据风电数据分布特征设计了一个自适应确定聚类个数的策略;考虑到聚类后直接填补容易受噪声的影响,基于KNN算法根据缺失值所在样本的近邻点对每个子簇内的缺失值进行填补,进一步提高了填补精度。在实际数据上的测试分析表明,与其它六种常用填补算法相比,该方法的填补准确率更高。 展开更多
关键词 风电功率 缺失值填补 模糊均值聚类 近邻算法
下载PDF
基于残差连接长短期记忆网络的时间序列修复模型 被引量:6
12
作者 钱斌 郑楷洪 +4 位作者 陈子鹏 肖勇 李森 叶纯壮 马千里 《计算机应用》 CSCD 北大核心 2021年第1期243-248,共6页
传统的时间序列缺失修复方法通常假设数据由线性动态系统产生,然而时间序列更多地表现为非线性。为此,提出了基于残差连接长短期记忆(LSTM)网络的时间序列修复模型,称为RSI-LSTM,用来有效捕获时间序列的非线性动态特性,并且挖掘缺失数... 传统的时间序列缺失修复方法通常假设数据由线性动态系统产生,然而时间序列更多地表现为非线性。为此,提出了基于残差连接长短期记忆(LSTM)网络的时间序列修复模型,称为RSI-LSTM,用来有效捕获时间序列的非线性动态特性,并且挖掘缺失数据和最近的非缺失数据之间的潜在关联。具体来说,就是采用LSTM网络对时间序列的非线性动态特性进行建模,同时引入残差连接来挖掘历史值与缺失值的联系,从而提升模型的修复能力。首先使用RSI-LSTM对单变量日供电量数据集的缺失数据进行修复,然后在第九届电工数学建模竞赛A题的电力负荷数据集上,引入气象因素作为RSI-LSTM的多变量输入,以提升模型对时间序列缺失值的修复效果。此外,使用了两个通用的多变量时间序列数据集以验证模型的缺失修复能力。实验结果表明,在单变量和多变量数据集上,RSI-LSTM的缺失值修复效果均优于LSTM,得到的均方误差(MSE)总体下降了10%。 展开更多
关键词 缺失数据修复 长短期记忆网络 残差连接 时间序列 时序依赖
下载PDF
基于类的余弦距离聚类缺失值填补方法研究
13
作者 夏婷婷 林康 +1 位作者 张潇予 刘海忠 《河南科技》 2024年第8期28-35,共8页
【目的】为了解决欧氏距离计算相似性带来的高维度问题,提出了基于类的余弦距离聚类缺失值填补方法。【方法】首先将不完整数据集分为两个不同的组(G1和GIM);其次通过聚类中心对GIM组中的缺失数据进行预填补;再次利用余弦距离计算相关性... 【目的】为了解决欧氏距离计算相似性带来的高维度问题,提出了基于类的余弦距离聚类缺失值填补方法。【方法】首先将不完整数据集分为两个不同的组(G1和GIM);其次通过聚类中心对GIM组中的缺失数据进行预填补;再次利用余弦距离计算相关性;最后选择与G1组中距离最小的数据来填补缺失值。【结果】实验结果表明,该方法在类别和混合数据集上均优于其他插补方法。【结论】该方法显著提高了准确率、召回率、F1-score及插补效果。 展开更多
关键词 不完整数据 缺失值插补 聚类 余弦距离
下载PDF
构造性覆盖下不完整数据修正填充方法 被引量:4
14
作者 严远亭 吴亚亚 +1 位作者 赵姝 张燕平 《智能系统学报》 CSCD 北大核心 2019年第6期1225-1232,共8页
不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。... 不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。缺失值填充大致可以分为单一填充和多重填充,这些填充方法在不同的场景下有着各自的优势。但是,很少有方法能进一步考虑样本空间分布中的邻域信息,并以此对缺失值的填充结果进行修正。鉴于此,本文提出了一种可广泛应用于诸多现有填充方法的框架用以提升现有方法的填充效果,该框架由预填充、空间邻域信息挖掘和修正填充三部分构成。本文对7种填充方法在8个UCI数据集上进行了实验,实验结果验证了本文所提框架的有效性和鲁棒性。 展开更多
关键词 不完整数据 缺失值填充 邻域信息 数据挖掘 机器学习 填充方法 单一填充 多重填充
下载PDF
采场覆岩光纤监测数据LSSVM填补方法 被引量:5
15
作者 冀汶莉 郗刘涛 柴敬 《西安科技大学学报》 CAS 北大核心 2021年第1期160-171,共12页
完备的光纤监测数据是智能开采中矿压显现前兆信息识别、上覆岩层变形预测的基础,而实际得到的监测数据大多是不完整的。为有效填补光纤监测数据的缺失值,文中以采场覆岩光纤监测物理模拟实验中光纤传感器采集的数据为基础,分析了缺失... 完备的光纤监测数据是智能开采中矿压显现前兆信息识别、上覆岩层变形预测的基础,而实际得到的监测数据大多是不完整的。为有效填补光纤监测数据的缺失值,文中以采场覆岩光纤监测物理模拟实验中光纤传感器采集的数据为基础,分析了缺失数据的特征,建立了多测点单属性小样本缺失数据的最小二乘支持向量机(LSSVM)缺失数据填补方法。并将LSSVM与BP神经网络、3次样条插值等方法,在Fv11,Fv12光纤的6个不同数据集上,按照离散型、连续型、混合型3种数据缺失类型并产生不同缺失率,进行对比实验。针对离散型随机产生20%缺失数据,LSSVM,BP神经网络、3次样条插补方法的均方根误差(RMSE)平均值分别为0.0032,0.0056,0.0069,最大偏离量(MDE)平均值分别为0.012,0.022,0.028;针对连续型随机产生36%缺失数据,3种不同方法的RMSE平均值分别为0.0061,0.0077,0.0090,MDE平均值分别为0.021,0.028,0.041;前2类实验结果表明LSSVM方法均优于其他2种缺失值插补方法。当随机产生兼具离散和连续型缺失且缺失比例不同时,缺失比例小于30%时LSSVM方法略优于其他2种方法,当缺失率大于36%时LSSVM明显优于其他2种方法。综合所有实验结果表明,LSSVM插补方法对单属性小样本缺失数据填补是一种简单有效的填补方法。 展开更多
关键词 采矿工程 覆岩变形光纤监测 数据填补 最小二乘支持向量机 分布式光纤传感
下载PDF
基于LRTC-TNN的瞬时水流量数据连续插值方法 被引量:1
16
作者 赵金伟 刘杰东 +1 位作者 邱万力 黑新宏 《计算机技术与发展》 2023年第5期35-41,87,共8页
瞬时水流量数据在采集、整理、存储过程中均存在不同程度的数据缺失问题,不但会造成数据分析上的偏差,还会影响后期决策,尤其是连续水流量缺失问题。国内外关于水流量数据缺失值插补的研究方法很多,然而针对相邻时间存在连续缺失值的插... 瞬时水流量数据在采集、整理、存储过程中均存在不同程度的数据缺失问题,不但会造成数据分析上的偏差,还会影响后期决策,尤其是连续水流量缺失问题。国内外关于水流量数据缺失值插补的研究方法很多,然而针对相邻时间存在连续缺失值的插补问题还没有完备的解决方案。因此,基于瞬时水流量数据集的低秩假设,提出一种基于非凸低秩张量补全模型(A Nonconvex Low-Rank Tensor Completion Model-Truncated Nuclear Norm,LRTC-TNN)的瞬时水流量缺失值插补方法。通过乘子交替方向法(Alternating Direction Method of Multipliers,ADMM)求解最优的LRTC-TNN模型。利用通用速率参数自动确定张量模态的截断,运用张量补全的策略对连续缺失值进行预测。将该方法用于某地水厂管道瞬时水流量数据插值实验中并与其它最新的和传统的方法进行对比,取得了非常好的效果。 展开更多
关键词 时间序列 水流量 缺失值插补 张量补全 低秩张量 截断核范数
下载PDF
基于神经网络的建筑结构安全评估模型研究 被引量:4
17
作者 王俊杰 焦柯 彭子祥 《建筑科学与工程学报》 CAS 北大核心 2022年第4期174-182,共9页
为实现建筑结构安全的快速评估,提出基于神经网络的建筑结构安全评估方法。基于《民用建筑可靠性鉴定标准》的调查与检测要求并考虑数据易获取性,选择45个涵盖承载力、耐久性、历史记录和环境情况等变量作为输入参数,以《民用建筑可靠... 为实现建筑结构安全的快速评估,提出基于神经网络的建筑结构安全评估方法。基于《民用建筑可靠性鉴定标准》的调查与检测要求并考虑数据易获取性,选择45个涵盖承载力、耐久性、历史记录和环境情况等变量作为输入参数,以《民用建筑可靠性鉴定标准》中的安全等级作为输出参数,采用深度置信网络学习输入参数与输出参数间的非线性映射关系。对输入参数的选择、样本缺值问题、小样本问题和神经网络评估的可靠性进行探讨和验证。结果表明:在无法准确判断输入参数与输出参数相关性的前提下,采用全部输入参数的评估模型具有更高的鲁棒性;迷失森林算法相较其他常用的缺值插补算法有更好的插补性能;采用变分自编码器扩充训练样本集能有效提高神经网络的泛化能力和分类精度;对深度置信网络引入加权交叉熵损失函数加以改进可增加训练时对不安全类别的敏感性,牺牲少量不安全类别的查准率可以大幅提高其查全率;基于神经网络的结构安全评估模型能较好地预测结构的安全等级,具有快速且大批量运算的优势,是实现大范围建筑群结构安全监测的有效手段。 展开更多
关键词 结构安全评估 神经网络 小样本问题 缺失数据插补 查准率 查全率
下载PDF
Conv-WGAIN:面向多元时序数据缺失的卷积生成对抗插补网络模型
18
作者 刘子建 丁维龙 +2 位作者 邢梦达 李寒 黄晔 《计算机工程与科学》 CSCD 北大核心 2023年第5期931-939,共9页
油浸式变压器的油色谱数据是一种多元时序传感数据,设备或网络失误往往会导致数据缺失,通常需要通过插补形成完整数据集,才能用于进一步的业务分析研究。但是,现有的插补模型无法面向多元时序数据同时处理因时间不均匀性和时间双向性带... 油浸式变压器的油色谱数据是一种多元时序传感数据,设备或网络失误往往会导致数据缺失,通常需要通过插补形成完整数据集,才能用于进一步的业务分析研究。但是,现有的插补模型无法面向多元时序数据同时处理因时间不均匀性和时间双向性带来的插补效率低和效果难以保障的问题,对此提出一种名为Conv-WGAIN的生成对抗插补网络模型,通过构建的插补特征图,可利用二维卷积从前后2个方向学习时间特征,处理时间间隔不均匀的数据;在判别器中引入Wasserstein距离来判别生成插补数据与真实观测数据,提升了生成器的稳定性。在真实项目中的油色谱数据集和3个公开数据集上的实验表明,该模型在多元时序缺失数据上具有普遍适用性,而且在不同的缺失率下的插补结果要优于其他对比模型的,RMSE降低了20.75%~73.37%。 展开更多
关键词 生成对抗插补网络 多元时序数据 卷积神经网络 Wasserstein距离 缺失值插补
下载PDF
改进注意力机制方法对能源系统缺失值插补的研究
19
作者 房旭 《计算机时代》 2023年第7期11-14,共4页
以自注意力机制为切入点,引入序列-序列(Seq2Seq)的方法,对Transformer模型结构进行分析,改进并建立适合高精度能源数据插补的编码-解码深度学习模型FX_trans。通过对比实验,分析出每个模型的特点与适用场景;通过消融实验,分析出各个组... 以自注意力机制为切入点,引入序列-序列(Seq2Seq)的方法,对Transformer模型结构进行分析,改进并建立适合高精度能源数据插补的编码-解码深度学习模型FX_trans。通过对比实验,分析出每个模型的特点与适用场景;通过消融实验,分析出各个组件对模型的影响模式,找出适合复杂能源系统缺失数据高精度的插补方法。实验结果表明,对Transformer结构的改进尤其是对LayerNorm层的改变能很好的降低误差率,在真实数据集上的实验验证了FX_trans的有效性。 展开更多
关键词 自注意力机制 深度学习 TRANSFORMER 缺失值插补
下载PDF
基于单输出子网迭代学习的缺失值填补方法 被引量:2
20
作者 关李晶 何洁帆 +1 位作者 张立勇 闫晓明 《大连理工大学学报》 CAS CSCD 北大核心 2022年第4期427-432,共6页
现实世界中不完整数据广泛存在,通常会增加数据分析与挖掘的难度,影响分析结果的可靠性.合理填补不完整数据的缺失值已经成为当前数据分析和挖掘中一个非常重要的环节.采用不完整数据属性关联建模的方法填补缺失值,鉴于不完整数据属性... 现实世界中不完整数据广泛存在,通常会增加数据分析与挖掘的难度,影响分析结果的可靠性.合理填补不完整数据的缺失值已经成为当前数据分析和挖掘中一个非常重要的环节.采用不完整数据属性关联建模的方法填补缺失值,鉴于不完整数据属性关联关系的复杂性,使用具有强大学习能力的单输出子网模型对不完整数据的缺失值进行填补,并针对由于缺失值的存在所导致的模型输入不完整问题,从缺失值的对待与描述切入,提出一种基于单输出子网迭代学习的缺失值填补方法.实验结果表明,通过单输出子网迭代学习能够取得更精确的填补结果,验证了所提方法的有效性. 展开更多
关键词 不完整数据 缺失值填补 单输出子网 基于模型的填补 迭代学习
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部