深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比...深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比学习的矢量化特征空间嵌入聚类(vectorized feature space embedded clustering based on contrastive learning,VECCL)方法。通过对比学习以辨识数据实例之间异同性的方式,从数据中提取出具有同近异远聚类语义的特征,并作为先验知识带入DEC中,引导自编码器初始化带有深层数据信息的低维聚类特征空间。同时利用软分类标签构造熵损失,与自编码器的重构损失一起作为正则化项引入聚类损失函数中,共同细化聚类。实验结果表明,所提方法提取特征的能力更强,与DEC方法在数据集CIFAR10、CIFAR100和STL10上的实验结果相比,ACC分别提升48.1个百分点、23.1个百分点和41.8个百分点,NMI分别提升41.0个百分点、25.2个百分点和39.0个百分点,ARI分别提升45.4个百分点、16.4个百分点和41.8个百分点。展开更多
随着水、光互补发电系统的应用越来越广泛,如何对水、光出力及负荷增长变化的不确定的融合特性建模对电网的运行调度及规划愈加重要。典型场景生成是解决该问题的主要方法之一,由于传统采用历史数据概率建模,抽样并削减生成场景的方法...随着水、光互补发电系统的应用越来越广泛,如何对水、光出力及负荷增长变化的不确定的融合特性建模对电网的运行调度及规划愈加重要。典型场景生成是解决该问题的主要方法之一,由于传统采用历史数据概率建模,抽样并削减生成场景的方法计算复杂度高、准确率低,且无法有效处理高维多变量数据,该文提出一种基于深度嵌入聚类的水光荷不确定性源场景生成方法。首先利用堆栈自编码(stacked auto-encoder,SAE)网络提取水光荷不确定变量的初始特征,降低数据维度;然后,利用KL(Kullback-Leibler)散度优化聚类分配目标对自编码网络进行调整,采用自适应矩估计(adaptive moment estimation,Adam)优化算法得到模型最佳参数,通过对编码所嵌入的特征向量不断迭代优化,得到水光荷不确定性变量间的时空依赖关系,从而生成典型场景。算例分析以某地区电网实际采集数据为研究对象,利用误差平方和(sum of squared error,SSE)、SIL、CHI指标对比传统聚类方法,验证了所提算法的有效性。展开更多
负荷曲线聚类是电力大数据研究的基础,通过聚类来挖掘用户的用电模式,从而为电力调控提供决策。针对传统的聚类方法难以处理高维多变量数据,提取时间特征较困难,存在特征提取与聚类过程分离的问题,采用基于一维卷积自编码器的深度卷积...负荷曲线聚类是电力大数据研究的基础,通过聚类来挖掘用户的用电模式,从而为电力调控提供决策。针对传统的聚类方法难以处理高维多变量数据,提取时间特征较困难,存在特征提取与聚类过程分离的问题,采用基于一维卷积自编码器的深度卷积嵌入聚类方法(deep convolutional embedded clustering based on one-dimensional convolution autoencoder,DCEC-1D),对负荷曲线进行聚类并提取典型负荷曲线。首先,用一维卷积自编码器(one-dimensional convolutional autoencoder,1D-CAE)提取特征,送入K-means得到初始簇中心;然后,利用自定义的聚类层对提取的负荷特征进行软分布;最后,为防止扭曲嵌入空间,将聚类损失和重构损失相结合作为损失函数联合优化,得到最终的聚类结果。算例分析以美国加州大学欧文分校(University of California Irvine,UCI)提出的数据集中的葡萄牙居民用户实际采集数据为研究对象,通过戴维森堡丁指数(Davies-Bouldin index,DBI),CH分数(Calinski-Harabaz index,CHI),轮廓系数(Silhouette coefficient,SC)这3个聚类指标进行定量分析,并通过t分布随机邻域嵌入(t-distributed stochastic neighborhood embedding,TSNE)进行可视化分析。试验结果表明,相较于传统的K-means、主成分分析法(principal components analysis,PCA)+K-means,该方法聚类指标有大幅度提升。对比基于局部结构保留的深度嵌入聚类(improved deep embedded clustering,IDEC),基于一维卷积的深度嵌入聚类(deep embedding clustering method based on one dimensional convolutional auto-encoder,DEC-1D-CAE)和1D-CAE+K-means,所提方法的DBI分别降低了约0.15、0.08和1.50,CHI提高了约19384.92、12488.48和36485.72,SC提高了约0.10、0.05和0.63。展开更多
负荷聚类是电力大数据分析的重要基础。针对高维日负荷数据时序特征提取困难,以及特征提取与聚类处理分离降低负荷聚类准确性的问题,文章提出了一种基于一维卷积自编码器的日负荷深度嵌入聚类方法(deep embedding clustering method bas...负荷聚类是电力大数据分析的重要基础。针对高维日负荷数据时序特征提取困难,以及特征提取与聚类处理分离降低负荷聚类准确性的问题,文章提出了一种基于一维卷积自编码器的日负荷深度嵌入聚类方法(deep embedding clustering method based on one dimensional convolutional auto-encoder,DEC-1D-CAE)。首先,采用一维卷积自编码器网络提取负荷曲线蕴含的时序特征。然后,利用自定义聚类层对所提取的负荷特征向量进行软划分。最后,采用KL散度(Kullback-Leibler divergence,KLD)为损失函数,联合优化卷积自编码器与聚类层,得到聚类结果。算例分析表明所提方法在DBI(Davies-Bouldin index)、CHI(Calinski-Harabasz index)指标上均优于K-means、1D-CAE+K-means、基于堆叠式编码器的深度嵌入聚类方法(deep embedding clustering method based on stacked auto-encoder,DEC-SAE),所提方法可以有效提升日负荷聚类的准确性。展开更多
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插...电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.展开更多
文摘深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比学习的矢量化特征空间嵌入聚类(vectorized feature space embedded clustering based on contrastive learning,VECCL)方法。通过对比学习以辨识数据实例之间异同性的方式,从数据中提取出具有同近异远聚类语义的特征,并作为先验知识带入DEC中,引导自编码器初始化带有深层数据信息的低维聚类特征空间。同时利用软分类标签构造熵损失,与自编码器的重构损失一起作为正则化项引入聚类损失函数中,共同细化聚类。实验结果表明,所提方法提取特征的能力更强,与DEC方法在数据集CIFAR10、CIFAR100和STL10上的实验结果相比,ACC分别提升48.1个百分点、23.1个百分点和41.8个百分点,NMI分别提升41.0个百分点、25.2个百分点和39.0个百分点,ARI分别提升45.4个百分点、16.4个百分点和41.8个百分点。
文摘随着水、光互补发电系统的应用越来越广泛,如何对水、光出力及负荷增长变化的不确定的融合特性建模对电网的运行调度及规划愈加重要。典型场景生成是解决该问题的主要方法之一,由于传统采用历史数据概率建模,抽样并削减生成场景的方法计算复杂度高、准确率低,且无法有效处理高维多变量数据,该文提出一种基于深度嵌入聚类的水光荷不确定性源场景生成方法。首先利用堆栈自编码(stacked auto-encoder,SAE)网络提取水光荷不确定变量的初始特征,降低数据维度;然后,利用KL(Kullback-Leibler)散度优化聚类分配目标对自编码网络进行调整,采用自适应矩估计(adaptive moment estimation,Adam)优化算法得到模型最佳参数,通过对编码所嵌入的特征向量不断迭代优化,得到水光荷不确定性变量间的时空依赖关系,从而生成典型场景。算例分析以某地区电网实际采集数据为研究对象,利用误差平方和(sum of squared error,SSE)、SIL、CHI指标对比传统聚类方法,验证了所提算法的有效性。
文摘负荷曲线聚类是电力大数据研究的基础,通过聚类来挖掘用户的用电模式,从而为电力调控提供决策。针对传统的聚类方法难以处理高维多变量数据,提取时间特征较困难,存在特征提取与聚类过程分离的问题,采用基于一维卷积自编码器的深度卷积嵌入聚类方法(deep convolutional embedded clustering based on one-dimensional convolution autoencoder,DCEC-1D),对负荷曲线进行聚类并提取典型负荷曲线。首先,用一维卷积自编码器(one-dimensional convolutional autoencoder,1D-CAE)提取特征,送入K-means得到初始簇中心;然后,利用自定义的聚类层对提取的负荷特征进行软分布;最后,为防止扭曲嵌入空间,将聚类损失和重构损失相结合作为损失函数联合优化,得到最终的聚类结果。算例分析以美国加州大学欧文分校(University of California Irvine,UCI)提出的数据集中的葡萄牙居民用户实际采集数据为研究对象,通过戴维森堡丁指数(Davies-Bouldin index,DBI),CH分数(Calinski-Harabaz index,CHI),轮廓系数(Silhouette coefficient,SC)这3个聚类指标进行定量分析,并通过t分布随机邻域嵌入(t-distributed stochastic neighborhood embedding,TSNE)进行可视化分析。试验结果表明,相较于传统的K-means、主成分分析法(principal components analysis,PCA)+K-means,该方法聚类指标有大幅度提升。对比基于局部结构保留的深度嵌入聚类(improved deep embedded clustering,IDEC),基于一维卷积的深度嵌入聚类(deep embedding clustering method based on one dimensional convolutional auto-encoder,DEC-1D-CAE)和1D-CAE+K-means,所提方法的DBI分别降低了约0.15、0.08和1.50,CHI提高了约19384.92、12488.48和36485.72,SC提高了约0.10、0.05和0.63。
文摘负荷聚类是电力大数据分析的重要基础。针对高维日负荷数据时序特征提取困难,以及特征提取与聚类处理分离降低负荷聚类准确性的问题,文章提出了一种基于一维卷积自编码器的日负荷深度嵌入聚类方法(deep embedding clustering method based on one dimensional convolutional auto-encoder,DEC-1D-CAE)。首先,采用一维卷积自编码器网络提取负荷曲线蕴含的时序特征。然后,利用自定义聚类层对所提取的负荷特征向量进行软划分。最后,采用KL散度(Kullback-Leibler divergence,KLD)为损失函数,联合优化卷积自编码器与聚类层,得到聚类结果。算例分析表明所提方法在DBI(Davies-Bouldin index)、CHI(Calinski-Harabasz index)指标上均优于K-means、1D-CAE+K-means、基于堆叠式编码器的深度嵌入聚类方法(deep embedding clustering method based on stacked auto-encoder,DEC-SAE),所提方法可以有效提升日负荷聚类的准确性。
文摘电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.