聚类作为数据挖掘和机器学习中最基本的任务之一,在各种现实世界任务中已得到广泛应用。随着深度学习的发展,深度聚类成为一个研究热点。现有的深度聚类算法主要从节点表征学习或者结构表征学习两个方面入手,较少考虑同时将这两种信息...聚类作为数据挖掘和机器学习中最基本的任务之一,在各种现实世界任务中已得到广泛应用。随着深度学习的发展,深度聚类成为一个研究热点。现有的深度聚类算法主要从节点表征学习或者结构表征学习两个方面入手,较少考虑同时将这两种信息进行融合以完成表征学习。提出一种融合变分图注意自编码器的深度聚类模型FVGTAEDC(Deep Clustering Model Based on Fusion Varitional Graph Attention Self-encoder),此模型通过联合自编码器和变分图注意自编码器进行聚类,模型中自编码器将变分图注意自编码器从网络中学习(低阶和高阶)结构表示进行集成,随后从原始数据中学习特征表示。在两个模块训练的同时,为了适应聚类任务,将自编码器模块融合节点和结构信息的表示特征进行自监督聚类训练。通过综合聚类损失、自编码器重构数据损失、变分图注意自编码器重构邻接矩阵损失、后验概率分布与先验概率分布相对熵损失,该模型可以有效聚合节点的属性和网络的结构,同时优化聚类标签分配和学习适合于聚类的表示特征。综合实验证明,该方法在5个现实数据集上的聚类效果均优于当前先进的深度聚类方法。展开更多
对于聚类而言确定聚类数目一直是一个具有挑战性的难题。尽管在经典与深度聚类中,非参数方法的好处是众所周知的,但大多数方法都是参数的,即需要预定义的固定数量的聚类,用k表示。一旦给定的k不准确,那么聚类结果的准确度将会十分低下,...对于聚类而言确定聚类数目一直是一个具有挑战性的难题。尽管在经典与深度聚类中,非参数方法的好处是众所周知的,但大多数方法都是参数的,即需要预定义的固定数量的聚类,用k表示。一旦给定的k不准确,那么聚类结果的准确度将会十分低下,尤其是对于高维数据和多种类数据而言。本文提出了一种非参数深度自聚类方法——基于蒙特卡洛方法(Monte Carlo method)的聚类数目确定方法。它是一种可以对多种类数据自动判断聚类数目的方法,并且得到的嵌入具有很好的解释性,可以用于其他任务。本模型采用自编码器作为主体,使用蒙特卡洛方法综合确定聚类数目。在对多种类数据进行的试验中,效果相对于本文选取的先进对照方法有了明显的提升。展开更多
深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比...深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比学习的矢量化特征空间嵌入聚类(vectorized feature space embedded clustering based on contrastive learning,VECCL)方法。通过对比学习以辨识数据实例之间异同性的方式,从数据中提取出具有同近异远聚类语义的特征,并作为先验知识带入DEC中,引导自编码器初始化带有深层数据信息的低维聚类特征空间。同时利用软分类标签构造熵损失,与自编码器的重构损失一起作为正则化项引入聚类损失函数中,共同细化聚类。实验结果表明,所提方法提取特征的能力更强,与DEC方法在数据集CIFAR10、CIFAR100和STL10上的实验结果相比,ACC分别提升48.1个百分点、23.1个百分点和41.8个百分点,NMI分别提升41.0个百分点、25.2个百分点和39.0个百分点,ARI分别提升45.4个百分点、16.4个百分点和41.8个百分点。展开更多
文摘聚类作为数据挖掘和机器学习中最基本的任务之一,在各种现实世界任务中已得到广泛应用。随着深度学习的发展,深度聚类成为一个研究热点。现有的深度聚类算法主要从节点表征学习或者结构表征学习两个方面入手,较少考虑同时将这两种信息进行融合以完成表征学习。提出一种融合变分图注意自编码器的深度聚类模型FVGTAEDC(Deep Clustering Model Based on Fusion Varitional Graph Attention Self-encoder),此模型通过联合自编码器和变分图注意自编码器进行聚类,模型中自编码器将变分图注意自编码器从网络中学习(低阶和高阶)结构表示进行集成,随后从原始数据中学习特征表示。在两个模块训练的同时,为了适应聚类任务,将自编码器模块融合节点和结构信息的表示特征进行自监督聚类训练。通过综合聚类损失、自编码器重构数据损失、变分图注意自编码器重构邻接矩阵损失、后验概率分布与先验概率分布相对熵损失,该模型可以有效聚合节点的属性和网络的结构,同时优化聚类标签分配和学习适合于聚类的表示特征。综合实验证明,该方法在5个现实数据集上的聚类效果均优于当前先进的深度聚类方法。
文摘对于聚类而言确定聚类数目一直是一个具有挑战性的难题。尽管在经典与深度聚类中,非参数方法的好处是众所周知的,但大多数方法都是参数的,即需要预定义的固定数量的聚类,用k表示。一旦给定的k不准确,那么聚类结果的准确度将会十分低下,尤其是对于高维数据和多种类数据而言。本文提出了一种非参数深度自聚类方法——基于蒙特卡洛方法(Monte Carlo method)的聚类数目确定方法。它是一种可以对多种类数据自动判断聚类数目的方法,并且得到的嵌入具有很好的解释性,可以用于其他任务。本模型采用自编码器作为主体,使用蒙特卡洛方法综合确定聚类数目。在对多种类数据进行的试验中,效果相对于本文选取的先进对照方法有了明显的提升。
文摘深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比学习的矢量化特征空间嵌入聚类(vectorized feature space embedded clustering based on contrastive learning,VECCL)方法。通过对比学习以辨识数据实例之间异同性的方式,从数据中提取出具有同近异远聚类语义的特征,并作为先验知识带入DEC中,引导自编码器初始化带有深层数据信息的低维聚类特征空间。同时利用软分类标签构造熵损失,与自编码器的重构损失一起作为正则化项引入聚类损失函数中,共同细化聚类。实验结果表明,所提方法提取特征的能力更强,与DEC方法在数据集CIFAR10、CIFAR100和STL10上的实验结果相比,ACC分别提升48.1个百分点、23.1个百分点和41.8个百分点,NMI分别提升41.0个百分点、25.2个百分点和39.0个百分点,ARI分别提升45.4个百分点、16.4个百分点和41.8个百分点。