期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于共享最近邻的自适应密度峰值聚类算法
1
作者 王心耕 杜韬 +2 位作者 周劲 陈迪 《计算机科学》 CSCD 北大核心 2024年第8期97-105,共9页
密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,该算法虽能自动发现簇中心,实现任意形状数据的高效聚类,但依然存在一些缺陷。针对密度峰值聚类算法在定义相关度量值时未考虑数据的位置信息、聚类中心数目需要人工预先设定且分... 密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,该算法虽能自动发现簇中心,实现任意形状数据的高效聚类,但依然存在一些缺陷。针对密度峰值聚类算法在定义相关度量值时未考虑数据的位置信息、聚类中心数目需要人工预先设定且分配样本点时易出现连锁反应这3个缺陷,提出一种基于共享最近邻的自适应密度峰值聚类算法。首先,利用共享最近邻重新定义局部密度等度量值,充分考虑了数据分布的局部特点,使样本点的空间分布特征得以更好地体现;其次,通过引入密度衰减现象让样本点自动聚集成微簇,实现了簇个数自适应确定和簇中心自适应选取;最后,提出一种两阶段的分配方法,先将微簇合并形成簇的主干部分,再用上一步分配好的簇主干指导剩余点的分配,避免了链式反应的发生。在二维合成数据集以及UCI数据集上的实现表明,相较于经典的密度峰值聚类算法及近年来对其提出的改进算法,在大多数情况下,所提算法表现出更优异的性能。 展开更多
关键词 共享最近邻 密度峰值聚类 分配策略 聚类中心 密度衰减
下载PDF
基于三阶张量的大规模数据谱聚类集成算法
2
作者 杜韬 +2 位作者 周劲 陈迪 王心耕 《大数据》 2024年第3期133-148,共16页
为了降低大规模数据谱聚类计算负担,进一步提高聚类的准确性和鲁棒性,提出了一种基于三阶张量的大规模数据谱聚类集成算法。首先,提出一种混合代表最近邻近似方法构造数据间的稀疏亲和子矩阵;然后将稀疏亲和子矩阵表示为二部图,通过图... 为了降低大规模数据谱聚类计算负担,进一步提高聚类的准确性和鲁棒性,提出了一种基于三阶张量的大规模数据谱聚类集成算法。首先,提出一种混合代表最近邻近似方法构造数据间的稀疏亲和子矩阵;然后将稀疏亲和子矩阵表示为二部图,通过图分割的方法得到初步聚类结果;最后,提出三阶张量集成方法,将多个聚类结果进行融合,得到最终的聚类结果。在大规模的真实数据集和合成数据集上验证,相较经典的谱聚类算法、聚类集成算法以及近年来对其改进的算法,该算法表现出更优异的性能。 展开更多
关键词 数据聚类 大规模数据 谱聚类 三阶张量 聚类集成
下载PDF
自适应多密度峰值子簇融合聚类算法
3
作者 陈迪 杜韬 +2 位作者 周劲 王心耕 《计算机工程与应用》 CSCD 北大核心 2023年第23期73-85,共13页
经典的密度峰值聚类算法在计算局部密度时过分依赖截断距离,在分配非中心点时易出现连锁效应,且人工选取聚类中心点的方式难以识别出密度不均匀簇的聚类中心。针对该问题,提出一种自适应多密度峰值子簇融合聚类算法。考虑样本的邻域信息... 经典的密度峰值聚类算法在计算局部密度时过分依赖截断距离,在分配非中心点时易出现连锁效应,且人工选取聚类中心点的方式难以识别出密度不均匀簇的聚类中心。针对该问题,提出一种自适应多密度峰值子簇融合聚类算法。考虑样本的邻域信息,将自然邻居的思想引入密度峰值聚类中,实现了样本点局部密度的自适应计算;为发现稀疏密度簇的中心,提出一种簇中心自动选取策略用于确定初始子簇中心,并使用一种两阶段分配策略降低连锁效应发生的概率;提出一种基于K近邻相似度的度量准则,将相似度高的子簇进行融合,得到最终的聚类结果。在二维合成数据集以及UCI数据集上,相较经典的密度峰值聚类算法以及近年来对其改进的算法,该算法表现出更优异的性能。 展开更多
关键词 自然邻居 密度峰值聚类 多子簇融合 分配策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部