期刊文献+
共找到352篇文章
< 1 2 18 >
每页显示 20 50 100
K近邻优化的密度峰值快速搜索聚类算法 被引量:104
1
作者 谢娟英 高红超 谢维信 《中国科学:信息科学》 CSCD 北大核心 2016年第2期258-280,共23页
针对2014年6月发表在Science的密度峰值点快速搜索聚类算法的样本局部密度定义和样本分配策略的缺陷,提出一种基于K近邻的快速密度峰值搜索并高效分配样本的聚类算法.算法利用样本点的K近邻信息定义样本局部密度,搜索和发现样本的密度峰... 针对2014年6月发表在Science的密度峰值点快速搜索聚类算法的样本局部密度定义和样本分配策略的缺陷,提出一种基于K近邻的快速密度峰值搜索并高效分配样本的聚类算法.算法利用样本点的K近邻信息定义样本局部密度,搜索和发现样本的密度峰值,以峰值点样本作为初始类簇中心;提出两种基于K近邻的样本分配策略,依次分配样本到相应类簇中心,得到数据集样本的分布模式.理论分析和在经典人工数据集、UCI数据集及Olivetti人脸数据集的对比实验表明:提出的基于K近邻的密度峰值搜索聚类算法能快速发现任意形状、任意维度和任意规模数据集的类簇中心,并合理分配样本到相应类簇,揭示数据集样本的分布模式,对噪声数据具有非常好的鲁棒性,聚类结果优于2014年6月发表在Science的密度峰值点快速搜索聚类算法,以及经典聚类算法AP,DBSCAN和K-means.本文算法是一种非常有效的聚类算法,可用于发现任意数据集的隐藏模式与规律. 展开更多
关键词 K近邻 局部密度 密度峰值 类簇中心 聚类
原文传递
类簇数目和初始中心点自确定的K-means算法 被引量:50
2
作者 贾瑞玉 李玉功 《计算机工程与应用》 CSCD 北大核心 2018年第7期152-158,共7页
K-means算法是经典的基于划分的聚类算法。针对K-means算法的类簇数目难以确定、对初始聚类中心敏感的缺陷,提出了改进的K-means算法,重新定义了计算样本对象密度的方法,并且运用残差分析的方法从决策图中自动获取初始聚类中心和类簇数... K-means算法是经典的基于划分的聚类算法。针对K-means算法的类簇数目难以确定、对初始聚类中心敏感的缺陷,提出了改进的K-means算法,重新定义了计算样本对象密度的方法,并且运用残差分析的方法从决策图中自动获取初始聚类中心和类簇数目。实验结果表明该算法可获得更好的聚类效果。 展开更多
关键词 聚类 局部密度 决策图 残差分析
下载PDF
随机溶洞介质模型的构造 被引量:36
3
作者 奚先 姚姚 顾汉民 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第9期105-108,共4页
提出了邻点融合法和阈值截取法等两种构造随机溶洞介质模型的方法.从现有的随机介质模型理论出发,以连续随机介质的每一个局部最大值点作为一个溶洞分布区的中心点,引入了溶洞分布区的局部半径R和局部溶洞密度p这两个模型特征量,采用邻... 提出了邻点融合法和阈值截取法等两种构造随机溶洞介质模型的方法.从现有的随机介质模型理论出发,以连续随机介质的每一个局部最大值点作为一个溶洞分布区的中心点,引入了溶洞分布区的局部半径R和局部溶洞密度p这两个模型特征量,采用邻点融合和阈值截取两种方法构造各种不同的随机溶洞介质模型.采用局部半径R描述溶洞介质在大尺度上的离散程度,采用局部密度p描述溶洞介质在各溶洞分布区中的局部空间密度.通过选择局部半径R和局部密度p这两个统计特征,可以方便地产生出各种不同形式的溶洞介质,并由此灵活、准确地描述实际的复杂溶洞介质. 展开更多
关键词 随机溶洞介质 邻点融合法 阚值截取法 局部半径 局部密度
下载PDF
基于局部密度的快速离群点检测算法 被引量:26
4
作者 邹云峰 张昕 +1 位作者 宋世渊 倪巍伟 《计算机应用》 CSCD 北大核心 2017年第10期2932-2937,共6页
已有的密度离群点检测算法LOF不能适应数据分布异常情况离群点检测,INFLO算法虽引入反向k近邻点集有效地解决了数据分布异常情况的离群点检测问题,但存在需要对所有数据点不加区分地分析其k近邻和反向k近邻点集导致的效率降低问题。针... 已有的密度离群点检测算法LOF不能适应数据分布异常情况离群点检测,INFLO算法虽引入反向k近邻点集有效地解决了数据分布异常情况的离群点检测问题,但存在需要对所有数据点不加区分地分析其k近邻和反向k近邻点集导致的效率降低问题。针对该问题,提出局部密度离群点检测算法——LDBO,引入强k近邻点和弱k近邻点概念,通过分析邻近数据点的离群相关性,对数据点区别对待;并提出数据点离群性预判断策略,尽可能避免不必要的反向k近邻分析,有效提高数据分布异常情况离群点检测算法的效率。理论分析和实验结果表明,LDBO算法效率优于INFLO,算法是有效可行的。 展开更多
关键词 离群点检测 局部密度 强k近邻点 弱k近邻点 反向k近邻点集
下载PDF
一种基于全局代表点的快速最小二乘支持向量机稀疏化算法 被引量:25
5
作者 马跃峰 梁循 周小平 《自动化学报》 EI CSCD 北大核心 2017年第1期132-141,共10页
非稀疏性是最小二乘支持向量机(Least squares support vector machine,LS-SVM)的主要不足,因此稀疏化是LS-SVM研究的重要内容.在目前LS-SVM稀疏化研究中,多数算法采用的是基于迭代选择的稀疏化策略,但是时间复杂度和稀疏化效果还不够理... 非稀疏性是最小二乘支持向量机(Least squares support vector machine,LS-SVM)的主要不足,因此稀疏化是LS-SVM研究的重要内容.在目前LS-SVM稀疏化研究中,多数算法采用的是基于迭代选择的稀疏化策略,但是时间复杂度和稀疏化效果还不够理想.为了进一步改进LS-SVM稀疏化方法的性能,文中提出了一种基于全局代表点选择的快速LS-SVM稀疏化算法(Global-representation-based sparse least squares support vector machine,GRS-LSSVM).在综合考虑数据局部密度和全局离散度的基础上,给出了数据全局代表性指标来评估每个数据的全局代表性.利用该指标,在全部数据中,一次性地选择出其中最具有全局代表性的数据并构成稀疏化后的支持向量集,然后在此基础上求解决策超平面,是该算法的基本思路.该算法对LS-SVM的非迭代稀疏化研究进行了有益的探索.通过与传统的迭代稀疏化方法进行比较,实验表明GRS-LSSVM具有稀疏度高、稳定性好、计算复杂度低的优点. 展开更多
关键词 最小二乘支持向量机 稀疏化 全局代表点 局部密度 全局离散度
下载PDF
一种更具拓扑稳定性的ISOMAP算法 被引量:20
6
作者 邵超 黄厚宽 赵连伟 《软件学报》 EI CSCD 北大核心 2007年第4期869-877,共9页
ISOMAP算法能否被成功运用,很大程度上依赖于邻域大小的选取是否合适.然而,如何有效地选取合适的邻域大小,目前还是一个尚未解决的难题.根据“短路”边会途经相对的低密度区域这一特点,能够有效删除邻域图中可能存在的“短路”边,提出了... ISOMAP算法能否被成功运用,很大程度上依赖于邻域大小的选取是否合适.然而,如何有效地选取合适的邻域大小,目前还是一个尚未解决的难题.根据“短路”边会途经相对的低密度区域这一特点,能够有效删除邻域图中可能存在的“短路”边,提出了P-ISOMAP(pruned-ISOMAP)算法,这极大地削弱了ISOMAP算法对邻域大小的依赖程度,从而使其更具拓扑稳定性.由于避免了邻域大小难以有效选取的问题,P-ISOMAP算法能够更容易地对数据进行可视化.实验结果很好地验证了该算法的有效性. 展开更多
关键词 ISOMAP P—ISOMAP(pruned—ISOMAP) 邻域大小 拓扑稳定性 残差 核密度估计 局部密度
下载PDF
自然最近邻优化的密度峰值聚类算法 被引量:23
7
作者 金辉 钱雪忠 《计算机科学与探索》 CSCD 北大核心 2019年第4期711-720,共10页
针对现有的基于密度的聚类算法存在参数敏感,处理非球面数据和复杂流形数据聚类效果差的问题,提出一种新的基于密度峰值的聚类算法。该算法首先根据自然最近邻居的概念确定数据点的局部密度,然后根据密度峰局部密度最高并且被稀疏区域... 针对现有的基于密度的聚类算法存在参数敏感,处理非球面数据和复杂流形数据聚类效果差的问题,提出一种新的基于密度峰值的聚类算法。该算法首先根据自然最近邻居的概念确定数据点的局部密度,然后根据密度峰局部密度最高并且被稀疏区域分割来确定聚类中心,最后提出一种新的类簇间相似度概念来解决复杂流形问题。在实验中,该算法在合成和实际数据集中的表现比DPC(clustering by fast search and find of density peaks)、DBSCAN(density-based spatial clustering of applications with noise)和K-means算法要好,并且在非球面数据和复杂流形数据上的优越性特别大。 展开更多
关键词 密度峰 自然最近邻居 局部密度 稀疏区域 类簇间相似度
下载PDF
结合K近邻的改进密度峰值聚类算法 被引量:22
8
作者 薛小娜 高淑萍 +1 位作者 彭弘铭 吴会会 《计算机工程与应用》 CSCD 北大核心 2018年第7期36-43,共8页
针对密度峰值聚类算法(DPC)在处理维数较高、含噪声及结构复杂数据集时聚类性能不佳问题,提出一种结合K近邻的改进密度峰值聚类算法(IDPCA)。该算法首先给出新的局部密度度量方法来描述每个样本在空间中的分布情况,然后引入核心点的概... 针对密度峰值聚类算法(DPC)在处理维数较高、含噪声及结构复杂数据集时聚类性能不佳问题,提出一种结合K近邻的改进密度峰值聚类算法(IDPCA)。该算法首先给出新的局部密度度量方法来描述每个样本在空间中的分布情况,然后引入核心点的概念并结合K近邻思想设计了全局搜索分配策略,通过不断将核心点的未分配K近邻正确归类以加快聚类速度,进而提出一种基于K近邻加权的统计学习分配策略,利用剩余点的K近邻加权信息来确定其被分配到各局部类的概率,有效提高了聚类质量。实验结果表明,IDPCA算法在21个典型的测试数据集上均有良好的适用性,而在与DPC算法及另外3种典型聚类算法的性能指标对比上,其优势更为明显。 展开更多
关键词 数据挖掘 聚类算法 局部密度 密度峰值 K近邻
下载PDF
K近邻和加权相似性的密度峰值聚类算法 被引量:17
9
作者 赵嘉 陈磊 +2 位作者 吴润秀 张波 韩龙哲 《控制理论与应用》 EI CAS CSCD 北大核心 2022年第12期2349-2357,共9页
密度峰值聚类算法的局部密度定义未考虑密度分布不均数据类簇间的样本密度差异影响,易导致误选类簇中心;其分配策略依据欧氏距离通过密度峰值进行链式分配,而流形数据通常有较多样本距离其密度峰值较远,导致大量本应属于同一个类簇的样... 密度峰值聚类算法的局部密度定义未考虑密度分布不均数据类簇间的样本密度差异影响,易导致误选类簇中心;其分配策略依据欧氏距离通过密度峰值进行链式分配,而流形数据通常有较多样本距离其密度峰值较远,导致大量本应属于同一个类簇的样本被错误分配给其他类簇,致使聚类精度不高.鉴于此,本文提出了一种K近邻和加权相似性的密度峰值聚类算法.该算法基于样本的K近邻信息重新定义了样本局部密度,此定义方式可以调节样本局部密度的大小,能够准确找到密度峰值;采用样本的共享最近邻及自然最近邻信息定义样本间的相似性,摒弃了欧氏距离对分配策略的影响,避免了样本分配策略产生的错误连带效应.流形及密度分布不均数据集上的对比实验表明,本文算法能准确找到疏密程度相差较大数据集的密度峰值,避免了流形数据的分配错误连带效应,得到了满意的聚类效果;同时在真实数据集上的聚类效果也十分优秀. 展开更多
关键词 密度峰值聚类 局部密度 K近邻 共享最近邻 自然最近邻
下载PDF
物理学优化的密度峰值聚类算法 被引量:14
10
作者 贾露 张德生 吕端端 《计算机工程与应用》 CSCD 北大核心 2020年第13期47-53,共7页
针对密度峰值聚类算法(DPC)在计算样本的局部密度时随机选取截断距离、分配剩余样本点错误率高等问题,提出了一种物理学改进的密度峰值聚类算法W-DPC。通过万有引力定律定义样本的局部密度;基于第一宇宙速度建立了两步策略对剩余样本点... 针对密度峰值聚类算法(DPC)在计算样本的局部密度时随机选取截断距离、分配剩余样本点错误率高等问题,提出了一种物理学改进的密度峰值聚类算法W-DPC。通过万有引力定律定义样本的局部密度;基于第一宇宙速度建立了两步策略对剩余样本点进行分配,即必须属于点的分配和可能属于点的分配,使剩余样本点的分配更加精确。利用人工合成数据集与UCI上的真实数据集对W-DPC算法进行测试,并与KNN-DPC算法、DPC算法、DBSCAN算法、AP算法以及K-Means算法进行比较,数值实验表明:W-DPC算法的聚类效果明显优于其他算法。 展开更多
关键词 密度峰值聚类算法 聚类分析 引力定律 局部密度 第一宇宙速度
下载PDF
基于局部密度构造相似矩阵的谱聚类算法 被引量:14
11
作者 吴健 崔志明 +2 位作者 时玉杰 盛胜利 龚声蓉 《通信学报》 EI CSCD 北大核心 2013年第3期14-22,共9页
依据样本数据点分布的局部和全局一致性特征,提出了一种基于局部密度构造相似矩阵的谱聚类算法。首先通过分析样本数据点的分布特性给出了局部密度定义,根据样本点的局部密度对样本点集由密到疏排序,并按照设计的连接策略构建无向图;然... 依据样本数据点分布的局部和全局一致性特征,提出了一种基于局部密度构造相似矩阵的谱聚类算法。首先通过分析样本数据点的分布特性给出了局部密度定义,根据样本点的局部密度对样本点集由密到疏排序,并按照设计的连接策略构建无向图;然后以GN算法思想为参考,给出了一种基于边介数的权值矩阵计算方法,经过数据转换得到谱聚类相似矩阵;最后通过第一个极大本征间隙出现的位置来确定类个数,并利用经典聚类方法对特征向量空间中的数据点进行聚类。通过人工仿真数据集和UCI数据集进行测试,实验结果表明本文谱聚类算法具有较好的顽健性。 展开更多
关键词 谱聚类 相似矩阵 局部密度 无向图构建 边介数
下载PDF
采用中心优化和双尺度相似性度量的改进K-means负荷聚类方法 被引量:14
12
作者 黄冬梅 葛书阳 +3 位作者 胡安铎 孙锦中 时帅 孙园 《电力系统及其自动化学报》 CSCD 北大核心 2021年第12期93-100,共8页
传统K-means聚类算法随机初始化聚类中心,导致聚类结果稳定性差,采用欧式距离不能反映负荷曲线的趋势相似度。针对上述问题,提出一种采用中心优化和双尺度相似性度量的改进K-means负荷聚类方法。首先,利用局部密度公式选取初始聚类中心... 传统K-means聚类算法随机初始化聚类中心,导致聚类结果稳定性差,采用欧式距离不能反映负荷曲线的趋势相似度。针对上述问题,提出一种采用中心优化和双尺度相似性度量的改进K-means负荷聚类方法。首先,利用局部密度公式选取初始聚类中心;然后,利用差分向量对原始日负荷曲线进行趋势提取,将其转化为描述负荷曲线局部动态特征的差分趋势序列;最后,将原始负荷序列和差分趋势序列的欧氏距离组合成新的曲线相似性度量,采用此度量来进行K-means聚类分析。算例分析表明,本文方法在戴维森堡丁指数和轮廓系数指标上优于传统K-means、双尺度K-means、中心优化的K-means等算法,本文方法可以提升负荷数据聚类的有效性。 展开更多
关键词 负荷聚类 局部密度 差分提取 相似性度量
下载PDF
不确定数据的最优k近邻和局部密度聚类算法 被引量:14
13
作者 陆亿红 夏聪 《控制与决策》 EI CSCD 北大核心 2016年第3期541-546,共6页
传统聚类算法一般针对的是确定数据,无法解决不确定数据的聚类问题;现有基于密度的不确定数据聚类算法存在参数敏感且计算率低的问题.对此,在引进新的不确定数据相异度函数、最优近邻、局部密度和互包含概念的基础上,提出解决不确定数... 传统聚类算法一般针对的是确定数据,无法解决不确定数据的聚类问题;现有基于密度的不确定数据聚类算法存在参数敏感且计算率低的问题.对此,在引进新的不确定数据相异度函数、最优近邻、局部密度和互包含概念的基础上,提出解决不确定数据聚类问题的不确定数据的最优k近邻和局部密度聚类(OLUC)算法.该算法不仅能降低参数敏感性,提高计算效率,而且具有动态自适应优化k近邻,快速发现聚类中心和除噪优化的能力.实验结果表明,所提出的算法对无论是否存在噪声的不确定数据集都效果良好. 展开更多
关键词 K近邻 局部密度 不确定数据 聚类算法
原文传递
一种基于密度峰值聚类的图像分割算法 被引量:12
14
作者 赵军 朱荽 +2 位作者 杨雯璟 许彦辉 庞宇 《计算机工程》 CAS CSCD 北大核心 2020年第2期274-278,285,共6页
聚类作为一种有效的图像分割方法,被广泛地应用于计算机视觉领域。相较于其他聚类方法,密度峰值聚类(DPC)具有参数少且能有效识别非球形聚类的特点。基于此,引入信息论中的不确定性度量熵,提出一种改进的DPC图像分割算法。将图像像素点... 聚类作为一种有效的图像分割方法,被广泛地应用于计算机视觉领域。相较于其他聚类方法,密度峰值聚类(DPC)具有参数少且能有效识别非球形聚类的特点。基于此,引入信息论中的不确定性度量熵,提出一种改进的DPC图像分割算法。将图像像素点的颜色空间CIE Lab值作为特征数据,通过计算信息熵求得自适应截断距离以取代经验取值,建立相应的决策图并确定聚类中心总数,归类非聚类中心点,剔除噪声点从而完成图像分割。在Berkeley数据集上的实验结果表明,该算法能较好地实现彩色图像的分割,其平均分割时间和PRI指标分别为14.658 s和0.721。 展开更多
关键词 密度峰值聚类 CIE Lab颜色空间 局部密度 截断距离 相对距离 信息熵
下载PDF
自适应聚合策略优化的密度峰值聚类算法 被引量:11
15
作者 钱雪忠 金辉 《计算机科学与探索》 CSCD 北大核心 2020年第4期712-720,共9页
针对密度峰值聚类算法受人为干预影响较大和参数敏感的问题,即不正确的截断距离dc会导致错误的初始聚类中心,而且在某些情况下,即使设置了适当的dc值,仍然难以从决策图中人为选择初始聚类中心。为克服这些缺陷,提出一种新的基于密度峰... 针对密度峰值聚类算法受人为干预影响较大和参数敏感的问题,即不正确的截断距离dc会导致错误的初始聚类中心,而且在某些情况下,即使设置了适当的dc值,仍然难以从决策图中人为选择初始聚类中心。为克服这些缺陷,提出一种新的基于密度峰值的聚类算法。该算法首先根据K近邻的思想来确定数据点的局部密度,然后提出一种新的自适应聚合策略,即首先通过算法给出阈值判断初始类簇中心,然后依据离初始类簇中心最近分配剩余点,最后通过类簇间密度可达来合并相似类簇。在实验中,该算法在合成和实际数据集中的表现比DPC、DBSCAN、KNNDPC和K-means算法要好,能有效提高聚类准确率和质量。 展开更多
关键词 密度峰 K近邻(KNN) 局部密度 合并策略 类簇间密度可达
下载PDF
基于自然最近邻的密度峰值聚类算法 被引量:11
16
作者 汤鑫瑶 张正军 +1 位作者 储杰 严涛 《计算机科学》 CSCD 北大核心 2021年第3期151-157,共7页
针对密度峰值聚类算法(Density Peaks Clustering,DPC)需要人为指定截断距离d c,以及局部密度定义简单和一步分配策略导致算法在复杂数据集上表现不佳的问题,提出了一种基于自然最近邻的密度峰值聚类算法(Density Peaks Clustering base... 针对密度峰值聚类算法(Density Peaks Clustering,DPC)需要人为指定截断距离d c,以及局部密度定义简单和一步分配策略导致算法在复杂数据集上表现不佳的问题,提出了一种基于自然最近邻的密度峰值聚类算法(Density Peaks Clustering based on Natural Nearest Neighbor,NNN-DPC)。该算法无需指定任何参数,是一种非参数的聚类方法。该算法首先根据自然最近邻的定义,给出新的局部密度计算方法来描述数据的分布,揭示内在的联系;然后设计了两步分配策略来进行样本点的划分。最后定义了簇间相似度并提出了新的簇合并规则进行簇的合并,从而得到最终聚类结果。实验结果表明,在无需参数的情况下,NNN-DPC算法在各类数据集上都有优秀的泛化能力,对于流形数据或簇间密度差异大的数据能更加准确地识别聚类数目和分配样本点。与DPC、FKNN-DPC(Fuzzy Weighted K-nearest Density Peak Clustering)以及其他3种经典聚类算法的性能指标相比,NNN-DPC算法更具优势。 展开更多
关键词 聚类算法 自然最近邻居 密度峰值 局部密度
下载PDF
融合密度峰值和空间邻域信息的FCM聚类算法 被引量:11
17
作者 周世波 徐维祥 徐良坤 《仪器仪表学报》 EI CAS CSCD 北大核心 2019年第4期137-144,共8页
针对模糊C均值(FCM)算法聚类结果对初始中心点敏感以及聚类过程中没有考虑到不同密度样本点在聚类过程中影响力不同的缺陷,提出了一种密度峰值和样本点空间邻域信息优化的FCM算法。改进后的算法选择数据集中具有局部密度峰值的样本点或... 针对模糊C均值(FCM)算法聚类结果对初始中心点敏感以及聚类过程中没有考虑到不同密度样本点在聚类过程中影响力不同的缺陷,提出了一种密度峰值和样本点空间邻域信息优化的FCM算法。改进后的算法选择数据集中具有局部密度峰值的样本点或者局部密度较大的样本点作为初始聚类中心,充分考虑样本点邻域之间的关系,增加局部密度值大的样本点在聚类中心迭代计算过程中的影响力,从而达到优化FCM算法聚类效果的目的。理论分析和在人造数据集、加州大学欧文分校(UCI)机器学习数据库中真实数据上的实验结果表明,改进后算法的抗噪性、聚类效果和全局收敛能力均优于传统FCM算法。 展开更多
关键词 密度峰值 模糊C均值 局部密度 聚类
下载PDF
自然反向最近邻优化的密度峰值聚类算法 被引量:11
18
作者 刘娟 万静 《计算机科学与探索》 CSCD 北大核心 2021年第10期1888-1899,共12页
密度峰值聚类算法是一种基于密度的聚类算法。针对密度峰值聚类算法存在的参数敏感和对复杂流形数据得到的聚类结果较差的缺陷,提出一种新的密度峰值聚类算法,该算法基于自然反向最近邻结构。首先,该算法引入反向最近邻计算数据对象的... 密度峰值聚类算法是一种基于密度的聚类算法。针对密度峰值聚类算法存在的参数敏感和对复杂流形数据得到的聚类结果较差的缺陷,提出一种新的密度峰值聚类算法,该算法基于自然反向最近邻结构。首先,该算法引入反向最近邻计算数据对象的局部密度;其次,通过代表点和密度相结合的方式选取初始聚类中心;然后,应用密度自适应距离计算初始聚类中心之间的距离,利用基于反向最近邻计算出的局部密度和密度自适应距离在初始聚类中心上构建决策图,并通过决策图选择最终的聚类中心;最后,将剩余的数据对象分配到距离其最近的初始聚类中心所在的簇中。实验结果表明,该算法在合成数据集和UCI真实数据集上与实验对比算法相比较,具有较好的聚类效果和准确性,并且在处理复杂流形数据上的优越性较强。 展开更多
关键词 自然邻居 反向最近邻 代表点 局部密度 聚类
下载PDF
面向流形数据的测地距离与余弦互逆近邻密度峰值聚类算法 被引量:10
19
作者 赵嘉 王刚 +1 位作者 吕莉 樊棠怀 《电子学报》 EI CAS CSCD 北大核心 2022年第11期2730-2737,共8页
密度峰值聚类算法倾向在球形分布数据中选择密度峰值,而流形数据多呈非球形分布,导致不能准确找到数据的类簇中心.该算法的分配策略优先对类簇中心附近的样本进行链式分配,而流形数据大量样本远离其类簇中心,导致本应属于同一类簇的样... 密度峰值聚类算法倾向在球形分布数据中选择密度峰值,而流形数据多呈非球形分布,导致不能准确找到数据的类簇中心.该算法的分配策略优先对类簇中心附近的样本进行链式分配,而流形数据大量样本远离其类簇中心,导致本应属于同一类簇的样本被错误分配.为此,本文提出一种面向流形数据的测地距离与余弦互逆近邻密度峰值聚类算法.将K近邻与测地距离结合并重新定义局部密度,凸显密度峰值与非密度峰值的差异,准确找到类簇中心;将互逆近邻和余弦相似性相结合,得到基于余弦互逆近邻的样本相似度矩阵,为流形类簇准确分配样本.实验结果表明,本算法能有效发现流形数据集的几何形状并准确聚类,对真实数据集和图像数据集的聚类效果优秀. 展开更多
关键词 密度峰值 聚类 K近邻 互逆近邻 局部密度 分配策略
下载PDF
加权K近邻和多簇合并的密度峰值聚类算法 被引量:10
20
作者 陈磊 吴润秀 +1 位作者 李沛武 赵嘉 《计算机科学与探索》 CSCD 北大核心 2022年第9期2163-2176,共14页
密度峰值聚类(DPC)算法是一种基于密度的聚类算法。该算法原理简单、运行高效,可以找到任意非球形类簇。但是该算法存在一些缺陷:首先,该算法局部密度定义的度量准则不统一且两者的聚类结果存在较大差异;其次,该算法的分配策略易产生分... 密度峰值聚类(DPC)算法是一种基于密度的聚类算法。该算法原理简单、运行高效,可以找到任意非球形类簇。但是该算法存在一些缺陷:首先,该算法局部密度定义的度量准则不统一且两者的聚类结果存在较大差异;其次,该算法的分配策略易产生分配连带错误,即一旦某一个样本分配错误,会导致后续一连串的样本分配错误。为解决这些问题,提出了一种加权K近邻和多簇合并的密度峰值聚类算法(WKMM-DPC)。该算法结合加权K近邻的思想,引入样本的权重系数,重新定义样本的局部密度,使局部密度更加依赖于K近邻内样本的位置,且统一了密度定义的度量准则;定义了类簇间的相似度,并据此度量准则进行多簇合并,以避免分配剩余样本时的分配连带错误。在人工和UCI数据集上的实验表明,该算法的聚类效果优于FKNNDPC、DPCSA、FNDPC、DPC和DBSCAN算法。 展开更多
关键词 聚类 局部密度 密度峰值 K近邻(KNN) 多簇合并
下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部