目前通行的社区划分方法大多基于结构,但单纯基于结构的划分不能挖掘出社区对象的潜在关系,因而不能发现社区的变化趋势。为此,提出了基于结构的社区划分算法(Community Division based on Structure,CDS)。该算法利用度和节点欧氏距离...目前通行的社区划分方法大多基于结构,但单纯基于结构的划分不能挖掘出社区对象的潜在关系,因而不能发现社区的变化趋势。为此,提出了基于结构的社区划分算法(Community Division based on Structure,CDS)。该算法利用度和节点欧氏距离对社会网络进行结构划分;同时针对经典K-means算法在社区划分中所存在的随机选取初始中心点以及k值选取不合理所导致的聚类结果不佳问题,提出了一种基于社区结构的非人为设定k值的K-means算法—NPCluster(Non Presetting Cluster)算法。该算法基于由CDS算法所提到的社区结构,依次选取度最大的节点作为聚类中心点,以小于平均特征欧氏距离为基准合并簇集,反复迭代直至聚类完成。理论分析和对比实验结果表明,CDS算法能够有效划分出社区结构;相对于K-means算法,NPCluster算法在已划分的社区结构上具有更高的聚类精度和更好的时效性;结构与属性相结合的社区划分方法是有效可行的。展开更多
基于密度的DBSCAN聚类算法和基于划分的k-means聚类算法各有其优缺点。文中在k-means和DBSCAN聚类算法的基础上,以减少聚类算法对参数和数据点输入顺序的敏感性,发现任意形状的簇,提高聚类挖掘的质量为目标,提出了一种密度和划分结合的...基于密度的DBSCAN聚类算法和基于划分的k-means聚类算法各有其优缺点。文中在k-means和DBSCAN聚类算法的基础上,以减少聚类算法对参数和数据点输入顺序的敏感性,发现任意形状的簇,提高聚类挖掘的质量为目标,提出了一种密度和划分结合的聚类算法—DDCA。该算法首先计算数据点的密度,以密度不小于给定阈值的中心点以及在其密度范围内的点组合成各个基本簇;再依据两个簇中心点之间的距离合并基本簇;最后把没有划分到任意簇的点划分到与其距离最近的簇中。理论分析和基于KDD CUP 99数据集的实验结果表明,提出的DDCA算法能够发现任意形状的簇,对数据点的输入顺序以及参数不敏感,在时间开销仅略有增加的情况下可获得更高的聚类准确度,其总体性能优于k-means。展开更多
文摘目前通行的社区划分方法大多基于结构,但单纯基于结构的划分不能挖掘出社区对象的潜在关系,因而不能发现社区的变化趋势。为此,提出了基于结构的社区划分算法(Community Division based on Structure,CDS)。该算法利用度和节点欧氏距离对社会网络进行结构划分;同时针对经典K-means算法在社区划分中所存在的随机选取初始中心点以及k值选取不合理所导致的聚类结果不佳问题,提出了一种基于社区结构的非人为设定k值的K-means算法—NPCluster(Non Presetting Cluster)算法。该算法基于由CDS算法所提到的社区结构,依次选取度最大的节点作为聚类中心点,以小于平均特征欧氏距离为基准合并簇集,反复迭代直至聚类完成。理论分析和对比实验结果表明,CDS算法能够有效划分出社区结构;相对于K-means算法,NPCluster算法在已划分的社区结构上具有更高的聚类精度和更好的时效性;结构与属性相结合的社区划分方法是有效可行的。
文摘基于密度的DBSCAN聚类算法和基于划分的k-means聚类算法各有其优缺点。文中在k-means和DBSCAN聚类算法的基础上,以减少聚类算法对参数和数据点输入顺序的敏感性,发现任意形状的簇,提高聚类挖掘的质量为目标,提出了一种密度和划分结合的聚类算法—DDCA。该算法首先计算数据点的密度,以密度不小于给定阈值的中心点以及在其密度范围内的点组合成各个基本簇;再依据两个簇中心点之间的距离合并基本簇;最后把没有划分到任意簇的点划分到与其距离最近的簇中。理论分析和基于KDD CUP 99数据集的实验结果表明,提出的DDCA算法能够发现任意形状的簇,对数据点的输入顺序以及参数不敏感,在时间开销仅略有增加的情况下可获得更高的聚类准确度,其总体性能优于k-means。