针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,...针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。展开更多
混合属性数据流聚类是数据流挖掘中的重要问题.针对现存聚类方法在处理混合属性数据流聚类时存在聚类精度低和实时性差的问题,提出一种基于密度的混合属性数据流聚类算法HDSDen(Heterogeneous Data Stream based on Density Clustering ...混合属性数据流聚类是数据流挖掘中的重要问题.针对现存聚类方法在处理混合属性数据流聚类时存在聚类精度低和实时性差的问题,提出一种基于密度的混合属性数据流聚类算法HDSDen(Heterogeneous Data Stream based on Density Clustering Algorithm),算法由在线聚类/离线优化两部分组成,在线聚类快速完成距离计算与聚类,离线优化实现二次聚类提高聚类精度.针对现存混合型属性计算距离方式精度低的问题,本文设计属性占优分析预先确定混合属性数据流中分类或数值属性占优的,随即选择对应的相似度计算公式,从而保证了混合属性的相似度计算满足属性重要性平衡,降低非占优属性数据对整体数据聚类的影响,在线聚类最终通过给定参数ε和μ确定当前窗口到达的数据点中的核心数据点.离线部分从核心数据点出发将所有密度可达的数据点聚成一个自然类,并将未被聚类的数据点存入暂存区,若暂存区内数据点达到一定数量,将暂存区的数据再聚类优化整体的聚类效果,从而实现了离群点的二次聚类,保证了聚类的精度.最后HDSDen算法对真实数据集进行聚类实验,验证HDSDen算法比现有几种典型数据流聚类方法具有更高的聚类质量,并能给出任意时间的聚类结果,能够有效地处理混合属性数据流聚类问题.展开更多
为保障海上运输安全,实现有效的海上风险预警,对影响国际海运通道安全最主要的非传统安全风险的时空分布模式进行探索。海上运输非传统安全风险主要包括海盗、海上恐怖主义和海上偷渡,对这3类风险发生的影响因素进行分析并结合风险特征...为保障海上运输安全,实现有效的海上风险预警,对影响国际海运通道安全最主要的非传统安全风险的时空分布模式进行探索。海上运输非传统安全风险主要包括海盗、海上恐怖主义和海上偷渡,对这3类风险发生的影响因素进行分析并结合风险特征构建特征指标体系。基于国际海事组织全球航运信息集成系统(Global Integrated Shipping Information System,GISIS),应用K原型聚类模型,并以轮廓系数法进行模型校正,对2015—2020年全球海运通道非传统安全风险进行空间划分。试验结果表明:东马来西亚沿岸、苏禄海、苏拉威西海是马六甲海峡周边海域海上袭击的高风险区;非洲沿岸港口始终是偷渡的高风险区,拉丁美洲海上偷渡发生地逐渐南移,地中海沿岸港口海上偷渡频率显著上升。研究成果表明该方法可实现对区域内不同海上非传统安全风险的细致划分。展开更多
文摘针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。
文摘混合属性数据流聚类是数据流挖掘中的重要问题.针对现存聚类方法在处理混合属性数据流聚类时存在聚类精度低和实时性差的问题,提出一种基于密度的混合属性数据流聚类算法HDSDen(Heterogeneous Data Stream based on Density Clustering Algorithm),算法由在线聚类/离线优化两部分组成,在线聚类快速完成距离计算与聚类,离线优化实现二次聚类提高聚类精度.针对现存混合型属性计算距离方式精度低的问题,本文设计属性占优分析预先确定混合属性数据流中分类或数值属性占优的,随即选择对应的相似度计算公式,从而保证了混合属性的相似度计算满足属性重要性平衡,降低非占优属性数据对整体数据聚类的影响,在线聚类最终通过给定参数ε和μ确定当前窗口到达的数据点中的核心数据点.离线部分从核心数据点出发将所有密度可达的数据点聚成一个自然类,并将未被聚类的数据点存入暂存区,若暂存区内数据点达到一定数量,将暂存区的数据再聚类优化整体的聚类效果,从而实现了离群点的二次聚类,保证了聚类的精度.最后HDSDen算法对真实数据集进行聚类实验,验证HDSDen算法比现有几种典型数据流聚类方法具有更高的聚类质量,并能给出任意时间的聚类结果,能够有效地处理混合属性数据流聚类问题.
文摘为保障海上运输安全,实现有效的海上风险预警,对影响国际海运通道安全最主要的非传统安全风险的时空分布模式进行探索。海上运输非传统安全风险主要包括海盗、海上恐怖主义和海上偷渡,对这3类风险发生的影响因素进行分析并结合风险特征构建特征指标体系。基于国际海事组织全球航运信息集成系统(Global Integrated Shipping Information System,GISIS),应用K原型聚类模型,并以轮廓系数法进行模型校正,对2015—2020年全球海运通道非传统安全风险进行空间划分。试验结果表明:东马来西亚沿岸、苏禄海、苏拉威西海是马六甲海峡周边海域海上袭击的高风险区;非洲沿岸港口始终是偷渡的高风险区,拉丁美洲海上偷渡发生地逐渐南移,地中海沿岸港口海上偷渡频率显著上升。研究成果表明该方法可实现对区域内不同海上非传统安全风险的细致划分。