基于局部线性嵌入(LLE)方法所确定的数据集的拓扑结构和高维数据空间的距离特性,提出了自逼近度和可分离度的概念.然后利用二者构建了一种新的本征维数估计方法.这种估计方法揭示了 LLE 降维过程中涉及的数据维数与邻域大小的选取之间...基于局部线性嵌入(LLE)方法所确定的数据集的拓扑结构和高维数据空间的距离特性,提出了自逼近度和可分离度的概念.然后利用二者构建了一种新的本征维数估计方法.这种估计方法揭示了 LLE 降维过程中涉及的数据维数与邻域大小的选取之间的内在关联.最后,通过与主成分分析(PCA)进行实例对比,说明这种方法更加合理,更能反映数据集的本征特性.展开更多
流形学习关注于寻找合适的嵌入方式将高维空间映射至低维空间,但映射子空间依然可能具有较高的维度,难以解决高维空间的数据挖掘任务.本文建立一种简单的矩阵模型判断数据点k近邻空间关于该点的对称性,并使用对称率进行边界提取,提出一...流形学习关注于寻找合适的嵌入方式将高维空间映射至低维空间,但映射子空间依然可能具有较高的维度,难以解决高维空间的数据挖掘任务.本文建立一种简单的矩阵模型判断数据点k近邻空间关于该点的对称性,并使用对称率进行边界提取,提出一种基于矩阵模型的高维聚类边界检测技术(Clustering boundary detection based on matrix model,MMC).该模型构造简单、直接、易于理解和使用.理论分析以及在人工合成和真实数据集的实验结果表明MMC算法能够有效地检测出低维和高维空间的聚类边界.展开更多
基金Supported by the National Natural Science Foundation of China under Grant No.6040301860773077(国家自然科学基金)+3 种基金the National Basic Research Program of China under Grant No.2005CB321905(国家重点基础研究发展计划(973))the Postdoctoral Science Foundation Funded Project of China under Grant No.20070420257(中国博士后科学基金)the Natural Science Foundation of Shanghai of China under Grant No.04ZR14011(上海市自然科学基金)Collaboration Plan of AMD with Universities(AMD大学合作计划)
文摘基于局部线性嵌入(LLE)方法所确定的数据集的拓扑结构和高维数据空间的距离特性,提出了自逼近度和可分离度的概念.然后利用二者构建了一种新的本征维数估计方法.这种估计方法揭示了 LLE 降维过程中涉及的数据维数与邻域大小的选取之间的内在关联.最后,通过与主成分分析(PCA)进行实例对比,说明这种方法更加合理,更能反映数据集的本征特性.
文摘流形学习关注于寻找合适的嵌入方式将高维空间映射至低维空间,但映射子空间依然可能具有较高的维度,难以解决高维空间的数据挖掘任务.本文建立一种简单的矩阵模型判断数据点k近邻空间关于该点的对称性,并使用对称率进行边界提取,提出一种基于矩阵模型的高维聚类边界检测技术(Clustering boundary detection based on matrix model,MMC).该模型构造简单、直接、易于理解和使用.理论分析以及在人工合成和真实数据集的实验结果表明MMC算法能够有效地检测出低维和高维空间的聚类边界.