Michael K.Ng等人提出了新K-Modes聚类算法,它采用基于相对频率的启发式相异度度量方法,有效地提高了聚类精度,但不足的是在计算各类的属性分类值频率时假定类中样本对聚类的贡献相同。为了考虑类中样本对类中心的不同影响,提出一种粗糙...Michael K.Ng等人提出了新K-Modes聚类算法,它采用基于相对频率的启发式相异度度量方法,有效地提高了聚类精度,但不足的是在计算各类的属性分类值频率时假定类中样本对聚类的贡献相同。为了考虑类中样本对类中心的不同影响,提出一种粗糙K-Modes算法,通过粗糙集的上、下近似度量数据样本在类内的重要性程度,不仅可以获得比新K-Modes算法更好的聚类效果,而且可以在保证聚类效果的基础上降低白亮等人提出的基于粗糙集改进的K-Modes算法的计算复杂度。对几个UCI的数据集的测试实验结果显示出新算法的优良性能。展开更多
为了提高文本聚类的性能,采用k-modes算法进行文本聚类,并采用知识图谱进行样本预分析,以提高k-modes的文本聚类适用度。采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;接着建...为了提高文本聚类的性能,采用k-modes算法进行文本聚类,并采用知识图谱进行样本预分析,以提高k-modes的文本聚类适用度。采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;接着建立k-modes文本聚类模型,设定簇内节点至簇中心的距离值之和为目标函数,通过轮流固定隶属矩阵和聚类簇矩阵,不断求解目标函数的最小值直至目标函数值稳定,获得簇中心,最后根据簇中心及各节点到簇中心距离来确定聚类结果。实验表明,经过知识图谱分析之后,k-modes算法能够获得更优的纯度、标准互信息和F值性能,且聚类纯度的均方根误差(Root mean squared error,RMSE)值更低;和常用文本聚类算法相比,对于UCI集和新闻集,该文算法均表现出了更高的聚类准确率。展开更多
文摘为了提高文本聚类的性能,采用k-modes算法进行文本聚类,并采用知识图谱进行样本预分析,以提高k-modes的文本聚类适用度。采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;接着建立k-modes文本聚类模型,设定簇内节点至簇中心的距离值之和为目标函数,通过轮流固定隶属矩阵和聚类簇矩阵,不断求解目标函数的最小值直至目标函数值稳定,获得簇中心,最后根据簇中心及各节点到簇中心距离来确定聚类结果。实验表明,经过知识图谱分析之后,k-modes算法能够获得更优的纯度、标准互信息和F值性能,且聚类纯度的均方根误差(Root mean squared error,RMSE)值更低;和常用文本聚类算法相比,对于UCI集和新闻集,该文算法均表现出了更高的聚类准确率。