期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于MinHash的改进新闻文本聚类算法 被引量:4
1
作者 王安 《计算机技术与发展》 2019年第2期39-42,共4页
信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资... 信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资源消耗多的问题,该算法使用Min Hash对所有文本的文本特征词集合进行降维,从而有效减少了资源的浪费。对新得到的特征矩阵中的数据任意两两计算Jaccard系数,将每一个结果与DBSCAN聚类中给定的邻域半径Eps进行比较并计算所有距离大于邻域半径Eps的点的周围节点数目是否大于等于形成一个簇所需要的最小点数MinPts,由此可以判断该文本是否为核心点,是否可以形成簇。实验结果表明,该方法对于新闻文本聚类有着很好的效果,可以对网络上错综复杂的新闻文本进行有效的聚类。 展开更多
关键词 MinHash Jaccard系数 DBSCAN 文本聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部