-
题名一种基于MinHash的改进新闻文本聚类算法
被引量:4
- 1
-
-
作者
王安瑾
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2019年第2期39-42,共4页
-
基金
国家自然科学基金(61472075)
-
文摘
信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资源消耗多的问题,该算法使用Min Hash对所有文本的文本特征词集合进行降维,从而有效减少了资源的浪费。对新得到的特征矩阵中的数据任意两两计算Jaccard系数,将每一个结果与DBSCAN聚类中给定的邻域半径Eps进行比较并计算所有距离大于邻域半径Eps的点的周围节点数目是否大于等于形成一个簇所需要的最小点数MinPts,由此可以判断该文本是否为核心点,是否可以形成簇。实验结果表明,该方法对于新闻文本聚类有着很好的效果,可以对网络上错综复杂的新闻文本进行有效的聚类。
-
关键词
MinHash
Jaccard系数
DBSCAN
文本聚类
-
Keywords
MinHash
Jaccard coefficient
DBSCAN
text-clustering
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-