期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Simhash的大规模文档去重改进算法研究 被引量:8
1
作者 王诚 王宇成 《计算机技术与发展》 2019年第2期115-119,共5页
针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhas... 针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhash算法计算文档特征的方法,通过TF-IDF技术和单词的主题相关性综合计算单词的权重,TF-IDF技术用于计算一个关键词在一个文档集中的一篇文档的重要性,将专业术语词汇的长度统计函数作为判断单词主题相关性的依据。最后在检索步骤中采用哈希到桶的思想,此时出现分布不均匀的情况,为此设定一个阈值,当超过阈值时,对桶内的元素进行二次哈希,可以减少候选对的数量并且使分布更加均匀。实验结果表明,改进后的算法可以明显提高原Simhash算法的效率和准确率。 展开更多
关键词 Web大数据 Simhash 近似文本检测 多维度 二次哈希
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部