期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于语义指纹的中文文本快速去重 被引量:5
1
作者 李纲 毛进 陈璟浩 《现代图书情报技术》 CSSCI 北大核心 2013年第9期41-47,共7页
针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single-Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文... 针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single-Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文文本的快速去重流程。实验过程中,通过与Shingle算法对比,可以体现该方法在算法精确度、鲁棒性等方面的优势,同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作。 展开更多
关键词 语义指纹 simhash singlepass 文本去重
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部