摘要
文档相似性检测中,很多文本的资源是碎片化存储,实现全局的文本查重,在没有统一管理的情况下,不可能短时间将数据集中,数据仍旧是分散存储,为实现全局的检查,采用基于Solr Cloud的分布式查重。论文在b位Minwise Hash的基础上,提出了弹性细粒度相似性检测方法;通过分析多粒度特征提取的特点,设置项目模板进行正则表达式匹配,提升了相似性检索的效率,最后通过系统实现验证该系统的有效性。
出处
《海峡科技与产业》
2016年第10期79-83,共5页
Technology and Industry Across the Straits
关键词
SOLR
CLOUD
相似性检测
哈希
分布式
TV series
the crawler
semantic role
filter invalid comments
video site