-
题名基于SolrCloud的分布式相似性检测系统
- 1
-
-
作者
蒋佳洲
-
机构
北京师范大学株洲附属学校
-
出处
《海峡科技与产业》
2016年第10期79-83,共5页
-
文摘
文档相似性检测中,很多文本的资源是碎片化存储,实现全局的文本查重,在没有统一管理的情况下,不可能短时间将数据集中,数据仍旧是分散存储,为实现全局的检查,采用基于Solr Cloud的分布式查重。论文在b位Minwise Hash的基础上,提出了弹性细粒度相似性检测方法;通过分析多粒度特征提取的特点,设置项目模板进行正则表达式匹配,提升了相似性检索的效率,最后通过系统实现验证该系统的有效性。
-
关键词
SOLR
CLOUD
相似性检测
哈希
分布式
-
Keywords
TV series
the crawler
semantic role
filter invalid comments
video site
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-