期刊文献+

基于SolrCloud的分布式相似性检测系统

下载PDF
导出
摘要 文档相似性检测中,很多文本的资源是碎片化存储,实现全局的文本查重,在没有统一管理的情况下,不可能短时间将数据集中,数据仍旧是分散存储,为实现全局的检查,采用基于Solr Cloud的分布式查重。论文在b位Minwise Hash的基础上,提出了弹性细粒度相似性检测方法;通过分析多粒度特征提取的特点,设置项目模板进行正则表达式匹配,提升了相似性检索的效率,最后通过系统实现验证该系统的有效性。
作者 蒋佳洲
出处 《海峡科技与产业》 2016年第10期79-83,共5页 Technology and Industry Across the Straits
关键词 SOLR CLOUD 相似性检测 哈希 分布式 TV series the crawler semantic role filter invalid comments video site
  • 相关文献

参考文献1

二级参考文献16

  • 1BRODER A Z, CHARIKAR M, FRIEZE A M, MITZENMACHER M. Min-wise independent permutations [J]. Journal of Computer Systems and Sciences, 2000, 60(3): 630-659. 被引量:1
  • 2BRODER A Z. Identifying and filtering near-duplicate documents [C]// Proceeding COM '00 Proceedings of the llth Annual Symposium on Combinatorial Pattern Matching. London: Springer-Verlag, 2000: 1-10. 被引量:1
  • 3BRODER A Z. On the resemblance and containment of documents [C]// Proceedings of Compression and Complexity of Sequences. Washington, DC, USA: IEEE Computer Society, 1997: 21-29. 被引量:1
  • 4KALPAKIS K, TANG S. Collaborative data gathering in wireless sensor networks using measurement co-occurrence [J]. Computer Communications, 2008, 31(10): 1979-1992. 被引量:1
  • 5DOURISBOURE Y, GERACI F, PELLEGRINI M. Extraction and classification of dense implicit communities in the web graph [J]. ACM Transactions on the Web (TWEB), 2009, 3(2): 1-36. 被引量:1
  • 6BENDERSKY M, CROFT W B. Finding text reuse on the web [C]// WSDM '09 Proceedings of the Second ACM International Conference on Web Search and Data Mining. New York, USA: ACM, 2009: 262-271. 被引量:1
  • 7BUEHRER G., CHELLAPILLA K. A scalable pattern mining approach to web graph compression with communities [C]// WSDM '08 Proceedings of the International Conference on Web Search and Web Data Mining. New York, USA: ACM, 2008: 95- 106. 被引量:1
  • 8INDYK P. A small approximately min-wise independent family of hash functions [J]. Journal of Algorithm, 2001, 38(1): 84-90. 被引量:1
  • 9CHARIKAR M S. Similarity estimation techniques from rounding algorithms [C]//STOC '02 Proceedings of the Thiry-fourth Annual ACM Symposium on Theory of Computing. New York, USA: ACM, 2002: 380-388. 被引量:1
  • 10LI P, KONIG A C. b-Bit minwise hashing [C]// WWW '10 Proceedings of the 19th International Conference on World Wide Web. New York, USA: ACM, 2010: 671-680. 被引量:1

共引文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部