期刊文献+

一种基于MapReduce的分布式文本数据过滤模型研究

Research on Destributed Text Data Filtering Model Based on Mapredu Ce
下载PDF
导出
摘要 该文首先介绍了文本过滤模型的特点以及发展状况。针对传统信息过滤处理方式无法满足现阶段海量数据环境下业务需求这一现状,该文提出了一种基于MapReduce框架的文本数据过滤模型,实现了传统的向量空间模型的分布式扩展。在实际环境中的测试表明,该模型的过滤精度和速度都较为理想,较好的满足了用户的需求。 This paper first describes the characteristics and development of text filtering model. For the traditional information filtering approach cannot meet the present needs of the business environment of massive data, the paper presents a text data filtering framework model based on MapReduce to expand the traditional vector space model to the distributed environment. Tests in the real world showed that the model's accuracy and speed of filtration is ideal, can meet the needs of users.
出处 《信息网络安全》 2011年第9期91-93,119,共4页 Netinfo Security
基金 国家高技术研究发展计划(863计划)资助项目(2010AA012505 2011AA010702) 国家自然科学基金重点课题资助项目(60933005 60873204)
关键词 信息过滤 MAPREDUCE 向量空间模型 TFIDF information filtering MapReduce vector space model tfidf
  • 相关文献

参考文献9

  • 1Luhn H P. A business intelligence system [J]. IBM Journal of Research and Development, 1958, 2(04):314 - 319. 被引量:1
  • 2Edward M Housman. Survey of current systems for selective dissemination of information. Technical Report SIG P SDI [R]. American Society for Information Science Special Interest Group on SDI, 1969. 被引量:1
  • 3Peter J. Denning. Electronic junk [J]. Communications of the ACM, 1982, 25 (03) :163-165. 被引量:1
  • 4Thomas W Malone, Kenneth R Grant, Franklyn A Turbak, et al. Intelligent information sharing systems [J]. Communications Of the ACM, 1987, 28 (06):390-402. 被引量:1
  • 5Text REtrieval Conference(TREC)[EB/OL]. http://trec.nist.gov/, 2011-01-01. 被引量:1
  • 6王斌,许洪波.大规模内容计算[J].信息网络安全,2005(3):45-46. 被引量:4
  • 7Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters[R]. OSDI, 2004. 被引量:1
  • 8洪毅虹.基于MapReduce架构的文档相似度计算方法[J].网络与信息,2010,24(9):36-37. 被引量:4
  • 9hadoop-clusternet[EB/OL], http://code.google.com/p/hadoopclusternet/, 2011. 被引量:1

二级参考文献3

  • 1Salton,G.& Buckley,C. Term-weighting approach es in automatic text retrieval.Information Processing & Management, 1988,24(5):513-523. 被引量:1
  • 2Jeffrey Dean,Sanjay Ghemawat. MapReduce:Sim plified Data Processing on Large Clusters.OSDI, 2004. 被引量:1
  • 3Jimmy Lin,Chris Dyer.Data-Intensive Text Proces sing with MapReduce.2009. 被引量:1

共引文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部