一种基于MapReduce的分布式文本数据过滤模型研究

Research on Destributed Text Data Filtering Model Based on Mapredu Ce

下载PDF

导出

摘要该文首先介绍了文本过滤模型的特点以及发展状况。针对传统信息过滤处理方式无法满足现阶段海量数据环境下业务需求这一现状,该文提出了一种基于MapReduce框架的文本数据过滤模型,实现了传统的向量空间模型的分布式扩展。在实际环境中的测试表明,该模型的过滤精度和速度都较为理想,较好的满足了用户的需求。 This paper first describes the characteristics and development of text filtering model. For the traditional information filtering approach cannot meet the present needs of the business environment of massive data, the paper presents a text data filtering framework model based on MapReduce to expand the traditional vector space model to the distributed environment. Tests in the real world showed that the model＇s accuracy and speed of filtration is ideal, can meet the needs of users.

作者李虎邹鹏贾焰周斌

机构地区国防科技大学计算机学院

出处《信息网络安全》 2011年第9期91-93,119,共4页 Netinfo Security

基金国家高技术研究发展计划(863计划)资助项目(2010AA012505 2011AA010702) 国家自然科学基金重点课题资助项目(60933005 60873204)

关键词信息过滤 MAPREDUCE 向量空间模型 TFIDF information filtering MapReduce vector space model tfidf

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Luhn H P. A business intelligence system [J]. IBM Journal of Research and Development, 1958, 2(04):314 - 319. 被引量：1
2Edward M Housman. Survey of current systems for selective dissemination of information. Technical Report SIG P SDI [R]. American Society for Information Science Special Interest Group on SDI, 1969. 被引量：1
3Peter J. Denning. Electronic junk [J]. Communications of the ACM, 1982, 25 (03) :163-165. 被引量：1
4Thomas W Malone, Kenneth R Grant, Franklyn A Turbak, et al. Intelligent information sharing systems [J]. Communications Of the ACM, 1987, 28 (06):390-402. 被引量：1
5Text REtrieval Conference(TREC)[EB/OL]. http://trec.nist.gov/, 2011-01-01. 被引量：1
6王斌,许洪波.大规模内容计算[J].信息网络安全,2005(3):45-46. 被引量：4
7Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters[R]. OSDI, 2004. 被引量：1
8洪毅虹.基于MapReduce架构的文档相似度计算方法[J].网络与信息,2010,24(9):36-37. 被引量：4
9hadoop-clusternet[EB/OL], http://code.google.com/p/hadoopclusternet/, 2011. 被引量：1

二级参考文献3

1Salton,G.& Buckley,C. Term-weighting approach es in automatic text retrieval.Information Processing & Management, 1988,24(5):513-523. 被引量：1
2Jeffrey Dean,Sanjay Ghemawat. MapReduce:Sim plified Data Processing on Large Clusters.OSDI, 2004. 被引量：1
3Jimmy Lin,Chris Dyer.Data-Intensive Text Proces sing with MapReduce.2009. 被引量：1

共引文献6

1张允若.《汉武大帝》的成功究竟在哪里?[J].新闻记者,2005(5):59-59.
2石军,王儒敬,王志红.基于群聚个性化搜索引擎[J].农业网络信息,2006(1):45-47.
3胡晓军.数据库自然语言查询接口探讨[J].福建电脑,2006,22(5):78-79. 被引量：2
4赵华茗.分布式环境下的文档相似度研究与实现[J].现代图书情报技术,2011(7):14-20. 被引量：6
5胡琪,邹细勇.基于MapReduce的多文档自动文摘的设计与实现[J].计算机工程与应用,2011,47(35):67-70.
6亢丽芸,王效岳,白如江.MapReduce原理及其在自然语言处理中的应用研究[J].情报科学,2014,32(5):120-126. 被引量：2

1尤文建,李绍滋,李堂秋.基于词汇链的文本过滤模型[J].计算机应用研究,2003,20(9):32-35. 被引量：9
2吴元立,张瞩熹,杨宏桥,史殿习,王怀民.分布式OSGi研究与发展[J].计算机应用研究,2010,27(11):4010-4014. 被引量：7
3吴雪平,贾瑞清.过滤器过滤精度的选择[J].液压与气动,1995,19(4):9-11.
4黄杰,史啸.一种基于人体裸露皮肤形状的不良图像过滤系统[J].东南大学学报（自然科学版）,2014,44(6):1111-1115. 被引量：2
5陈江兵,张巍.基于状态转换方法的不良信息文本过滤模型[J].江西教育学院学报,2005,26(6):22-24.
6李莲治,黄仲伟,郭福顺.UNIX的实时化与分布式扩展[J].哈尔滨工业大学学报,1996,28(1):37-41.
7赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11
8李嘉俊,郑宇,吴耿锋.基于领域本体的文本过滤模型[J].计算机工程与设计,2008,29(21):5555-5558. 被引量：4
9刘启文,傅韶勇,杨利.JavaBeans组件模型的分布式扩展机制[J].微型机与应用,2000,19(3):38-40.
10迟学芝,朱晓丽,赵志刚.基于BP人工神经网络的信息过滤技术研究[J].电脑开发与应用,2007,20(6):58-60. 被引量：1

信息网络安全

2011年第9期

浏览历史

内容加载中请稍等...

一种基于MapReduce的分布式文本数据过滤模型研究

参考文献9

二级参考文献3

共引文献6

相关作者

相关机构

相关主题

浏览历史