基于Hadoop的微博信息挖掘被引量：9

Micro-blogs Information Mining Based on Hadoop

下载PDF

导出

摘要论文设计了基于Hadoop的微博信息挖掘系统。该系统针对单一节点在分析微博海量数据的性能瓶颈问题,利用分布式和虚拟化技术的优势,将微博信息获取和相关数据分析进行有机整合,实现了一个基于Hadoop的微博信息挖掘平台。为验证该平台运行的有效性,论文采用获取热点话题做实验,展示了系统对微博信息的挖掘结果。实验结果表明,该系统能有效获取微博相关信息,高效的处理海量微博数据,得到有价值的数据信息。 This paper designed micro-blogs information mining system based on hadoop.Considering the single node problem,the system uses the advantage of cloud computing—distributed processing and virtualization,organics integration of micro-blogs information and data analysis,implements the micro-blogs information mining platform.To verify the effectiveness and efficiency of the platform,this paper makes an experiment on hot topic and shows the mining results.The experiment results show that the system can get micro-blogs information efficiency,efficient process mass data,and get valuable data information.

作者林大云

机构地区四川大学计算机学院

出处《计算机光盘软件与应用》 2012年第1期7-8,共2页 Computer CD Software and Application

关键词微博 HADOOP 海量数据数据挖掘 Micro-blogs Hadoop Mass Data Data Mining

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1张圣.一种基于云计算的关联规则Apriori算法[J].通信技术,2011,44(6):141-143. 被引量：25
2程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39. 被引量：64
3郑娟,祝宁.基于信息传播模式的微博信息挖掘与应用[J].新闻世界,2011(5):91-92. 被引量：10
4曹风兵.基于Hadoop的云计算模型研究与应用[D]重庆大学,2011. 被引量：1

二级参考文献17

1王文平,刘希玉,韩杰.基于并行遗传算法的关联规则挖掘[J].山东师范大学学报（自然科学版）,2006,21(4):29-31. 被引量：7
2范明,孟小峰.数据挖掘概念与技术[M].北京:北京机械工业出版社,2001. 被引量：2
3李岚.数据挖掘技术在电子商务中的应用[J].通信技术,2007,40(8):74-76. 被引量：6
4http:/Iblog.sina.com.cn/s/blog_48aba5b90100kdu3.html. 被引量：1
5《微博客为什么会成功》,http://hi.baidu.com/soune/blog/item/57bf972b8546abf0e6cd4097.html. 被引量：1
6Sitaram Asur, Bernardo A. Hu- berman, 《Predicting the Future With Social Media》,March, 2009,http://p- apers. ssrn. com/so13/papers. cfm?ab- stract_id=1579522. 被引量：1
7Paul Barle,Michelle Guy,Rich-ard Buckmaster, Chris Ostrum, Scott Horvath,Amy Vaughan: [SRL]OMG Eart- hquake!Can Twitter Improve Earthqu- ake Response?,http://www. seismosoc. org/publications/SRL/SRL_81/sr1_81- 2_es/. 被引量：1
8LAMMEL R.Google's MapReduce Programming Model-Revisited[J].Science of Computer Programming,2008,70(01):1-30. 被引量：1
9GILLICK D,FARIA A,DENERO J.MapReduce:Distributed Computing for Machine Learning[J].UC Berkeley's Computer Science Department,2006(09):51-63. 被引量：1
10Savasere A,Omiecinski E,Navathe S.An Efficient Algorithm for Mining Association Rules in Large Databases[C] //Proceedings of the 21st VLDB Conference.Zurich,Switzerland:[s.n.] ,1995:432-444. 被引量：1

共引文献95

1章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
2刘春勇,黄志球,王进,徐丙凤.基于SLA的动态云体系结构[J].计算机工程,2011,37(S1):7-9. 被引量：2
3宋莹,沈奇威,王晶.基于Hadoop的Web日志预处理的设计与实现[J].电信工程技术与标准化,2011,24(11):84-89. 被引量：5
4刘永增,张晓景,李先毅.基于Hadoop/Hive的web日志分析系统的设计[J].广西大学学报（自然科学版）,2011,36(A01):314-317. 被引量：24
5那丽春.集群资源模糊聚类划分模型[J].计算机工程,2012,38(6):34-36. 被引量：2
6李彬,刘莉莉.基于MapReduce的Web日志挖掘[J].计算机工程与应用,2012,48(22):95-98. 被引量：15
7丁振,项颖.基于Hadoop的关联规则算法在电子商务中的应用[J].计算机与现代化,2012(8):122-125. 被引量：4
8冀素琴,石洪波,卫洁.基于Map Reduce的Bagging贝叶斯文本分类[J].计算机工程,2012,38(16):203-206. 被引量：2
9陆秋,程小辉.基于MapReduce的决策树算法并行化[J].计算机应用,2012,32(9):2463-2465. 被引量：19
10朱蔷蔷,张桂芸,刘文龙.基于MapReduce框架一种文本挖掘算法的设计与实现[J].郑州大学学报（工学版）,2012,33(5):110-113. 被引量：4

同被引文献61

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2游文,叶水生.电子商务推荐系统中的协同过滤推荐[J].计算机技术与发展,2006,16(9):70-72. 被引量：54
3AFRATI F,ULLMAN J.Optimizing joins in a map-reduce environment[C]//Proceedings of 2010 EDBT.New York:ACM,2010:99-110. 被引量：1
4JIANG Da-wei,TUNG A,CHEN Gang.Map-join-reduce:towards scalable and efficient data analysis on large clusters[J].IEEE Transactions on Knowledge and Data Engineering,2010,23(9):1299-1311. 被引量：1
5LIN Yu-ting,AGRAWAL D,CHEN Chun,et a1.Llama:leveraging columnar storage for scalable join[C]//Proceedings of2011 ACM SIGMOD International Conference on Management of Data.New York:ACM,2011:861-972. 被引量：1
6赵保学,李战怀,陈群,等.可扩展Hadoop任务分配模块的研究与实现[C]//第29届中国数据库学术会议论文集(B辑)(NDBC2012).合肥:知识与数据工程实验室,2012:83-85. 被引量：1
7DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large cluster[J].Communications of the ACM,2008,51(1):107-113. 被引量：1
8PAPADIMITRIOU A,SYMEONIDIS P,MANOLOPOULOS Y. Fast and ac- create link prediction in social networking systems[J]. Journal of Systems and Software,2012,85(9) :2119 -2132. 被引量：1
9CHA M, HADDADI H, BENEVENUTO F, et al. Measuring user influence in twitter :The million follower fallacy [ C ]//AAAI. Washington, DC, USA: ICWSM .2010:11 - 13. 被引量：1
10BAKSHY E,HOFMAN J M,MASON W A,et al. Everyone' s an influen- cer:Quantifying influence on twitter [ C ]HWSDM. Hong Kong. China, 2011:67 -69. 被引量：1

引证文献9

1郑晓薇,马琳.基于Hadoop集群的多表并行关联算法及应用[J].微型机与应用,2013,32(4):91-93. 被引量：2
2李婧,刘志明,崔朝国.基于微博的舆情监测与分析的研究[J].智能计算机与应用,2013,3(2):50-53. 被引量：7
3徐剑,陈群,王卓,李战怀.一种基于Hadoop的多表链接策略[J].现代电子技术,2014,37(6):90-94. 被引量：2
4陆瑶,李振婷.基于Hadoop的微博热点话题挖掘系统研究与设计[J].电子商务,2014,15(9):60-61.
5贾冲冲,王名扬,郑丹,张晓霞.基于云计算的微博数据挖掘研究综述[J].安徽农业科学,2014,42(31):11193-11195. 被引量：6
6李凌云,敖吉,乔治,李剑.基于微博的安全事件实时监测框架研究[J].信息网络安全,2015(1):16-23. 被引量：7
7郭青,孙健.基于专家系统的个性化推荐系统的设计与实现[J].软件工程,2016,19(6):22-27. 被引量：4
8李爱军,常彤.微博热度研究现状及未来发展方向[J].山西科技,2018,33(2):8-11.
9李绛绛.基于Hadoop的分布式智能推荐系统[J].科技信息,2014(1):105-106. 被引量：2

二级引证文献29

1李凌云,敖吉,乔治,李剑.基于微博的安全事件实时监测框架研究[J].信息网络安全,2015(1):16-23. 被引量：7
2莫祖英.微博信息研究热点分析[J].图书馆学研究,2015(6):2-8. 被引量：5
3王乐,王勇,王东安,徐小琳.社交网络中信息传播预测的研究综述[J].信息网络安全,2015(5):47-55. 被引量：12
4郝文江,李翠翠,徐丽萍,田芳.青少年网络保护的立体框架构建探析[J].信息网络安全,2015(9):109-112. 被引量：6
5石波,王红艳,郭旭东.基于业务白名单的异常违规行为监测研究[J].信息网络安全,2015(9):144-148. 被引量：6
6章志华,陆海良,郁钢.基于TFIDF算法的关键词提取方法[J].信息技术与信息化,2015(8):158-160. 被引量：5
7董晶,左焕琮,金东,张玉琪.数据挖掘在医学期刊战略选择中的见与谏[J].科技与出版,2016(1):21-23. 被引量：1
8赵菲,林穗,高西刚.面向大数据的Storm框架研究与应用[J].微型机与应用,2016,35(6):12-14. 被引量：9
9耿元骊.基于数据挖掘的历史学者社交网络行为分析与学思历程发现[J].科研信息化技术与应用,2015,6(6):33-39.
10丁晟春,龚思兰,周文杰,王曰芬.基于知识库和主题爬虫的南海舆情实时监测研究[J].情报杂志,2016,35(5):32-37. 被引量：10

1王红梅,朱洪秀,王凌.对中文搜索引擎未来发展的探讨[J].东北电力学院学报,2001,21(4):94-97. 被引量：3
2李燕风.Web访问信息挖掘系统[J].计算机工程,2003,29(15):45-47. 被引量：6
3冷静,崔玉清.微博信息挖掘系统的相关算法模型[J].警察技术,2013(6):46-50.
4姜秀华.基于粗糙集的制造业设备故障方法研究[J].煤炭技术,2011,30(12):14-15. 被引量：1
5聂璐.搜索引擎在网络信息挖掘中的应用[J].电脑知识与技术,2009,5(9X):7736-7737. 被引量：1
6殷燕,白庆华,秦耕,成晓,李伟,杜磊.基于Multi Agent技术的信息挖掘系统研究[J].计算机应用研究,1999,16(12):20-22. 被引量：14
7刘洪洁.透过职场看技术[J].程序员,2006(11):41-41.
8李杨.埃里克·施密特：从“败军”到“福将”[J].上海信息化,2006(6):12-15.
9刘东.内网安全行业发展现状及趋势[J].网络安全技术与应用,2008(5):9-9. 被引量：7
10费爱国,王新辉.一种基于Web日志文件的信息挖掘方法[J].计算机应用,2004,24(6):57-59. 被引量：24

计算机光盘软件与应用

2012年第1期

浏览历史

内容加载中请稍等...

基于Hadoop的微博信息挖掘被引量：9

参考文献4

二级参考文献17

共引文献95

同被引文献61

引证文献9

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的微博信息挖掘 被引量：9

参考文献4

二级参考文献17

共引文献95

同被引文献61

引证文献9

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的微博信息挖掘被引量：9