期刊文献+

基于HBase的数据完全本地化分析平台设计与实现 被引量:1

Design and Implementation of HBase-based Data Fully Localization Analysis Platform
下载PDF
导出
摘要 为充分利用I/O资源并提高数据分析效率,针对高能物理数据分析过程及数据存储特点,利用Java本地接口技术,提出基于HBase C++访问接口的数据完全本地化分析平台,并设计MapReduce模型的相关算法及组件,根据Mapper任务的优化分配及组合提高CPU资源的利用率。通过集成高能物理数据分析环境、作业管理系统、ROOT绘图模块等,实现全新的Web用户接口,简化用户操作。测试结果表明,与传统基于文件存储的数据分析系统相比,该平台的数据分析速度更快,可扩展性更好。 To make full use of I/O resources and improve data analysis efficiency,according to the features of data analysis procedure and data storage,this paper develops new C++ interfaces to access HBase by using Java Native Interface(JNI) and provides a data fully localization analysis platform for data accessing.Meanwhile,it re-designs and implements the related algorithms and software components of MapReduce,and enables optimal allocation and combination of Mapper tasks to improve the utilization of CPU resources.In addition,it provides new user friendly interfaces by integrating the data analysis environment,job management system and ROOT graphics module.Test results show that the new platform is faster and more scalable compared with traditional data analysis system based on file storage.
出处 《计算机工程》 CAS CSCD 北大核心 2016年第6期68-74,80,共8页 Computer Engineering
基金 国家自然科学基金资助项目(11375223 11375221) 国家自然科学基金委员会-中国科学院大科学装置科学研究联合基金资助项目(11179020)
关键词 数据本地化 MAPREDUCE模型 HBase数据库 JAVA本地接口 Cairgorm框架 Django框架 data localization MapReduce model HBase database Java Native Interface(JNI) Cairgorm framework Django framework
  • 相关文献

参考文献15

  • 1Shvachko K,Kuang H,Radia S,et al.The Hadoop Distributed File System[C]//Proceedings of the 26th IEEE Symposium on Mass Storage Systems and Technologies.Washington D.C.,USA:IEEE Press,2010:1-10. 被引量:1
  • 2Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[J].Communications of the ACM,2008,51(1):107-113. 被引量:1
  • 3Wang Chunguang,Wu Qingbo,Tan Yusong,et al.Locality Based Data Partitioning in MapReduce[C]//Proceedings of the 16th International Conference on Com-putational Science and Engineering.Washington D.C.,USA:IEEE Computer Society,2013:1310-1317. 被引量:1
  • 4Lars G.HBase权威指南(影印版)(英文版)[M].南京:东南大学出版社,2012. 被引量:1
  • 5Bockelman B.Using Hadoop as a Grid Storage Element[J].Journal of Physics:Conference Series,2009,180(1). 被引量:1
  • 6Lassnig M,Garonne V,Dimitrov G,et al.ATLAS Data Management Accounting with Hadoop Pig and HBase[J].Journal of Physics:Conference Series,2012,396(5). 被引量:1
  • 7Glaser F,Neukirchen H,Rings T,et al.Using MapReduce for High Energy Physics Data Analysis[C]//Proceedings of the 16th International Conference on Computational Science and Engineering.Washington D.C.,USA:IEEE Press,2013:1271-1278. 被引量:1
  • 8霍菁,雷晓凤,李强,孙功星.支持异构集群并行的高能物理数据处理系统[J].计算机工程,2015,41(1):1-5. 被引量:2
  • 9臧冬松,霍菁,梁栋,孙功星.基于MapReduce的高能物理数据分析系统[J].计算机工程,2014,40(2):1-5. 被引量:9
  • 10雷晓凤,李强,孙功星.基于HBase的高能物理数据存储及分析平台[J].计算机工程,2015,41(6):49-55. 被引量:7

二级参考文献52

  • 1罗夏朴.Java虚拟机动态类加载的原理及应用[J].计算机应用研究,2000,(7). 被引量:1
  • 2(美)诺布尔,(美)安德森.Flex3Cookbook中文版[M].北京:电子工业出版社,2009. 被引量:1
  • 3Magnus Lie Hetland. Beginning Python: From Novice to Professional [M]. USA : apress Publishing, Inc. 2005. 被引量:1
  • 4Dana Moore, Raymond Budd and Williarm Web 2. 0 Programming with Django and TurboGears Wright 200T[M]. USA: Wiley Publishing, Inc. 2007. 被引量:1
  • 5Django documentation[DB/OL], http://docs, django- project, com/en/dev/, September 2009. 被引量:1
  • 6Adrian Holovaty and Jacob Kaplan-Moss. The Defini- tive Guide to Django[M]. USA : apress Publishing, Inc. 2008. 被引量:1
  • 7基于Flex的Rich Internet Applications技术的研究和应用[D].上海交通大学,2007. 被引量:2
  • 8Collab. PyAMF Documentation[DB/OL]. http://pyamf. org/wiki/Documentation, 2007,10. 被引量:1
  • 9罗夏朴,计算机应用研究,2000年,7页 被引量:1
  • 10Ghemawat S, GobioffH. The Google File System[C]//Proc. of the 19th ACM Symposium on Operating Systems Principles. New York, USA: ACM Press, 2003: 29-43. 被引量:1

共引文献22

同被引文献7

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部