一种大规模数据快速并行导入工具的研究与实现被引量：1

STUDY AND REALISATION OF A FAST PARALLEL IMPORT TOOL FOR VERY-LARGE DATA

下载PDF

导出

摘要随着大规模数据的快速增长及高可靠性需求,将本地数据迁移到分布式数据库势在必行。针对这种情况,提出一种基于MapReduce的"快速并行导入"技术,充分利用集群的并行计算能力,直接向HBase底层存储文件HFile写入数据,既可避免上层数据导入时间的浪费,又节省资源开销。有效解决了从单机数据库向HBase分布式数据库导入数据功能低下、效率不高等问题。实验结果表明,在"快速并行导入"技术的基础上设计并实现的快速并行导入工具,支持多列族文本数据的快速导入。与传统使用API导入数据相比,速度提升一倍以上。 With the rapid growth of very-large data and its high reliability requirement, it is inevitable to transplant local data to distributed database. In light of this case, the paper presents a MapReduce-based ＂fast parallel importing＂ technology. It makes full use of parallel computational capability of the cluster to write data directly to underlying storage file HFile of HBase, which can either avoid time-wasters in upper data import and save resources overhead as well, thus effectively solves the problems of low performance and inefficiency when importing data from a single database to HBase distributed database. Experimental result demonstrates that the fast parallel import tool designed and implemented based on the ＂fast parallel importing＂ technology supports the fast import of multi-column text data. Compared with traditional way using API to import data, its speed heightens more than double.

作者邵开丽姜伟吕举文

机构地区黄河科技学院

出处《计算机应用与软件》 CSCD 2015年第9期26-30,共5页 Computer Applications and Software

基金河南省教育厅科学技术研究重点项目(12B520025) 郑州市科技攻关项目(20120473) 校级科研项目(KYZR201006)

关键词 HADOOP HBASE MapReduce分布式数据库大规模数据导入 Hadoop HBase MapReduce Distributed database Very-large data import

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献8

1李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1601
2Fay Chang, Jeffrey Dean, Sanjay Ghemawat, et al. Bigtable : A Distribu- ted Storage System for Structured Data [ C ]//7th USENIX Symposium on Operating Systems Design and Implementation ( OSDI ), 2006 : 205 -218. 被引量：1
3Sanjay Ghemawat, Howard Gobioff, Shun-Tak Leung. The Google File System[J]. The 19th ACM Symposium on Operating Systems Princi- ples,2003,37 (5) :29 - 43. 被引量：1
4Jeffrey Dean, Sanjay Ghemawat. MapReduce:Simplified Data Process- ing on Large Clusters[ J]. Communications of the ACM ,2004,51 ( 1 ) : 107 - 113. 被引量：1
5Lombardi F, Pietro R D. Secure virtualization for cloud compuLing [ J ~. Journal of Network and Computer Applicat ions, 2011,34 (4) : 1113 -1122. 被引量：1
6Gilad Mishne, Jeff Dalton, Zhenghua Li, et al. Fast Data in the Era of Big Data: Twitter's Real-Time Related Query Suggestion Architecture [ J]. eprint arXiv,2012.10 : 1210. 7350. 被引量：1
7Adam E. Silberstein, Russell Sears, Wenchao Zhou, et al. A batch of PNUTS: experiences connecting cloud batch and serving systems [C]//The 2011 ACM SIGMOD International Conference on Manage- ment of data,2011 : 1101 - 1112. 被引量：1
8ShaoMin Zhang, JingYan Wang, BaoYi Wang. Research on Data Inte- gration of Smart Grid Based on IEC61970 and Cloud Computing[ J]. 2012(139) :577 -582. 被引量：1

二级参考文献18

1Chris Anderson. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired, 2008, 16 (7). 被引量：1
2Albert-L~iszl6 Barab~isi. The network takeover. Nature Physics, 2012,8(1): 14-16. 被引量：1
3Reuven Cohen, Shlomo Havlin. Scale-Free Networks Are U1- trasmall. Physical Review Letters, 2003, 90,(5 ). 被引量：1
4Tony Hey, Stewart Tansley, Kristin Tolle (Editors). The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft, 2009 October 16. 被引量：1
5Big Data. Nature, 2008, 455(7 209): 1-136. 被引量：1
6Dealing with data. Science, 2011,331 ( 6 018 ): 639-806. 被引量：1
7Complexity. Nature Physics, 2012, 8( 1 ). 被引量：1
8Big Data. ERCIM News, 2012, (89). 被引量：1
9David Lazer, Alex Pentland, Lada Adamic et al. Computational Social Science. Science, 2009, 323 ( 5 915 ): 721-723. 被引量：1
10The 2011 Digital Universe Study: Extracting Value from Chaos. International Data Corporation and EMC, June 2011. 被引量：1

共引文献1600

1万瑞霖,杨言鑫(指导).大数据环境下的市场营销方式改革发展新方向[J].中外企业家,2020,0(16):83-83. 被引量：8
2张人戈,于平.运用信息技术改造传统产业正当时——大数据与实体经济融合的必要性分析[J].时代金融,2019,0(32):13-14.
3卢艺.数据治理在热轧边缘中的应用研究[J].冶金自动化,2023,47(S01):383-386. 被引量：1
4邱晨.大数据时代大学生微信隐私防护策略研究[J].新闻研究导刊,2021(5):72-73.
5金鑫,刘振彬,赵永亮,杨博.关于构建铁路智能化调度所的探讨[J].铁道运输与经济,2019,0(S01):68-71. 被引量：3
6冯刚,伍琳.大数据时代数据驱动高职教学决策研究[J].山西青年,2020,0(3):203-203.
7薛冰,李京忠,肖骁,谢潇,庞敏,姜璐,逯承鹏,任婉侠.基于大数据的城市人地关系分析与应用计算平台——2018年中国地理学会地理大数据计算环境“优秀实用案例”[J].全球变化数据学报（中英文）,2018(3):290-294. 被引量：5
8罗莉.基于大数据技术的高校计算机安全问题与对策[J].计算机产品与流通,2020(9):17-17. 被引量：2
9陈熠,王仲,任瑞瑞.大数据时代下对个性化服务的伦理思考[J].计算机产品与流通,2019,0(12):261-262.
10胡筱彤.大数据在商业银行中的应用探究[J].科技经济导刊,2019,0(33):20-20.

同被引文献13

1胡晓鹏,李晓航,李岗.一种基于XML映射规则的数据迁移方法设计和实现[J].计算机应用,2005,25(8):1849-1852. 被引量：11
2李颖,李建民,林振荣.用JSP/Servlet和JavaBeans技术实现SQL Server表与DBF文件的相互转换[J].计算机与现代化,2007(1):95-97. 被引量：1
3孙兆玉,朱鸿宇,黄宇光.一种SQL语法分析的策略和实现[J].计算机应用,2007,27(B06):18-20. 被引量：10
4李雯,谢辅雯,邹道明.XML数据交换技术的应用与研究[J].计算机与现代化,2008(1):91-93. 被引量：24
5GEORGE L. HBase; The definitive guide[ J] . Andre, 2011,12( 1):1 - 4. 被引量：1
6TAYLOR R C. An overview of the Hadoop/MapReduce/HBaseframework and its current applications in bioinformatics [ J ]. BmcBioinformatics, 2010,11 (sl2) :3395-3407. 被引量：1
7(美)George.HBase权威指南[M].北京:人民邮电出版社,2013. 被引量：1
8尼马.贾拉利,埃里克.塞德拉,尼普恩.阿加瓦尔,等.用于访问关系型数据库系统中的分层数据的高效索引结构:美国,CN02819168.4[P].2005-01-05. 被引量：1
9KENT W. A simple guide to five noimal fontis in relational databasetheory[ J]. Communications of the ACM,1983,26(2) : 120-125. 被引量：1
10Cattell R. Scalable SQL and NoSQL data stores[J]. ACM SIGMODRecord, 2010, 39(4): 12-27. 被引量：1

引证文献1

1张华东,邵秀丽,吴军,王志刚.SQL Server数据库到HBase数据库的模式转换和数据迁移研究[J].智能计算机与应用,2016,6(5):24-30. 被引量：7

二级引证文献7

1王玉银.SQL Server 2012的列存储索引技术有效运用[J].电子技术与软件工程,2017(6):165-165. 被引量：2
2孙瑜,李昆菊,谢晓竹.研究Hbaes数据库迁移工具的设计与实现[J].数字技术与应用,2017,35(4):209-210.
3张闻骥.女子高校图书馆特色数据库建设技术分析[J].价值工程,2018,37(32):195-196.
4张闻骥.女子高校图书馆特色数据库的实现与测试[J].电脑知识与技术,2018,14(9Z):7-9.
5林徐.一种关系型数据非结构化的转换方法[J].榆林学院学报,2020,30(6):69-72.
6王智铎,江波,苗瑞,赵慧.基于有向图的外键冲突解决算法设计与实现[J].计算机工程,2021,47(2):254-260. 被引量：5
7李春炜.基于关系型数据库行转列方式的分析与设计[J].软件,2023,44(3):128-130.

1江能兴,周淦淼.基于3DS MAX的三维模型的优化研究[J].计算机与数字工程,2012,40(4):136-139. 被引量：17
2郭宇.Teamcenter(UA)中实现历史数据导入[J].信息与电脑（理论版）,2010(2):140-140.
3徐奎,张丹红.仪控系统设计验证报警卡导入工具性能研究[J].内蒙古工业大学学报（自然科学版）,2017,36(1):20-24. 被引量：1
4王森.基于C#的Excel文档导入技术的研究与实现[J].电脑知识与技术（过刊）,2011,17(7X):4881-4882. 被引量：1
5王森.基于C#的Excel文档导入技术的研究与实现[J].办公自动化（综合月刊）,2011(8):54-55. 被引量：1
6葛亚伟.简简单单将网上图表快速导入Excel[J].电脑爱好者,2008,0(23):55-55.
7王志军.将文本文件快速导入Excel[J].电脑知识与技术（经验技巧）,2013(9):44-44. 被引量：1
8马骉.倾听少年的声音[J].新读写,2007(12):4-5.
9董卓莉,刘於勋.一种通用数据导出导入工具的研究与实现[J].福建电脑,2008,24(2):12-13.
10李向伟.Authorware课件设计中XML文档导入技术的实现[J].西安邮电学院学报,2010,15(5):115-119. 被引量：2

计算机应用与软件

2015年第9期

浏览历史

内容加载中请稍等...

一种大规模数据快速并行导入工具的研究与实现被引量：1

参考文献8

二级参考文献18

共引文献1600

同被引文献13

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种大规模数据快速并行导入工具的研究与实现 被引量：1

参考文献8

二级参考文献18

共引文献1600

同被引文献13

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种大规模数据快速并行导入工具的研究与实现被引量：1