一种面向HDFS的数据随机访问方法被引量：5

Data random access method oriented to HDFS

下载PDF

导出

摘要为了简化文件系统的实现,支持超大规模数据集的流式访问,HDFS牺牲了文件的随机访问功能,而在实际场景中很多应用都需要对文件进行随机访问。在深入分析HDFS数据读写原理的基础上,提出了一种面向HDFS的数据随机访问方法。其设计思想是为Datanode添加本地数据访问接口,用户程序可以读取Datanode上存放的数据块文件以及把数据写入到Datanode上的数据块存放目录。文件的首副本由用户程序直接产生,其余副本在首副本写入完成之后采用数据复制的方式生成。此外,为数据块添加了权限管理功能,Datanode上的文件副本属于用户所有。若名字空间中文件权限发生变化,文件对应的数据块权限也会改变。测试表明,数据读取性能提升了约10%,数据写入性能提升了20%以上,在高并发下写入性能最大可提升2.5倍。 In order to simplify the realization of the file system,HDFS sacrifices the file’s random access feature to support streaming access for large data set.But in the actual scene,many applications require random access to the file.After indepth analysis of HDFS data reading and writing principle,a data random access method oriented to HDFS is proposed.The idea is to add data access interface for Blocks on Datanode,the user program can read the Block file stored on the Datanode and write the data to the Block storage directory.The first file replica is written to the local Datanode by user program,the rest replicas produced by copy of the first replica stored on other Datanodes.In addition,add the permissions management for Block,the file replicas stored on Datanodes belongs to the user.If the file permissions changed in the namespace,the Block permissions also changed.Test results show that data read and write performance is improved about10%and20%separately,the write performance can be increased by2.5times under the high concurrency.

作者李强孙震宇孙功星 LI Qiang;SUN Zhenyu;SUN Gongxing(Institute of High Energy Physics, Chinese Academy of Sciences, Beijing 100049, China;University of Chinese Academy of Sciences, Beijing 100049, China)

机构地区中国科学院高能物理研究所中国科学院大学

出处《计算机工程与应用》 CSCD 北大核心 2017年第10期1-7,共7页 Computer Engineering and Applications

基金国家自然科学基金(No.11375223 No.11375221)

关键词 HADOOP分布式文件系统随机访问权限管理 Hadoop Distributed File System random access permission management

分类号 TP30 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1席屏,薛峰.多层一致性哈希的HDFS副本放置策略[J].计算机系统应用,2015,24(2):127-133. 被引量：5
2卢美莲,朱亮亮.基于CMM模型的HDFS负载均衡策略[J].北京邮电大学学报,2014,37(5):20-25. 被引量：4
3王博,陈莉君.Hadoop远程过程调用机制的分析和应用[J].西安邮电学院学报,2012,17(6):74-77. 被引量：10

二级参考文献18

1崔小燕.Linux集群系统分析[J].西安邮电学院学报,2006,11(5):103-106. 被引量：13
2Apache. Welcome to Apache Hadoop[EB/OL]. (2012- 03-20) [2012-03-28]. http://hadoop, apache, org/. 被引量：1
3陈艳金.MapReduce模型在Hadoop平台下实现作业调度算法的研究和改进[D].广州:华南理工大学,2011:1-3. 被引量：5
4Herlihy M. , Shavit N. The Art of Multiprocessor Programming[M]. First Edition. BeiJing: China Ma- chine Press, 2008:10-45. 被引量：1
5De Candla G, Hastorun D. Dynamo: Amazon's highly available key-value store. Proe. of the 21st ACM SIGOPS Symposium on Operating Systems Principles. New York. ACM Press. 2007. 14-17. 被引量：1
6Karger D, Lehman E, Leighton T, et al. Consistent hashing and random trees: Distributed caching protocols for relieving hot spots on the World Wide Web. Proc. of the 29th Annual ACM Symposium on Theory of Computing(STOC'97). New York. ACM Press. 1997. 被引量：1
7Wang Jun, Xiao Qiangju, Yin Jiangling, et al. DRAW: a new data-grouping-aware data placement scheme for data intensive applications with interest locality [ J ]. IEEE Transactions on Magnetics, 2013: 1-8. 被引量：1
8Rodrigo N, Calheiros, Rajiv Ranjan, et al. CloudSim: a toolkit for modeling and simulation of cloud computing en- vironments and evaluation of resource provisioning algo- rithms [ J ]. Software : Practice and Experience, 2011, 41 (1): 23-50. 被引量：1
9Whait. Hadoop, the definitive guide [ M ]. [ s. 1. ] : O'Reilly Media, Inc, 2010: 573-575. 被引量：1
10谢桂兰,罗省贤.基于Hadoop MapReduce模型的应用研究[J].微型机与应用,2010,29(8):4-7. 被引量：69

共引文献15

1孙韩林.一种基于云计算的网络流量分析系统结构[J].西安邮电大学学报,2013,18(4):75-79. 被引量：7
2王丽娟,蔡晓东,王迪,赵勤鲁.基于集中式管理的缓存优化方案[J].电视技术,2016,40(5):101-104. 被引量：1
3张艳军,王剑,叶晓平,李培远.基于Netty框架的高性能RPC通信系统的设计与实现[J].工业控制计算机,2016,29(5):11-12. 被引量：11
4乔林,胡楠,同东辉,王浩.基于GIS技术的电网综合信息系统设计[J].电子设计工程,2016,24(15):88-92. 被引量：5
5夏靖波,韦泽鲲,付凯,陈珍.云计算中Hadoop技术研究与应用综述[J].计算机科学,2016,43(11):6-11. 被引量：74
6于金良,朱志祥,梁小江.基于Flume的MySQL数据自动收集系统[J].计算机技术与发展,2016,26(12):137-141. 被引量：5
7李聪颖,王瑞刚,于金良.大数据分布式全文检索系统的设计与实现[J].计算机与数字工程,2016,44(12):2426-2430. 被引量：10
8于金良,朱志祥,李聪颖.Hadoop平台的自动化部署与监控研究[J].计算机与数字工程,2016,44(12):2457-2461. 被引量：7
9于金良,朱志祥,李聪颖.Hadoop MapReduce新旧架构的对比研究综述[J].计算机与数字工程,2017,45(1):83-87. 被引量：8
10邱宁佳,胡小娟,王鹏,杨华民.一致性哈希的数据集群存储优化策略研究[J].信息与控制,2016,45(6):747-752. 被引量：11

同被引文献45

1宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935. 被引量：538
2胡江溢,祝恩国,杜新纲,杜蜀薇.用电信息采集系统应用现状及发展趋势[J].电力系统自动化,2014,38(2):131-135. 被引量：298
3蔡静.Hadoop平台的研究及其改进[J].计算机光盘软件与应用,2014,17(5):146-147. 被引量：2
4王信堂,梁志锋.网络恶意入侵下破损数据及时存储方法仿真[J].计算机仿真,2019,36(1):316-319. 被引量：3
5黎勇,崔喆,余少剑.内存数据库在超宽带实时定位系统中应用[J].计算机应用,2014,34(A02):48-51. 被引量：4
6宋宝燕,王俊陆,王妍.基于范德蒙码的HDFS优化存储策略研究[J].计算机学报,2015,38(9):1825-1837. 被引量：17
7吴鑫,张建奇,杨琛.Jetson TK1平台实现快速红外图像背景预测算法[J].红外与激光工程,2015,44(9):2615-2621. 被引量：7
8肖玉泽,张利军,潘巍,张小芳,李战怀.HDFS下海量小文件高效存储与索引方法[J].小型微型计算机系统,2015,36(10):2218-2223. 被引量：5
9孟永伟,黄建强,曹腾飞,王晓英.Hadoop集群部署实验的设计与实现[J].实验技术与管理,2015,32(1):145-149. 被引量：20
10邹振宇,郑烇,王嵩,杨坚.基于HDFS的云存储系统小文件优化方案[J].计算机工程,2016,42(3):34-40. 被引量：9

引证文献5

1许珑璋,向敏.面向用电数据的HDFS数据读取策略[J].无线互联科技,2018,15(5):19-20.
2黄裕.基于分布式Redis集群的WEB共享管理研究[J].计算机与数字工程,2018,46(10):2078-2082. 被引量：8
3戴威.一种跨HDFS集群的文件资源分布式高效存储方法[J].电子设计工程,2019,27(21):14-17. 被引量：4
4袁智,李樾,刘奕,刘敬贤,张天凡.基于Jeston TK1的并行计算系统设计与实现[J].计算机应用,2019,39(S02):160-163. 被引量：2
5石方夏,高屹.Hadoop大数据技术应用分析[J].现代电子技术,2021,44(19):153-157. 被引量：20

二级引证文献34

1吴国栋,涂立静,许高建,李景霞,范国华.基于融合比较法与案例法的数据库课程教学模式研究[J].黑龙江工业学院学报（综合版）,2019,19(7):19-23. 被引量：2
2王佩剑.基于Docker容器的Redis高可用实现方案[J].信息通信,2019,0(8):67-70. 被引量：5
3张杰,刘凯,周立军.采用Redis高并发应用系统设计与实现方法[J].计算机与数字工程,2020,48(5):1222-1226. 被引量：14
4王峰.基于Apache Ftpserver的可自定义文件系统的文件服务器[J].软件,2020,41(7):192-196.
5张永跃.基于微服务+Redis的政务数据共享模式设计[J].电子技术与软件工程,2020(14):208-209. 被引量：2
6伍华锋,王小刚,候劲,唐小林.Redis集群系统的优化研究与实现[J].四川轻化工大学学报（自然科学版）,2020,33(6):39-45. 被引量：7
7高健,杨富学,汪保龙.基于层次化体系的武器系统大数据管理研究[J].现代防御技术,2021,49(1):8-17. 被引量：1
8杨光.Activiti工作流框架在OA系统中的应用[J].电子设计工程,2021,29(11):65-69. 被引量：2
9赵文瑄,Byung-Won Min.大数据中心处理系统性能优化问题研究[J].自动化与仪器仪表,2021(11):107-110.
10朱彦霞,范伊琳,吴玉彬,华南,罗刘敏.一种融合分布式存储的架构设计[J].河南科技,2021,40(36):22-24.

1魏为民.UNIX系统下增加用户程序[J].中国计算机用户,1992(7):13-13.
2王萱,赵星明.用高级语言调用鼠标[J].电脑,1994(6):68-70.
3王凯明.浅析ADO.NET数据库编程技术[J].中文信息,2002,0(11):96-98. 被引量：1
4Ethan Wilansky 肖欣(译).在PowerShell脚本中列出任何LDAP目录中的组层级[J].Windows IT Pro Magazine（国际中文版）,2009(10):13-16.
5王金红.用URLVoid分辨网址是否安全[J].网管员世界,2011(12):96-96.
6韩丽霞,王宇平.解旅行商问题的一个新的遗传算法[J].系统工程理论与实践,2007,27(12):145-150. 被引量：12
7杜军威,隋树林.面向Web的异构数据库数据交换的实现方案[J].计算机与现代化,2005(6):73-75. 被引量：2
8周丽娟,李爽,耿海军.关联规则Apriori改进算法[J].首都师范大学学报（自然科学版）,2009,30(S1):1-6. 被引量：2
9张珲.分布式数据库数据复制的实现——SYBASE的复制服务器概念[J].软件世界,1995(3):24-25.
10朱雨晴,张磊,沈奇威.基于Web的HDFS内容管理模块的设计[J].电信网技术,2017(5):77-81.

计算机工程与应用

2017年第10期

浏览历史

内容加载中请稍等...

一种面向HDFS的数据随机访问方法被引量：5

参考文献3

二级参考文献18

共引文献15

同被引文献45

引证文献5

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

一种面向HDFS的数据随机访问方法 被引量：5

参考文献3

二级参考文献18

共引文献15

同被引文献45

引证文献5

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

一种面向HDFS的数据随机访问方法被引量：5