基于Hadoop处理小文件的优化策略被引量：6

Optimization Strategy for Handling Small Files on Hadoop

下载PDF

导出

摘要 HDFS(Hadoop Distributed File System)作为开源系统广泛地适用于各类存储服务中,具有高容错,易扩展,廉价存储等特点。然而,HDFS基于单一的服务器Name Node来处理元数据信息管理,当处理海量小文件时会造成Name Node内存过分消耗以及存储和读取性能并不理想,使Name Node成为系统瓶颈。本文提出一种基于HAR(Hadoop Archive)的优化机制来提高Name Node存储元数据信息的内存利用效率和提高读取小文件的访问效率。另外,该策略也扩展了HAR文件追加的优化和为提高访问效率采用索引预取机制。实验结果表明该优化策略能够提高现有HAR处理小文件的能力和访问海量小文件的效率。 Hadoop Distributed File System（HDFS） is an open source system which has advantages of high fault-tolerance, scalability and low-cost storage capability and has been widely suitable for storage applications. How-ever, HDFS based on single master （NameNode） to handle metadata management, NameNode would have the memory overhead problem and suffer the performance penalty in both storage and accessing while handling massive small files, NameNode would become bottleneck. This paper proposes a mechanism based on Hadoop Archive （HAR） to improve the memory utilization for metadata and enhance efficiency of accessing small files. In addition, this strategy also ex-tends HAR capability to allow additional files to be inserted into the existing archive files and adopts the preload of index files to improve the access efficiency. Experimental results show that this strategy can to improve the capability to handle small files and the efficiency of accessing large number of small files.

作者左大鹏徐薇

机构地区北京交通大学计算机与信息技术学院

出处《软件》 2015年第2期107-111,共5页 Software

关键词 HDFS 小文件 HAR 索引策略索引预取 HDFS Small files HAR index strategy index preload

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1M. Vrable, et al., "Cumulus: File system back up to the cloud," ACM Transactions on Storage (TOS), vol. 5, December 2009. 被引量：1
2张春明,芮建武,何婷婷.一种Hadoop小文件存储和读取的方法[J].计算机应用与软件,2012,29(11):95-100. 被引量：39
3"HDFS Fdratin'http://hadp.apach.rg/dcs/stab2/hadp-prjtdist/hadphdfs/Federatin.htm. 被引量：1
4"An Introduction to HDFS Federation," http://hortonworks.com/blog/an-introduction-to-hdfsfederation/. 被引量：1
5J. Liu, et al., "THE optimization of HDFS based on small files," in Broadband Network and Multimedia Technology (IC-BNMT), 2010 3rd IEEE International Conference on, 2010, pp. 912-915. 被引量：1
6杨彬.分布式文件系统HDFS处理小文件的优化方案[J].软件,2014,35(6):65-69. 被引量：8
7L. Xuhui, et al., "Implementing WebGIS on Hadoop: A case study of improving small file I/O performance on HDFS," in Cluster Computing and Workshops, 2009. CLUSTER '09. IEEE International Conference on, 2009, pp. 1-8. 被引量：1
8"Apache Hadoop for Arehiving Email," http://blog.cloudera.com/blog/2011/09/hadoop-forarchiving-email/. 被引量：1
9"Hadoop Archive," http://hadoop.apache.org/docs/rl.2.1/hadoop_archives.html, 2011. 被引量：1
10D. Borthakur, "The Hadoop Distributed File System: Architecture and Design," Hadoop Documentation, 2007. 被引量：1

二级参考文献19

1Armbrust M, Fox A. Griffith R, et al. Above the Clouds: A Berkeley View of Cloud Computing[ D ]. UCB/EECS-2009-28, EECS Department, University of California, Berkeley, 2009. 被引量：1
2Tom White. Hadoop: The Definitive Guide[M]. 2rid ed. O' Reilly Media, Inc ,2011. 被引量：1
3Konstantin Shvachko , Hairing Kuang , Sanyjy Radia , et al. The Ha- doop Distributed File System [ C ]//Proceedings of the 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), May 03 -07, 2010:1 -10. 被引量：1
4Hadooparchives[ OL]. http ://hadoop. apache. org/common/docs/current/hadoop_ archives. html. 被引量：1
5Sequence File Wiki [ OL ]. http ://wiki. apache.org/hadoop/Seq uen ce File. 被引量：1
6Map files[OL], http://hadoop. apache. org/common/docs/current / api/org/apache/hadoop/io/MapFile. html. 被引量：1
7Tom White. The Small Files Problem[ OL]. http://www, clou dera. com/blog/2009/02/02/the-small-files-problem/. 被引量：1
8Xuhui Liu, Jizhong Han, Yunqin Zhong, et al. Implementing WebGIS on Hadoop: A Case Study of Improving Small File L/O Performance on HDFS [C]//Proc. of the 2009 IEEE Conf. on Cluster Computing:1 - 8. 被引量：1
9Bo Dong, Jie Qiu, Qinghua Zheng, et al. A Novel Approach to Improving the Efficiency of Storing and Accessing Small Files on Hadoop : a Case Study by PowerPoint Files [ C ]//International Conference on Services Computing,2010:65 - 72. 被引量：1
10吕伟春,胡洪新,汤剑.基于NagiOS的网络监控监控系统研究[J].电脑知识和技术,2010,6(1),48-51. 被引量：1

共引文献52

1吴雨翰,于徐红,刘志杰.基于分布式脉冲星计算搜索集群的服务平台构建[J].科技传播,2022,14(11):115-119.
2张媛.基于Hadoop云平台的数据传输保护研究[J].兰州文理学院学报（自然科学版）,2013,27(5):82-84.
3董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
4陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35. 被引量：117
5李伟,倪明.基于Hadoop的在线问卷结果处理方法[J].信息技术,2014,38(1):113-116.
6栾景超,马志强,李昊甦,董科军.Hadoop分布式文件系统资源管理器的设计与实现[J].科研信息化技术与应用,2014,5(1):41-52. 被引量：9
7周国安,李强,陈新,胡旭.云环境下海量小文件存储技术研究综述[J].信息网络安全,2014(6):11-17. 被引量：16
8李宝禄,张伟.基于Hadoop平台的并行特征匹配算法研究[J].计算机应用研究,2014,31(11):3320-3323. 被引量：5
9杨洪章,张军伟,刘振军,张建刚.Readdir++:一种并行网络文件系统中海量小文件读优化技术[J].小型微型计算机系统,2014,35(11):2402-2409. 被引量：1
10吴阳,冯径.面向高效文件访问的目录结构优化研究[J].软件工程师,2014(11):5-7.

同被引文献37

1王梅,刘清水,张延虎.企业知识管理解决方案软件平台选择的分析研究[J].农业图书情报学刊,2005,17(5):94-97. 被引量：3
2林闯,杨宏坤,单志广.Petri网在生物信息学中的应用[J].计算机学报,2007,30(11):1889-1900. 被引量：18
3陈剑,龚发根.一种优化分布式文件系统的文件合并策略[J].计算机应用,2011,31(A02):161-163. 被引量：6
4张强.创建型模式在题型库设计中的应用[J].软件,2012,33(3):69-71. 被引量：2
5路勇.Java多线程同步问题分析[J].软件,2012,33(4):31-33. 被引量：9
6朝格.浅谈EXCEL与XML的数据交换[J].软件,2012,33(5):48-50. 被引量：1
7张春明,芮建武,何婷婷.一种Hadoop小文件存储和读取的方法[J].计算机应用与软件,2012,29(11):95-100. 被引量：39
8孙越.企业知识库的构建与共享[J].企业改革与管理,2013(1):28-29. 被引量：2
9张海,马建红.基于HDFS的小文件存储与读取优化策略[J].计算机系统应用,2014,23(5):167-171. 被引量：14
10周国安,李强,陈新,胡旭.云环境下海量小文件存储技术研究综述[J].信息网络安全,2014(6):11-17. 被引量：16

引证文献6

1朱永强,周珂,李丹,赵亚萌.HDFS小文件读写优化策略[J].计算机时代,2016(9):9-12.
2姜晓燕,帅天平.恒速机上的MapReduce在线排序算法下界研究[J].软件,2019,40(1):8-12.
3吉豪杰,宋欣潮.POI用户模型的重构与优化[J].软件,2019,40(5):193-199. 被引量：1
4于先波,张志豪.逻辑Petri网非自由选择结构模型修复方法[J].软件,2020,41(1):220-225.
5丁森,冯海暴,毛潮钢.自建企业科技知识管理系统的构建与探索[J].软件,2020,41(3):157-161.
6陈丽芳,陈宏松,孙海民.大数据平台下LDA-ALS智能推荐算法研究[J].华北理工大学学报（自然科学版）,2022,44(1):89-97. 被引量：4

二级引证文献5

1毛燠锋,潘玉春,朱玉付.基于报表和模板的报告生成方法研究[J].软件工程,2021,24(5):30-32. 被引量：3
2颜子涵,禹振,曹盼,吴承思,王佳伟,周先军.基于大数据存储和智能推荐的贵州特色小镇在线旅游平台的设计与实现[J].电脑知识与技术,2022,18(24):20-22. 被引量：1
3周杨玥,李世锋,李林.基于Spark的智能菜品推荐系统设计与实现[J].软件工程,2024,27(2):69-73. 被引量：2
4黄驰涵.基于能量损失的Transformer神经网络信息流序列推荐算法[J].计算机与网络,2024,50(2):171-176.
5王倩丽.基于改进的ALS协同过滤图书推荐算法研究[J].微型电脑应用,2024,40(6):193-196.

1胡江涛.个人计算机主存储器的发展及其容量的扩充[J].郧阳师范高等专科学校学报,2002,22(6):64-68.
2段翰聪,杨帆,李林.基于二维表的对象存储元数据管理[J].实验科学与技术,2012,10(6):23-25.
3牛德姣,蔡涛,詹永照,鞠时光.基于生存期的云存储元数据缓存算法[J].江苏大学学报（自然科学版）,2012,33(6):678-683. 被引量：2
4李娟,王嘉赋,向宏酉.含双层GST的低功耗CRAM存储元结构设计[J].微电子学,2009,39(2):194-198.
5王洁,戴清灏,李环.基于分布式协调系统的并行频繁模式增长算法的优化[J].计算机科学,2012,39(3):170-173. 被引量：1
6胡作启,李兰,袁成伟.新型相变随机存储器单元仿真系统[J].华中科技大学学报（自然科学版）,2009,37(7):50-53.
7向宏酉,王嘉赋,李娟.与CMOS热兼容的CRAM存储元结构研究[J].武汉理工大学学报,2007,29(11):72-75. 被引量：1
8符方伟.可重复使用记忆介质上可存储的最大信息量[J].科学通报,1994,39(24):2228-2231.

软件

2015年第2期

浏览历史

内容加载中请稍等...

基于Hadoop处理小文件的优化策略被引量：6

参考文献16

二级参考文献19

共引文献52

同被引文献37

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Hadoop处理小文件的优化策略 被引量：6

参考文献16

二级参考文献19

共引文献52

同被引文献37

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Hadoop处理小文件的优化策略被引量：6