-
题名基于Hadoop处理小文件的优化策略
被引量:6
- 1
-
-
作者
左大鹏
徐薇
-
机构
北京交通大学计算机与信息技术学院
-
出处
《软件》
2015年第2期107-111,共5页
-
文摘
HDFS(Hadoop Distributed File System)作为开源系统广泛地适用于各类存储服务中,具有高容错,易扩展,廉价存储等特点。然而,HDFS基于单一的服务器Name Node来处理元数据信息管理,当处理海量小文件时会造成Name Node内存过分消耗以及存储和读取性能并不理想,使Name Node成为系统瓶颈。本文提出一种基于HAR(Hadoop Archive)的优化机制来提高Name Node存储元数据信息的内存利用效率和提高读取小文件的访问效率。另外,该策略也扩展了HAR文件追加的优化和为提高访问效率采用索引预取机制。实验结果表明该优化策略能够提高现有HAR处理小文件的能力和访问海量小文件的效率。
-
关键词
HDFS
小文件
HAR
索引策略
索引预取
-
Keywords
HDFS
Small files
HAR
index strategy
index preload
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种Hadoop小文件存储和读取的方法
被引量:39
- 2
-
-
作者
张春明
芮建武
何婷婷
-
机构
中国科学院软件研究所基础软件国家工程中心
中国科学院研究生院
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第11期95-100,共6页
-
基金
新闻出版重大科技工程项目(0610-1041BJNF2328/23)
国家科技支撑计划课题(2011BAH14B02)
中国科学院知识创新工程方向性项目课题(KGCX2-YW-174)
-
文摘
HDFS(Hadoop Distributed File System)凭借其高容错、可伸缩和廉价存储的优点,在当前面向云计算的应用场景中得到了广泛应用。然而,HDFS设计的初衷是存储超大文件,对于海量小文件,由于NameNode内存开销等问题,其存储和读取性能并不理想。提出一种基于小文件合并的方法 HIFM(Hierarchy Index File Merging),综合考虑小文件之间的相关性和数据的目录结构,来辅助将小文件合并成大文件,并生成分层索引。采用集中存储和分布式存储相结合的方式管理索引文件,并实现索引文件预加载。此外,HIFM采用数据预取的机制,提高顺序访问小文件的效率。实验结果表明,HIFM方法能够有效提高小文件存储和读取效率,显著降低NameNode和DataNode的内存开销,适合应用在有一定目录结构的海量小文件存储的应用场合。
-
关键词
HDFS
小文件
HIFM
分层索引
索引预加载
数据预取
-
Keywords
HDFS Small files HIFM Hierarchical index index preload Prefetching
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-