期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
Namenode单点故障解决方案研究 被引量:27
1
作者 邓鹏 李枚毅 何诚 《计算机工程》 CAS CSCD 2012年第21期40-44,共5页
针对Hadoop分布式文件系统中的Namenode单点故障问题,在研究Secondary Namenode机制、Backup Node机制和FacebookAvatar机制的基础上,提出一种Avatar改进方案。主节点向备用节点转发客户端请求,使用Zookeeper实现故障切换,从而解决Namen... 针对Hadoop分布式文件系统中的Namenode单点故障问题,在研究Secondary Namenode机制、Backup Node机制和FacebookAvatar机制的基础上,提出一种Avatar改进方案。主节点向备用节点转发客户端请求,使用Zookeeper实现故障切换,从而解决Namenode的单点故障问题。利用Petri网模型在理论上证明了该方案的正确性,采用基于有限源的存储网络故障修复模型对该方案的可用性进行定量分析。实验结果表明,该方案具有不丢失数据、快速切换和故障自动恢复的特点。 展开更多
关键词 云计算 单点故障 hadoop分布式文件系统 高可用性 PETRI网 故障恢复
下载PDF
面向大数据分布式存储的动态负载均衡算法 被引量:25
2
作者 张栗粽 崔园 +3 位作者 罗光春 陈爱国 卢国明 王晓雪 《计算机科学》 CSCD 北大核心 2017年第5期178-183,共6页
随着大数据时代的到来,分布式存储技术应运而生。目前主流大数据技术Hadoop的HDFS分布式存储系统的元数据存储架构上一直存在可扩展性差和写延迟高等问题,其在官方2.0版本中针对可扩展性的解决方案(Federation)仍不完美,仅解决了原有HDF... 随着大数据时代的到来,分布式存储技术应运而生。目前主流大数据技术Hadoop的HDFS分布式存储系统的元数据存储架构上一直存在可扩展性差和写延迟高等问题,其在官方2.0版本中针对可扩展性的解决方案(Federation)仍不完美,仅解决了原有HDFS扩展性的问题,在元数据分配的问题上没有考虑NameNode的异构性能差异,也未解决NameNode集群动态负载均衡的问题。针对该情况,提出了一种动态负载均衡的分布NameNode算法,通过元数据多副本异构节点的动态适应性备份,使元数据在考虑节点性能及负载的情况下实现了动态分布,保证了元数据服务器集群的性能;同时结合缓存策略及自动恢复机制,提高了元数据的读写性及可用性。该算法在试验验证中达到了较为理想的效果。 展开更多
关键词 大数据 分布式存储 元数据管理 hdfs
下载PDF
基于Hadoop平台的分布式重删存储系统 被引量:16
3
作者 刘青 付印金 +1 位作者 倪桂强 梅建民 《计算机应用》 CSCD 北大核心 2016年第2期330-335,共6页
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop... 针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,Map Reduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。 展开更多
关键词 重复数据删除 分布式存储 hadoop HBASE hadoop分布式文件系统
下载PDF
基于MapReduce的Hadoop大表导入编程模型 被引量:13
4
作者 陈吉荣 乐嘉锦 《计算机应用》 CSCD 北大核心 2013年第9期2486-2489,2561,共5页
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长... 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。 展开更多
关键词 编程模型 hadoop MAPREDUCE hadoop分布式文件系统 Sqoop
下载PDF
基于众包的社交网络数据采集模型设计与实现 被引量:14
5
作者 高梦超 胡庆宝 +3 位作者 程耀东 周旭 李海波 杜然 《计算机工程》 CAS CSCD 北大核心 2015年第4期36-40,共5页
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、... 社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。 展开更多
关键词 社交网络 众包模式 分布式计算 信息采集 WEB爬虫 hadoop分布式文件系统
下载PDF
云环境下分布式文件系统负载均衡研究 被引量:13
6
作者 吴瑶瑶 杨庚 《计算机工程与应用》 CSCD 北大核心 2019年第10期67-72,224,共7页
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一种适合在通用硬件上运行的低成本、高度容错性的分布式文件系统,能提供高吞吐量的数据访问,适合针对大规模数据集上的应用。然而,HDFS中还面临一些性能优化问题,如负载... Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一种适合在通用硬件上运行的低成本、高度容错性的分布式文件系统,能提供高吞吐量的数据访问,适合针对大规模数据集上的应用。然而,HDFS中还面临一些性能优化问题,如负载均衡不足。虽然Hadoop系统自带的负载均衡器可以实现均衡调整,但需要用户预先给出静态的阈值。为了解决阈值的固定性和主观性,通过对磁盘空间使用率、CPU利用率、内存利用率、磁盘I/O占用率、网络带宽占用率等参数的分析评估优化,形成对阈值的计算表达式,并通过理论分析和仿真实验对阈值的计算和负载均衡进行验证。实验结果表明,相比较Hadoop静态的输入阈值的算法,该方法达到了更好的平衡效果,提高了计算资源的利用率。 展开更多
关键词 云环境 hadoop分布式文件系统(hdfs) 负载均衡 动态阈值
下载PDF
基于Hadoop架构的电力系统连锁故障分布式计算技术 被引量:13
7
作者 刘友波 刘洋 +3 位作者 刘俊勇 李勇 刘挺坚 刁塑 《电力系统自动化》 EI CSCD 北大核心 2016年第7期90-97,共8页
以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop... 以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop分布式文件系统(HDFS)存储调度功能,将事故链解耦为小粒度单一故障场景进行计算,可针对连锁故障仿真的不同复杂度提供跨系统的分布式计算服务,灵活应对计算开始前连锁故障中事故链组合的不可预测性。利用10机、16机系统和某省网实际数据进行技术测试,结果表明所研发系统实现了连锁故障分析应用与数据在计算服务网络中的分离,具备动态调配计算节点资源的能力,能自动适应事件规模为电网连锁故障的仿真分析提供强大计算能力,具有在线应用前景。 展开更多
关键词 连锁故障 分布式计算 hadoop分布式文件系统(hdfs) PSD-BPA
下载PDF
基于分布式集群的高可用日志分析系统的设计 被引量:13
8
作者 陈乐 余粟 王盟 《中国电子科学研究院学报》 北大核心 2020年第5期420-426,共7页
在传统的访问日志分析系统中,数据采集效率较低且日志采集目录不能被递归监听,存储系统及计算系统缺乏高可用性。构建基于分布式集群的高可用日志分析系统,通过Nginx直连Kafka的方式采集实时分析的数据和自定义Source组件的Flume采集离... 在传统的访问日志分析系统中,数据采集效率较低且日志采集目录不能被递归监听,存储系统及计算系统缺乏高可用性。构建基于分布式集群的高可用日志分析系统,通过Nginx直连Kafka的方式采集实时分析的数据和自定义Source组件的Flume采集离线分析的数据,使用高可用的分布式文件系统HDFS和计算系统Spark分别提供持久化存储和计算引擎,利用Mysql和Hbase分别存储聚合数据及明细数据。实验结果表明,该系统的各项功能符合预期结果,直连Nginx-Kafka的采集方式和自定义Source组件的Flume明显提高采集效率,Zookeeper协调的分布式存储系统HDFS和计算系统Spark均满足高可用性,利用ALS算法测试存储与计算系统的功能。 展开更多
关键词 分布式集群 FLUME hdfs Spark 高可用性 Zookeeper
下载PDF
单机下Hadoop小文件处理性能分析 被引量:9
9
作者 袁玉 崔超远 +1 位作者 乌云 陈祝红 《计算机工程与应用》 CSCD 2013年第3期57-60,共4页
Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Had... Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Hadoop的工作流程和原理上解释了出现此性能差异的原因。通过分析得出多个小文件整合为一个数据片split有助于改善Hadoop处理小文件性能。 展开更多
关键词 hadoop hadoop的分布式文件系统(hdfs) MAPREDUCE 小文件处理 文件输入格式
下载PDF
MongoDB索引的用电信息非结构化数据存储方法 被引量:12
10
作者 徐英辉 祝恩国 +1 位作者 赵睿 杨挺 《电力系统及其自动化学报》 CSCD 北大核心 2017年第9期93-97,共5页
随着用电信息采集系统的健全,双向互动化功能的需求增加,系统所承载的用电信息由最初的规整结构化数据演变成结构化数据和多类型非结构化数据的混杂,且数据量也日益聚增。本文对用电信息采集系统的非结构化数据组成进行了梳理,从数据源... 随着用电信息采集系统的健全,双向互动化功能的需求增加,系统所承载的用电信息由最初的规整结构化数据演变成结构化数据和多类型非结构化数据的混杂,且数据量也日益聚增。本文对用电信息采集系统的非结构化数据组成进行了梳理,从数据源角度出发,按照客户用电信息数据和客户数据两大类别,分别对用电信息采集系统涉及的A、B、C、D、E 5类用户进行了非结构化数据特征分析。本文提出采用MongoDB索引Hadoop分布式文件系统的新型用电信息采集系统非结构化数据存储方法,实现对系统中混杂非结构化数据的分类存储和准确实时读写,为双向互动化功能提供了良好底层泛在数据支撑。 展开更多
关键词 非结构化数据 用电信息数据 hadoop分布式文件系统 MONGODB
下载PDF
面向Hadoop分布式文件系统的小文件存取优化方法 被引量:12
11
作者 李铁 燕彩蓉 +1 位作者 黄永锋 宋亚龙 《计算机应用》 CSCD 北大核心 2014年第11期3091-3095,3099,共6页
为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装... 为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。 展开更多
关键词 hadoop分布式文件系统 小文件 文件关联 预取 缓存
下载PDF
HDFS分级存储系统元数据管理方法的研究 被引量:7
12
作者 刘晓宇 夏立斌 +1 位作者 姜晓巍 孙功星 《计算机工程与应用》 CSCD 北大核心 2023年第17期257-265,共9页
随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有... 随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有异构存储研究不支持磁带库存储,无法满足高能物理Hadoop平台海量实验数据持久化和备份过程对于存储系统高性价比的需求。针对上述问题,为了构建支持磁盘-磁带存储的HDFS分级存储系统,使磁带层文件在HDFS中无缝融合,为用户提供统一的文件系统命名空间,调研了分布式文件系统元数据管理方法,在此基础上设计实现了HDFS分级存储系统中统一的元数据管理方法。该方法通过重新设计内存文件元数据结构,构建分级存储系统统一的内存目录树并实现其访问管理和可靠性保障,完成分级存储系统中不同层级文件元数据的集中统一管理。测试结果表明,该方法实现了分级存储系统异构资源上文件元数据的统一管理,提供了高效的元数据操作。基于该方法构建的分级存储系统可靠性高,在对不同规模大小的文件读写时,其读写吞吐量较优于高能物理领域传统分级存储系统EOSCTA。 展开更多
关键词 hdfs分布式文件系统 分级存储系统 内存元数据管理 统一命名空间 持久化
下载PDF
一致性哈希的数据集群存储优化策略研究 被引量:11
13
作者 邱宁佳 胡小娟 +1 位作者 王鹏 杨华民 《信息与控制》 CSCD 北大核心 2016年第6期747-752,共6页
结合虚拟节点技术和均分存储区域技术,提出了嵌套循环式数据一致性哈希优化分布式集群存储的多副本放置策略.按照此优化策略,能够有序选择数据副本机架,确定数据节点存储位置,保证数据存储的均衡性分布,可以针对集群的实际要求开展扩展... 结合虚拟节点技术和均分存储区域技术,提出了嵌套循环式数据一致性哈希优化分布式集群存储的多副本放置策略.按照此优化策略,能够有序选择数据副本机架,确定数据节点存储位置,保证数据存储的均衡性分布,可以针对集群的实际要求开展扩展,并按照扩展情况制定使数据存储完成自适应优化调整,加快数据处理的速度.有效实验表明存储优化后算例的执行速度得到很大提升,能够保证解决负载均衡问题;而针对实际情况中可能出现的扩展与删减问题进行测试后表明,使用优化存储策略处理此类问题时,振荡对整体负载均衡影响不大,且执行时间与负载占比变化趋势一致. 展开更多
关键词 集群存储 hadoop分布式文件系统 一致性哈希 存储副本优化
原文传递
基于Hadoop的海量气象水文数据并发处理模型 被引量:10
14
作者 李辉 王建文 叶明雯 《计算机应用》 CSCD 北大核心 2018年第A02期187-191,205,共6页
针对关系型数据库以及单节点处理难以满足海量气象水文数据存储与处理的问题,提出了一种基于Hadoop的海量气象水文数据并发处理模型(CPHDH)。该模型结合云计算技术,利用计算机集群以及HDFS文件系统实现海量气象水文数据的分布式存储;同... 针对关系型数据库以及单节点处理难以满足海量气象水文数据存储与处理的问题,提出了一种基于Hadoop的海量气象水文数据并发处理模型(CPHDH)。该模型结合云计算技术,利用计算机集群以及HDFS文件系统实现海量气象水文数据的分布式存储;同时,基于MapReduce编程框架完成海量气象水文数据的高效并行处理。仿真实验中,CPHDH能够有效利用Hadoop平台的分布式存储和并行处理框架实现海量降雨要素信息的高效存储和处理,相比单机运行基于遗传算法的气象观测数据区间值属性约简算法(MOIvGA)进行降水影响因子属性约简,CPHDH中的属性子集对无雨、小雨和中雨预测效率分别提高了10. 74%、6. 19%、4. 42%。 展开更多
关键词 海量气象水文数据 hadoop 分布式文件存储系统 MAPREDUCE 并发处理
下载PDF
Hadoop中处理小文件的四种方法的性能分析 被引量:8
15
作者 李三淼 李龙澍 《计算机工程与应用》 CSCD 北大核心 2016年第9期44-49,共6页
Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式Text Input Format、为处理小文件而设计的Combine File Input ... Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式Text Input Format、为处理小文件而设计的Combine File Input Format输入格式、Sequence File技术以及Harballing技术。为了比较在相同的Hadoop分布式环境下这四种技术处理大量小文件时的性能,选用了典型的数据集,利用词频统计程序,来比较四种小文件处理技术的性能差异。实验研究表明,在不同需求下处理大量小文件的时候,选用适当的处理方法能够在很大程度上提高大量小文件的处理效率。 展开更多
关键词 hadoop 小文件处理 hadoop的分布式文件系统(hdfs) MAPREDUCE 大数据
下载PDF
基于云计算的广域级视频监控综合业务平台 被引量:9
16
作者 韩海雯 齐德昱 封斌 《计算机工程与设计》 CSCD 北大核心 2013年第5期1657-1662,共6页
针对目前广域级的视频监控项目遇到的各种问题,设计了一种基于SOA架构和云计算技术的视频监控综合业务平台。采用云计算中的虚拟化技术对平台底层中多种异构软硬件资源进行整合管理,采用HDFS分布式文件系统和HBase分布式存储系统对海量... 针对目前广域级的视频监控项目遇到的各种问题,设计了一种基于SOA架构和云计算技术的视频监控综合业务平台。采用云计算中的虚拟化技术对平台底层中多种异构软硬件资源进行整合管理,采用HDFS分布式文件系统和HBase分布式存储系统对海量视频数据进行高效的分布式存储管理,采用MapReduce分布式编程框架实现用户业务的分布式并行处理与资源调度。在此基础上,众多用户业务最终实现为云服务并在SOA架构下部署成为分布式系统,有效实现业务流程的整合及融合。 展开更多
关键词 广域 视频综合平台 面向服务的体系架构 云计算 hadoop分布式文件系统 分布式编程框架
下载PDF
基于HDFS的云存储系统小文件优化方案 被引量:9
17
作者 邹振宇 郑烇 +1 位作者 王嵩 杨坚 《计算机工程》 CAS CSCD 北大核心 2016年第3期34-40,46,共8页
Hadoop分布式文件系统(HDFS)具有高容错、可伸缩、廉价存储等优良特性,在大数据存储和分析场景中得到广泛应用。但对于海量小文件存储,HDFS存在高内存消耗、高延迟访问等缺陷。为此,结合"合肥城市云"系统"一次上传,多次... Hadoop分布式文件系统(HDFS)具有高容错、可伸缩、廉价存储等优良特性,在大数据存储和分析场景中得到广泛应用。但对于海量小文件存储,HDFS存在高内存消耗、高延迟访问等缺陷。为此,结合"合肥城市云"系统"一次上传,多次下载"的特性,提出一种基于小文件属性的优化方案。根据文件之间的相关性设定优先级,对小于5 MB的文件按优先级高低合并后再上传,并生成索引记录。结合随机化思想,采用两级缓存策略,将预提取数据缓存在内存池中,提高访问效率。同时,系统定期查询访问日志,根据用户访问习惯,动态调整预提取因子的大小。实验结果表明,该方案能有效提高小文件访问效率,降低名字节点和数据节点的内存开销,在有海量小文件存取的情况下提升系统的交互性。 展开更多
关键词 hadoop分布式文件系统 小文件 预提取 随机化 动态调整
下载PDF
基于MapReduce与蚁群优化的航路规划算法 被引量:8
18
作者 柏硌 赵刚要 《计算机工程》 CAS CSCD 北大核心 2015年第5期38-44,55,共8页
航路规划是提高无人机生存能力的有效途径,可使其安全、快速到达目的地。为在云计算环境中分布式并行地求解航路规划问题,应用云计算技术提出基于MapReduce和多目标蚁群算法的航路规划算法(RPMA)。设计多目标蚁群算法,并采用多种优化策... 航路规划是提高无人机生存能力的有效途径,可使其安全、快速到达目的地。为在云计算环境中分布式并行地求解航路规划问题,应用云计算技术提出基于MapReduce和多目标蚁群算法的航路规划算法(RPMA)。设计多目标蚁群算法,并采用多种优化策略对传统算法进行改进。RPMA能预先规划出多条航迹,可根据不同的飞行任务选择不同的航路,并在飞行过程中根据不同需要临时确定合适的飞行航路。仿真实验结果表明,RPMA求解航路问题是可行、有效的,具有较好的收敛性和扩展性,以及对大规模数据的处理能力。 展开更多
关键词 云计算 MapReduce分布式编程 蚁群优化 航路规划 无人机 hadoop分布式文件系统
下载PDF
SQL-DFS:一种基于HDFS的海量小文件存储系统 被引量:7
19
作者 马志强 杨双涛 +1 位作者 闫瑞 张泽广 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期134-141,共8页
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件... 针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储. 展开更多
关键词 hadoop分布式文件系统(hdfs) 元数据存储集群 小文件 元数据 内存占用率
下载PDF
Hadoop平台下的并行Web日志挖掘算法 被引量:6
20
作者 周诗慧 殷建 《计算机工程》 CAS CSCD 2013年第6期43-46,共4页
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算... 当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法。 展开更多
关键词 hadoop框架 WEB挖掘 WEB日志 MapReduce编程模式 hadoop分布式文件系统 并行FP-growth算法
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部