期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
海量教育资源中小文件的存储研究 被引量:16
1
作者 游小容 曹晟 《计算机科学》 CSCD 北大核心 2015年第10期76-80,共5页
Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成... Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成大文件以减少文件数量,并用索引机制访问小文件及元数据缓存和关联小文件预取机制来提高文件的读取效率。实验证明,以上方法提高了Hadoop文件系统对小文件的存取效率。 展开更多
关键词 海量小文件 小文件合并 预取缓存
下载PDF
FlatLFS:一种面向海量小文件处理优化的轻量级文件系统 被引量:9
2
作者 付松龄 廖湘科 +2 位作者 黄辰林 王蕾 李姗姗 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第2期120-126,共7页
海量小文件的高效存储和访问是当前分布式文件系统面临的主要挑战之一。以GFS和HDFS为代表的分布式文件系统大多面向海量大文件的高效存储和访问设计,缺乏小文件处理的针对性优化,导致访问海量小文件时效率低下。针对分布式文件系统中... 海量小文件的高效存储和访问是当前分布式文件系统面临的主要挑战之一。以GFS和HDFS为代表的分布式文件系统大多面向海量大文件的高效存储和访问设计,缺乏小文件处理的针对性优化,导致访问海量小文件时效率低下。针对分布式文件系统中海量小文件访问时的数据服务器优化问题,提出了一种采用扁平式数据存储方法的轻量级文件系统FlatLFS,取代传统文件系统对上层分布式文件系统提供数据存储和访问支持,提高了数据服务器处理小数据块时的I/O性能,从而提升了整个分布式文件系统的性能。实验表明,当数据块大小设定为1M时,FlatLFS的随机读性能分别比ext3、ext4、reiserfs高135%、112%和122%。 展开更多
关键词 分布式文件系统 海量小文件 ext文件系统 云计算
下载PDF
分布式技术在大模型训练和推理中的应用
3
作者 郑纬民 《大数据》 2024年第5期1-10,共10页
近几年,人工智能被广泛应用于多个领域,大语言模型(以下简称大模型)的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环,为大模型的发展助力。在数据获取环节,针对海量小文件的存储问题,研发了文件系统S... 近几年,人工智能被广泛应用于多个领域,大语言模型(以下简称大模型)的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环,为大模型的发展助力。在数据获取环节,针对海量小文件的存储问题,研发了文件系统SuperFS,能够同时满足低延迟和可扩展的要求。在数据预处理环节,针对从分布式文件系统读取数据开销大的问题,研发了高效大数据处理引擎“诸葛弩”。在模型训练环节,针对检查点文件读写性能差的问题,提出了分布式检查点策略,加快了检查点文件的读写速度。在模型推理环节,针对KVCache对存储系统的挑战,研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分布式技术的应用,使大模型能够充分利用计算资源,加快训练速度,有利于人工智能领域的发展。 展开更多
关键词 分布式技术 大模型 海量小文件 大数据处理引擎 检查点 KVCache
下载PDF
基于EHDFS的海量小文件存储与检索方法 被引量:5
4
作者 李文武 张建锋 王景林 《计算机工程与设计》 北大核心 2022年第2期376-383,共8页
为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案。存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode... 为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案。存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode内存开销。检索阶段,改进MapFile映射关系结构、索引存储位置与组成元素以建立新的文件索引模型,避免跨跃式文件搜索,实现小文件的集中检索。实验结果表明,对比多种大数据存储模型,在不同数据量的分组压力测试下,该方案有效提高了HDFS的存取效率。 展开更多
关键词 海量小文件 EHDFS架构 最优化合并存储模型 Mapfile映射关系结构 文件索引模型
下载PDF
海洋观测资料共享服务平台设计与实现 被引量:5
5
作者 高通 王慧 向先全 《海洋信息》 2020年第3期1-10,37,共11页
所述的海洋观测资料共享服务平台在海洋信息化建设前期成果的基础上,充分加载、共享了业务化海洋观测获取的数据资源,提出一种基于云平台的海量小文件存储模型,设计相关流程并实现了海量小文件的即时监测转发,同时也实现了多种形式的数... 所述的海洋观测资料共享服务平台在海洋信息化建设前期成果的基础上,充分加载、共享了业务化海洋观测获取的数据资源,提出一种基于云平台的海量小文件存储模型,设计相关流程并实现了海量小文件的即时监测转发,同时也实现了多种形式的数据可视化服务以及数据的快速检索、浏览和打包下载等功能。平台目前已在国家海洋信息通信专网部署运行,为沿海各省区市的海洋数据管理机构和相关国家业务中心提供服务。 展开更多
关键词 海洋观测资料 数据共享 海量小文件 存储模型 即时监测转发
下载PDF
基于fastNTsync算法的海量小文件同步优化方法研究
6
作者 华南 朱彦霞 《计算机时代》 2023年第10期17-21,共5页
为解决海量小文件同步过程中的性能瓶颈,提出一种基于fastNTsync优化方法。综合运用NTFS分区表快照技术、NTFS$MFT分析技术和文件打包分区组合拷贝技术,来减少数据包往返时间浪费,提升带宽使用率,提高数据同步速度和效率。实验结果表明... 为解决海量小文件同步过程中的性能瓶颈,提出一种基于fastNTsync优化方法。综合运用NTFS分区表快照技术、NTFS$MFT分析技术和文件打包分区组合拷贝技术,来减少数据包往返时间浪费,提升带宽使用率,提高数据同步速度和效率。实验结果表明,该方法在处理大量小文件时具有显著优势,能提高同步速度和效率,并减少数据传输量和时间浪费。该基于fastNTsync算法的海量小文件同步优化方法对相关领域的研究及应用具有参考价值。 展开更多
关键词 海量小文件 数据同步 数据传输 优化方法
下载PDF
基于卷影拷贝服务技术的海洋实时观测数据备份
7
作者 吴永芳 王晓瑞 +2 位作者 张学灵 司佳 陈刚 《海洋信息技术与应用》 2023年第3期134-139,共6页
为了提高服务器对海洋实时观测数据的备份性能,提出了对NTFS文件系统中海量数据基于卷影拷贝服务的备份方案。该方案解决了传统备份方案中备份时间过长、不能有效备份的问题。将本文备份方案和传统备份方案的性能进行了对比,并对备份的... 为了提高服务器对海洋实时观测数据的备份性能,提出了对NTFS文件系统中海量数据基于卷影拷贝服务的备份方案。该方案解决了传统备份方案中备份时间过长、不能有效备份的问题。将本文备份方案和传统备份方案的性能进行了对比,并对备份的数据进行了恢复演练。实验结果表明,基于卷影拷贝服务的备份方案能够使海洋实时观测数据的备份性能获得较大的提升,且基于该方案备份的数据是可用的。该方案能够进一步保障海洋数据的安全存储。 展开更多
关键词 备份 卷影拷贝服务 性能 海洋实时接收数据 海量小文件
下载PDF
一种面向HDFS中海量小文件的存取优化方法 被引量:3
8
作者 顾玉宛 王文闻 孙玉强 《计算机应用研究》 CSCD 北大核心 2017年第8期2319-2323,共5页
为了解决HDFS(Hadoop distributed file system)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的... 为了解决HDFS(Hadoop distributed file system)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的关联关系,然后根据文件相关性将相关联的小文件合并成大文件后再存储到HDFS。从HDFS中读取数据时,根据文件之间的相关性,对接下来用户最有可能访问的文件进行预取,减少了客户端对NameNode节点的访问次数,提高了文件命中率和处理速度。实验结果证明,该方法有效提升了Hadoop对小文件的存取效率,降低了NameNode节点的内存占用率。 展开更多
关键词 海量小文件 文件相关性 合并 预取
下载PDF
航空货运中海量小文件的存储优化 被引量:3
9
作者 李国 李汶晓 徐俊洁 《计算机工程与设计》 北大核心 2018年第5期1484-1489,共6页
针对Hadoop分布式文件系统在航空货运中海量小文件存储方面存在的低效率问题,提出一种面向航空货运中海量小文件的存储优化方法。通过分析航空货运数据交换平台中历史报文数据,构建用户的报文类型访问模型,计算报文类型的关联度,根据关... 针对Hadoop分布式文件系统在航空货运中海量小文件存储方面存在的低效率问题,提出一种面向航空货运中海量小文件的存储优化方法。通过分析航空货运数据交换平台中历史报文数据,构建用户的报文类型访问模型,计算报文类型的关联度,根据关联度将小文件合并成大文件后存储至HDFS;建立小文件索引以及数据缓存和相关小文件预取机制。实验结果表明,该方法对于Hadoop分布式文件系统存取航空货运海量小文件时NameNode的压力有明显缓解,提升了存取文件的时间效率,为航空货运中海量小文件的存储问题提供了技术支持。 展开更多
关键词 航空货运数据交换平台 HADOOP分布式文件系统 海量小文件 网页排序算法 预取缓存
下载PDF
海量文件系统中基于特征实现文件多维度浏览 被引量:2
10
作者 贺扬 何连跃 +2 位作者 陈博 徐俊 徐照淼 《计算机工程与科学》 CSCD 北大核心 2017年第5期849-854,共6页
SMDFS可以高效地管理百亿级数量文件。然而针对照片、音乐等海量数据,往往需要从多个维度快速浏览文件,基于目录结构管理海量文件的传统文件组织方式很难满足这一要求。在SMDFS文件系统基础之上,为文件引入特征属性,并提出基于特征的海... SMDFS可以高效地管理百亿级数量文件。然而针对照片、音乐等海量数据,往往需要从多个维度快速浏览文件,基于目录结构管理海量文件的传统文件组织方式很难满足这一要求。在SMDFS文件系统基础之上,为文件引入特征属性,并提出基于特征的海量小文件倒排索引技术和分布索引技术,使SMDFS可根据多个特征快速浏览文件。实验数据表明,支持特征的SMDFS能为海量小文件提供高效管理和多维度快速浏览能力,同时基于文件目录结构访问海量小文件的性能并没有明显下降。 展开更多
关键词 海量小文件 检索 倒排索引 动态重构
下载PDF
一种面向NTFS的海量小文件高速读写方法
11
作者 彭涵钧 黄传波 +1 位作者 涂磊 胡晓勤 《现代计算机》 2022年第3期87-92,共6页
为了解决NTFS(newtechnologyfilesystem)环境下海量小文件读写性能低下的问题,提出了一种高速读写方法。该方法通过解析NTFS系统结构,提取文件记录、目录项等关键元数据,模拟文件系统读取磁盘数据,并通过元数据与用户数据的双预读机制,... 为了解决NTFS(newtechnologyfilesystem)环境下海量小文件读写性能低下的问题,提出了一种高速读写方法。该方法通过解析NTFS系统结构,提取文件记录、目录项等关键元数据,模拟文件系统读取磁盘数据,并通过元数据与用户数据的双预读机制,提升数据读取效率,从而实现了NTFS上海量小文件的高速读写。实验结果证明,该方法能够大幅提升NTFS环境下海量小文件的读写速率。 展开更多
关键词 海量小文件 文件读写 文件系统 元数据
下载PDF
Hdspace分布式机构知识库系统的小文件存储 被引量:1
12
作者 卞艺杰 陈超 +1 位作者 李亚冰 陆小亮 《计算机系统应用》 2014年第2期183-188,共6页
机构知识库作为一种新型的学术交流模式和开放获取活动的绿色通道已逐渐成为国内外图书情报界关注的新焦点,随着机构库的发展其数据规模也在不断扩大,传统的存储模式已经不能满足日益增长的存储需求.在对机构库内容存储特点的研究基础... 机构知识库作为一种新型的学术交流模式和开放获取活动的绿色通道已逐渐成为国内外图书情报界关注的新焦点,随着机构库的发展其数据规模也在不断扩大,传统的存储模式已经不能满足日益增长的存储需求.在对机构库内容存储特点的研究基础上建立基于HDFS与Dspace的分布式机构库Hdspace.首先提出一种小文件合并生成新的存储文件,并对文件提出基于学科分类的两级索引,结合索引预缓存机制提高小文件的读取响应,为海量小文件存储及后续的信息高效利用提供了一种解决方案,通过模拟测试显示本模式能够大大提高机构知识库小文件的存储、读取以及检索效率. 展开更多
关键词 机构知识库 HDFS 海量小文件 DSPACE
下载PDF
一种基于授权机制的分布式文件系统小文件访问优化策略 被引量:1
13
作者 曹风华 《计算机系统应用》 2013年第7期183-186,176,共5页
针对分布式文件系统应用于海量小文件访问模式时,元数据请求过多导致系统性能下降的问题,提出了客户端元数据缓存授权机制的解决方案.客户端从服务器读取元数据时,申请相应类型的授权,服务器分析请求并决定是否授予此客户端所访问... 针对分布式文件系统应用于海量小文件访问模式时,元数据请求过多导致系统性能下降的问题,提出了客户端元数据缓存授权机制的解决方案.客户端从服务器读取元数据时,申请相应类型的授权,服务器分析请求并决定是否授予此客户端所访问的元数据的授权.若客户端成功获取授权,则将其与本地缓存的元数据相关联,作为缓冲有效性的凭证.当再次访问本地缓存的元数据时,若有相关授权,则可以直接从本地获取元数据,无需向服务器发送缓存数据的有效性验证RPC.仿真实验表明,文中的方法有效的降低了客户端发送元数据请求RPC的数量,节省了宝贵的网络带宽资源,降低了元数据服务器的负载. 展开更多
关键词 分布式文件系统 海量小文件 元数据缓存 授权机制 pNFS
下载PDF
基于时间线优化医疗海量小文件数据集成技术 被引量:1
14
作者 林德南 朱远燕 +2 位作者 王浩 王爽 郑静 《中国数字医学》 2014年第8期89-92,共4页
随着越来越多的医院开展数字化建设以及区域医疗应用范围的扩大,大量非结构化、半结构化医疗数据爆发式的增长,传统的技术架构在处理海量数据方面显得越来越乏力。深圳市区域卫生信息化数据交换平台,覆盖了全市60家公立医院、600多家社... 随着越来越多的医院开展数字化建设以及区域医疗应用范围的扩大,大量非结构化、半结构化医疗数据爆发式的增长,传统的技术架构在处理海量数据方面显得越来越乏力。深圳市区域卫生信息化数据交换平台,覆盖了全市60家公立医院、600多家社区卫生机构。平台接入近50个异构系统,现有1700多万份健康档案、30亿条以上诊疗数据,平均每天产生500万以上的小文件。针对深圳市卫生区域信息化建设,海量小文件交换处理效率低下的问题,利用Hadoop平台,提出了采用时间基线归档文件技术和序列文件技术解决小文件存储、检索效率问题的解决方案,经验证实该技术可满足实际业务应用中对数据交换的需要。详细描述了该技术的实现细节,包括根据业务数据规模划定时间基线,根据业务需求定制数据类型、数据结构,将小文件合并分块存储,建立小文件到大文件的映射以及相关数据交换处理流程等,并基于真实数据对该技术进行了评测比较,结果表明上述技术与常规技术相比明显提升了批量处理小文件的效率。 展开更多
关键词 医疗数据 时间基线 批量小文件 数据集成技术
下载PDF
基于MapFile的HDFS小文件存取优化 被引量:1
15
作者 段隆振 洪新利 邱桃荣 《南昌大学学报(工科版)》 CAS 2017年第2期175-178,共4页
分布式文件系统(HDFS)存取大文件有很好的性能,但存取海量小文件时效率很差。鉴于此,提出一种小文件存取优化策略。存储小文件时,客户端将它们按类型和访问权限分类合并成MapFile,合并后的大文件交给HDFS处理。读取小文件时,引入由Nexis... 分布式文件系统(HDFS)存取大文件有很好的性能,但存取海量小文件时效率很差。鉴于此,提出一种小文件存取优化策略。存储小文件时,客户端将它们按类型和访问权限分类合并成MapFile,合并后的大文件交给HDFS处理。读取小文件时,引入由Nexist文件缓冲区域、一级缓存和二级缓存组成的缓存模块。实验表明,该策略能有效降低存取海量小文件时主节点中内存的消耗,同时减少了小文件的存取时间,极大提高存取的性能。 展开更多
关键词 分布式文件系统 海量小文件 Mapfile 缓存 存取优化
下载PDF
基于Hadoop的海量车牌图像处理优化技术
16
作者 侯向宁 《计算机技术与发展》 2018年第10期135-138,144,共5页
Hadoop集群下每个小文件均占据一个Block,一方面存储海量元数据信息消耗了大量的NameNode内存,另一方面,Hadoop为每个小文件单独启动一个Map任务,大量的时间花费在启动和关闭Map任务上,从而严重降低了MapReduce的执行速率。对此,在详细... Hadoop集群下每个小文件均占据一个Block,一方面存储海量元数据信息消耗了大量的NameNode内存,另一方面,Hadoop为每个小文件单独启动一个Map任务,大量的时间花费在启动和关闭Map任务上,从而严重降低了MapReduce的执行速率。对此,在详细分析已有解决方案的基础上,采用CFIF将多个小文件分片打包到大分片中,给每个大分片只启动一个Map任务来执行,通过减少启动Map任务的数量,提高了处理海量小文件时的效率。通过设计Hadoop图像接口类,继承并实现CFIF抽象类,最终完成了对海量图像小文件的处理。与常规HDFS、HAR和MapFile方案在NameNode内存空间和运行效率方面进行了对比,结果表明,CFIF在NameNode内存占用率和运行效率方面,都有很好的表现。 展开更多
关键词 海量小文件 HADOOP分布式文件系统 分片 打包
下载PDF
海量小文件元数据的分布式存储与检索
17
作者 周国安 李强 +1 位作者 陈新 胡旭 《空军预警学院学报》 2014年第6期427-431,共5页
针对现有分布式文件系统处理海量小文件时存在的主节点元数据处理性能瓶颈问题,提出采用分布式文件来存储元数据,并通过元数据缓冲和Hash映射实现元数据的分布;采用Map Reduce并行程序对元数据检索进行了实现,并指出了并行检索中存在的... 针对现有分布式文件系统处理海量小文件时存在的主节点元数据处理性能瓶颈问题,提出采用分布式文件来存储元数据,并通过元数据缓冲和Hash映射实现元数据的分布;采用Map Reduce并行程序对元数据检索进行了实现,并指出了并行检索中存在的问题,提出采取局部位图索引对元数据检索进行了优化.最后通过实验进行了验证,实验结果证明,该方法实现了海量元数据的分布式存储与检索,避免了现有分布式文件系统在处理海量小文件时存在的主节点单点性能瓶颈. 展开更多
关键词 海量小文件 元数据 分布存储 并行检索
下载PDF
分布式文件系统中海量小文件异步创建技术
18
作者 杨洪章 张军伟 +1 位作者 齐颖 吴雪丽 《网络新媒体技术》 2015年第2期16-23,共8页
海量小文件应用已经渗透到高性能计算、企业办公、互联网等多个领域。由于小文件主要存储在分布式文件系统中,海量小文件访问性能已经成为分布式文件系统亟待解决的难题。影响性能的关键因素是高比例高并发的元数据同步访问,尤其在高并... 海量小文件应用已经渗透到高性能计算、企业办公、互联网等多个领域。由于小文件主要存储在分布式文件系统中,海量小文件访问性能已经成为分布式文件系统亟待解决的难题。影响性能的关键因素是高比例高并发的元数据同步访问,尤其在高并发小粒度创建应用中,元数据同步网络交互增加了小文件访问延迟。本文以p NFS分布式文件系统为基础,研究降低海量小文件创建应用延迟的关键技术,设计并实现了一种基于目录可写授权的全异步客户端文件创建框架及其优化技术,测试表明,该技术可将分布式文件系统小文件创建性能提升近500倍。 展开更多
关键词 海量小文件 低延迟 文件创建 缓存
下载PDF
SMDFS分布式海量小文件系统的大空间聚合存储技术 被引量:4
19
作者 严巍巍 何连跃 +1 位作者 李三霞 成颖佼 《计算机研究与发展》 EI CSCD 北大核心 2015年第S2期29-34,共6页
海量小文件聚合存储技术大多以目录或逻辑目录为单位,将小文件聚合为实际存储的大文件并建立小文件的元数据信息,实现小文件的快速访问.传统小文件聚合存储技术读写操作性能受目录结构的影响差别较大.在现有研究成果的基础上,分析不同... 海量小文件聚合存储技术大多以目录或逻辑目录为单位,将小文件聚合为实际存储的大文件并建立小文件的元数据信息,实现小文件的快速访问.传统小文件聚合存储技术读写操作性能受目录结构的影响差别较大.在现有研究成果的基础上,分析不同目录结构聚合空间的特征,提出大空间聚合存储技术和元数据分裂技术,为不同目录结构的海量小文件存储提供通用的解决方法,并基于开源分布式文件系统HDFS实现了一个分布式海量小文件系统SMDFS.测试表明,大空间聚合技术能有效支持不同目录结构的海量小文件数据,相较于SMDFS早期版本,小文件数据装载和访问性能均有很大程度的提高. 展开更多
关键词 海量小文件系统 HDFS 聚合存储 元数据分裂 分布式元数据管理
下载PDF
HDFS中高效存储小文件的方法 被引量:10
20
作者 尹颖 林庆 林涵阳 《计算机工程与设计》 北大核心 2015年第2期406-409,共4页
为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一... 为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一块中存储多个小文件,并对系统加以实现,为海量小文件的存储提供了一个有效的解决方案。实验结果表明,该机制可以在数据迅速增长的背景下实现海量小文件的高效存取。 展开更多
关键词 HADOOP分布式文件系统 海量小文件 性能优化 职责分离 合并小文件
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部