期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
HDFS中海量小文件合并与预取优化方法的研究 被引量:13
1
作者 郑通 郭卫斌 范贵生 《计算机科学》 CSCD 北大核心 2017年第B11期516-519,541,共5页
HDFS在存储海量文件时具有明显的优势,但在存储小文件占绝大多数的海量文件时,HDFS单个NameNode的存储架构会导致其性能严重降低。为此,提出一种基于合并思想的方案,即将小文件合并为大文件,同时建立小文件到合并文件的映射关系,并将其... HDFS在存储海量文件时具有明显的优势,但在存储小文件占绝大多数的海量文件时,HDFS单个NameNode的存储架构会导致其性能严重降低。为此,提出一种基于合并思想的方案,即将小文件合并为大文件,同时建立小文件到合并文件的映射关系,并将其存于HBase中。为了提高读取速度,建立了基于LRU的预取机制。实验表明,该方法能明显提高HDFS在处理海量文件时的整体性能。 展开更多
关键词 HDFS 海量文件 合并 映射 LRU 预取机制
下载PDF
曙光星云分布式文件系统:海量小文件存取 被引量:9
2
作者 马灿 孟丹 熊劲 《小型微型计算机系统》 CSCD 北大核心 2012年第7期1481-1488,共8页
随着互联网应用的发展和云计算的兴起,在线图片、音频、视频以及微博等服务逐渐广泛发展,这些应用展示了与传统应用截然不同的数据访问和存储模式.数据中心内每秒钟都有大量较小文件的生成、分析和返回,这些应用对高并发海量文件的高吞... 随着互联网应用的发展和云计算的兴起,在线图片、音频、视频以及微博等服务逐渐广泛发展,这些应用展示了与传统应用截然不同的数据访问和存储模式.数据中心内每秒钟都有大量较小文件的生成、分析和返回,这些应用对高并发海量文件的高吞吐、低延迟读写提出了新的挑战.提出基于分布式表存储的全新的分布式文件系统HVFS来管理数以十亿计的文件,并同时支持高吞吐和低延迟的文件访问.HVFS通过改进分布式可扩展哈希来管理元数据、日志结构的格式和列存储来利用时空局部性.本文描述了HVFS的设计和实现并进行了中等规模的实验.实验显示HVFS的表存储结构能够线性的扩展,并在82个结点上提供超过240,000次/秒、100,000次/秒的数据(<1KB)写和读;基于FUSE的实现在32个节点上提供超过180,000个/秒的文件创建速度. 展开更多
关键词 分布式文件系统 全局名字空间 海量文件 文件访问 表存储
下载PDF
VC中海量文件读写类设计与应用
3
作者 沈瑞冰 《电脑编程技巧与维护》 2007年第9期13-18,共6页
本文阐述了海量文件读写方法及其内存耗尽问题和解决办法,并就此设计了一个海量文件读写类,封装了海量文件读写操作,最后给出了一个应用实例。
关键词 VC 海量文件 封装
下载PDF
面向医疗场景的海量文件存储系统研究 被引量:1
4
作者 王红迁 吴昊 +2 位作者 汪鹏 黄荣 周琳 《中国卫生信息管理杂志》 2022年第3期412-415,共4页
目的构建面向医疗领域的海量文件存储系统,帮助医护人员高效安全地存储医疗数据。方法研究常见的文件存储系统的缺点,设计采用基于Hadoop、Kafka、Redis、Mysql等技术构建一个海量大小文件存储平台。结果实现了在医疗场景下,除了患者诊... 目的构建面向医疗领域的海量文件存储系统,帮助医护人员高效安全地存储医疗数据。方法研究常见的文件存储系统的缺点,设计采用基于Hadoop、Kafka、Redis、Mysql等技术构建一个海量大小文件存储平台。结果实现了在医疗场景下,除了患者诊疗数据之外的相关数据的安全存储,精准地为医护人员提供数据存储服务。结论海量文件存储系统可实现对多样、海量大小文件高效精准的存储,解决了目前多院区、多科室、多医生等场景下文件存储困难的问题。 展开更多
关键词 海量文件 数据存储 Hadoop相关技术 医疗场景
下载PDF
面向大规模金融对账文件的近似比对模型及系统
5
作者 尹祥龙 王伟 +4 位作者 陈煜 周继恩 任明 徐景良 万鑫明 《计算机系统应用》 2016年第4期86-90,共5页
针对TB级的大规模金融对账文件的近似比对问题,本文深入分析了金融对账文件的特点,以提升比对速度作为研究目标,提出了一种多层次的近似比对模型—Up Compare模型.Up Compare模型以多进程为扩展基础,采用哈希索引建立映射表结合快速致... 针对TB级的大规模金融对账文件的近似比对问题,本文深入分析了金融对账文件的特点,以提升比对速度作为研究目标,提出了一种多层次的近似比对模型—Up Compare模型.Up Compare模型以多进程为扩展基础,采用哈希索引建立映射表结合快速致胜策略为核心算法.测试结果表明,运用Up Compare模型,我国银行卡清算系统的每日清算文件近似比对效率提升了5倍以上. 展开更多
关键词 海量文件 金融对账文件 近似比对 哈希索引
下载PDF
分布式文件系统K-DFS的设计与实现 被引量:3
6
作者 方君 陈华平 +1 位作者 宋浒 刘晓茜 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第S1期11-13,19,共4页
设计并实现了一个可应用于CNGrid(中国国家网格)的分布式文件系统——K-DFS(Keda分布文件系统),该系统可以管理大量的存储节点并同时向多用户提供远程文件访问服务.K-DFS通过跟踪器的监控和管理,有效地解决了多存储节点的访问和同步问题... 设计并实现了一个可应用于CNGrid(中国国家网格)的分布式文件系统——K-DFS(Keda分布文件系统),该系统可以管理大量的存储节点并同时向多用户提供远程文件访问服务.K-DFS通过跟踪器的监控和管理,有效地解决了多存储节点的访问和同步问题,并实现了负载均衡的功能,避免数据集中于少量存储服务器中.通过副本冗余存储技术,K-DFS保障了远程文件的安全性,有效防止了由于存储节点宕机导致的文件丢失问题.同时,K-DFS具有良好的可扩展性,可以动态地增加存储节点,支持Windows和Linux平台的多种应用,特别适合各种以文件为载体的网络服务. 展开更多
关键词 分布式 文件系统 海量文件存储 数据副本 同步
原文传递
一种基于哈希散列技术进行文件对象存储和检索的方法——---海量文件系统数据访问和检索性能加速研究 被引量:1
7
作者 冷迪 《中国新通信》 2018年第23期106-107,共2页
本文基于哈希散列技术提出了一种用于在文件系统内生成子目录散列槽,且通过唯一标识符标志每个子目录散列槽并在文件系统内快速接收文件,文件名散列以生成散列值,以提升主流文件系统的单个子目录所能支持的文件数量级,并且加快海量文件... 本文基于哈希散列技术提出了一种用于在文件系统内生成子目录散列槽,且通过唯一标识符标志每个子目录散列槽并在文件系统内快速接收文件,文件名散列以生成散列值,以提升主流文件系统的单个子目录所能支持的文件数量级,并且加快海量文件条件下的文件检索和读写。 展开更多
关键词 哈希 散列技术 散列槽 海量文件检索
下载PDF
海量教育资源中小文件的存储研究 被引量:16
8
作者 游小容 曹晟 《计算机科学》 CSCD 北大核心 2015年第10期76-80,共5页
Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成... Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成大文件以减少文件数量,并用索引机制访问小文件及元数据缓存和关联小文件预取机制来提高文件的读取效率。实验证明,以上方法提高了Hadoop文件系统对小文件的存取效率。 展开更多
关键词 海量文件 文件合并 预取缓存
下载PDF
HDFS中高效存储小文件的方法 被引量:10
9
作者 尹颖 林庆 林涵阳 《计算机工程与设计》 北大核心 2015年第2期406-409,共4页
为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一... 为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一块中存储多个小文件,并对系统加以实现,为海量小文件的存储提供了一个有效的解决方案。实验结果表明,该机制可以在数据迅速增长的背景下实现海量小文件的高效存取。 展开更多
关键词 HADOOP分布式文件系统 海量文件 性能优化 职责分离 合并小文件
下载PDF
FlatLFS:一种面向海量小文件处理优化的轻量级文件系统 被引量:9
10
作者 付松龄 廖湘科 +2 位作者 黄辰林 王蕾 李姗姗 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第2期120-126,共7页
海量小文件的高效存储和访问是当前分布式文件系统面临的主要挑战之一。以GFS和HDFS为代表的分布式文件系统大多面向海量大文件的高效存储和访问设计,缺乏小文件处理的针对性优化,导致访问海量小文件时效率低下。针对分布式文件系统中... 海量小文件的高效存储和访问是当前分布式文件系统面临的主要挑战之一。以GFS和HDFS为代表的分布式文件系统大多面向海量大文件的高效存储和访问设计,缺乏小文件处理的针对性优化,导致访问海量小文件时效率低下。针对分布式文件系统中海量小文件访问时的数据服务器优化问题,提出了一种采用扁平式数据存储方法的轻量级文件系统FlatLFS,取代传统文件系统对上层分布式文件系统提供数据存储和访问支持,提高了数据服务器处理小数据块时的I/O性能,从而提升了整个分布式文件系统的性能。实验表明,当数据块大小设定为1M时,FlatLFS的随机读性能分别比ext3、ext4、reiserfs高135%、112%和122%。 展开更多
关键词 分布式文件系统 海量文件 ext文件系统 云计算
下载PDF
海洋观测资料共享服务平台设计与实现 被引量:6
11
作者 高通 王慧 向先全 《海洋信息》 2020年第3期1-10,37,共11页
所述的海洋观测资料共享服务平台在海洋信息化建设前期成果的基础上,充分加载、共享了业务化海洋观测获取的数据资源,提出一种基于云平台的海量小文件存储模型,设计相关流程并实现了海量小文件的即时监测转发,同时也实现了多种形式的数... 所述的海洋观测资料共享服务平台在海洋信息化建设前期成果的基础上,充分加载、共享了业务化海洋观测获取的数据资源,提出一种基于云平台的海量小文件存储模型,设计相关流程并实现了海量小文件的即时监测转发,同时也实现了多种形式的数据可视化服务以及数据的快速检索、浏览和打包下载等功能。平台目前已在国家海洋信息通信专网部署运行,为沿海各省区市的海洋数据管理机构和相关国家业务中心提供服务。 展开更多
关键词 海洋观测资料 数据共享 海量文件 存储模型 即时监测转发
下载PDF
HDFS下海量小文件高效存储与索引方法 被引量:5
12
作者 肖玉泽 张利军 +2 位作者 潘巍 张小芳 李战怀 《小型微型计算机系统》 CSCD 北大核心 2015年第10期2218-2223,共6页
分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗Name Node内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以... 分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗Name Node内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以便于查询.本文针对以上问题,提出一种基于多维列索引的小文件管理方案,支持文件的并发上传、下载及删除操作,并在多个查询维度上提供文件的自由检索.本文提出的小文件合并方案能够明显减少HDFS上的文件数量,经过实验对比,在小文件元信息的查询效率方面,本文提出的多维索引方案优于HBase,同时保证了文件传输的吞吐量. 展开更多
关键词 HDFS 海量文件 多维列索引 文件信息查询
下载PDF
基于EHDFS的海量小文件存储与检索方法 被引量:5
13
作者 李文武 张建锋 王景林 《计算机工程与设计》 北大核心 2022年第2期376-383,共8页
为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案。存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode... 为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案。存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode内存开销。检索阶段,改进MapFile映射关系结构、索引存储位置与组成元素以建立新的文件索引模型,避免跨跃式文件搜索,实现小文件的集中检索。实验结果表明,对比多种大数据存储模型,在不同数据量的分组压力测试下,该方案有效提高了HDFS的存取效率。 展开更多
关键词 海量文件 EHDFS架构 最优化合并存储模型 MapFile映射关系结构 文件索引模型
下载PDF
海量小文件系统的可移植操作系统接口兼容技术 被引量:5
14
作者 陈博 何连跃 +2 位作者 严巍巍 徐照淼 徐俊 《计算机应用》 CSCD 北大核心 2018年第5期1389-1392,1398,共5页
基于Hadoop分布式文件系统(HDFS)研发的海量小文件系统(SMDFS)遗留了HDFS不兼容可移植操作系统接口(POSIX)约束的问题,为解决SMDFS的这一问题,提出基于本地缓存的POSIX兼容技术和基于数据暂存区的元数据高效管理技术。首先,通... 基于Hadoop分布式文件系统(HDFS)研发的海量小文件系统(SMDFS)遗留了HDFS不兼容可移植操作系统接口(POSIX)约束的问题,为解决SMDFS的这一问题,提出基于本地缓存的POSIX兼容技术和基于数据暂存区的元数据高效管理技术。首先,通过设置数据暂存区来实现读写模式文件流的重定向,然后建立异步线程池模型,实现数据暂存区镜像文件的同步,从而完成用户层到存储层的所有POSIX相关的文件操作。此外,借助跳表结构的元数据缓存实现List目录等元数据操作效率优化。测试表明,相较于HDFS的Linux客户端,基于技术成果实现的SMDFS3.0的随机读性能有10倍以上的性能提升,顺序读和顺序写性能有约3~4倍的提升,随机写性能可以达到本地文件系统的20%,基于目录的元数据缓存的设计使目录的List操作效率提升近10倍。但是,由于用户空间文件系统(FUSE)挂栽的客户端会引入额外的内核态和用户态切换等带来的开销,因此SMDFS3.0的Linux客户端相对于系统的Java接口会有大约50%的性能损耗。 展开更多
关键词 海量文件系统 分布式文件系统 可移植操作系统接口兼容 元数据缓存 云存储
下载PDF
IC设计中高性能NAS存储选型和建设最佳实践
15
作者 王光辉 《中国集成电路》 2024年第10期40-43,共4页
本文阐述了存储子系统在IC设计平台中的重要性,针对IC设计平台,需要哪些功能和遇到的痛点,如何选型和建设。
关键词 NAS(网络附属存储) 海量文件 大带宽 NFS(网络文件系统)
下载PDF
分布式技术在大模型训练和推理中的应用
16
作者 郑纬民 《大数据》 2024年第5期1-10,共10页
近几年,人工智能被广泛应用于多个领域,大语言模型(以下简称大模型)的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环,为大模型的发展助力。在数据获取环节,针对海量小文件的存储问题,研发了文件系统S... 近几年,人工智能被广泛应用于多个领域,大语言模型(以下简称大模型)的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环,为大模型的发展助力。在数据获取环节,针对海量小文件的存储问题,研发了文件系统SuperFS,能够同时满足低延迟和可扩展的要求。在数据预处理环节,针对从分布式文件系统读取数据开销大的问题,研发了高效大数据处理引擎“诸葛弩”。在模型训练环节,针对检查点文件读写性能差的问题,提出了分布式检查点策略,加快了检查点文件的读写速度。在模型推理环节,针对KVCache对存储系统的挑战,研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分布式技术的应用,使大模型能够充分利用计算资源,加快训练速度,有利于人工智能领域的发展。 展开更多
关键词 分布式技术 大模型 海量文件 大数据处理引擎 检查点 KVCache
下载PDF
医疗PACS影像系统的数据存储性能优化
17
作者 尤丽珏 焦圣品 李小勇 《上海交通大学学报》 EI CAS CSCD 北大核心 2024年第10期1629-1636,共8页
医疗影像归档与通信系统(PACS)影像数据是典型的海量小文件场景,其面临的挑战主要为高效的海量元数据管理和有效解决碎片化导致的性能下降.通过分析医疗PACS影像存储系统路径的全IO(input/output)各个关键环节,从PACS软件调阅算法、存... 医疗影像归档与通信系统(PACS)影像数据是典型的海量小文件场景,其面临的挑战主要为高效的海量元数据管理和有效解决碎片化导致的性能下降.通过分析医疗PACS影像存储系统路径的全IO(input/output)各个关键环节,从PACS软件调阅算法、存储协议网关高并发设计、小文件聚合以及数据存储服务并发模型4个维度进行优化设计,实现对PACS调阅性能的大幅提升.实际测试表明,优化设计后PACS影像系统的调阅性能可达到每秒300幅图像,为传统存储调阅速度的3倍以上,有效解决了PACS影像数据调阅卡顿的问题. 展开更多
关键词 海量文件 PACS影像 分布式存储 性能优化
下载PDF
SMDFS分布式海量小文件系统的大空间聚合存储技术 被引量:4
18
作者 严巍巍 何连跃 +1 位作者 李三霞 成颖佼 《计算机研究与发展》 EI CSCD 北大核心 2015年第S2期29-34,共6页
海量小文件聚合存储技术大多以目录或逻辑目录为单位,将小文件聚合为实际存储的大文件并建立小文件的元数据信息,实现小文件的快速访问.传统小文件聚合存储技术读写操作性能受目录结构的影响差别较大.在现有研究成果的基础上,分析不同... 海量小文件聚合存储技术大多以目录或逻辑目录为单位,将小文件聚合为实际存储的大文件并建立小文件的元数据信息,实现小文件的快速访问.传统小文件聚合存储技术读写操作性能受目录结构的影响差别较大.在现有研究成果的基础上,分析不同目录结构聚合空间的特征,提出大空间聚合存储技术和元数据分裂技术,为不同目录结构的海量小文件存储提供通用的解决方法,并基于开源分布式文件系统HDFS实现了一个分布式海量小文件系统SMDFS.测试表明,大空间聚合技术能有效支持不同目录结构的海量小文件数据,相较于SMDFS早期版本,小文件数据装载和访问性能均有很大程度的提高. 展开更多
关键词 海量文件系统 HDFS 聚合存储 元数据分裂 分布式元数据管理
下载PDF
面向海量存储的文件系统评测基准 被引量:4
19
作者 李鑫 李战怀 张晓 《计算机工程》 CAS CSCD 北大核心 2011年第15期55-57,共3页
为满足海量存储文件系统级性能评测需求,开发一个通用的符合POSIX.1标准的文件系统基准评测工具LZpack,可为不同文件系统的性能评测比较提供一种有效的方法,也可为使用文件系统操作API集合的应用程序设计者提供性能评价的依据。LZpack... 为满足海量存储文件系统级性能评测需求,开发一个通用的符合POSIX.1标准的文件系统基准评测工具LZpack,可为不同文件系统的性能评测比较提供一种有效的方法,也可为使用文件系统操作API集合的应用程序设计者提供性能评价的依据。LZpack采用集群评测的评测架构,可以对文件I/O性能及元数据操作性能进行准确评测。对LZpack的系统结构和关键问题进行描述,对使用LZpack在不同文件系统上的测试结果进行分析,提出LZpack下一步的改进思路。 展开更多
关键词 海量存储文件系统 性能测试 集群评测 元数据操作测试
下载PDF
一种面向HDFS中海量小文件的存取优化方法 被引量:3
20
作者 顾玉宛 王文闻 孙玉强 《计算机应用研究》 CSCD 北大核心 2017年第8期2319-2323,共5页
为了解决HDFS(Hadoop distributed file system)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的... 为了解决HDFS(Hadoop distributed file system)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的关联关系,然后根据文件相关性将相关联的小文件合并成大文件后再存储到HDFS。从HDFS中读取数据时,根据文件之间的相关性,对接下来用户最有可能访问的文件进行预取,减少了客户端对NameNode节点的访问次数,提高了文件命中率和处理速度。实验结果证明,该方法有效提升了Hadoop对小文件的存取效率,降低了NameNode节点的内存占用率。 展开更多
关键词 海量文件 文件相关性 合并 预取
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部