期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
轻量级大数据运算系统Helius 被引量:1
1
作者 陈世敏 《计算机应用》 CSCD 北大核心 2017年第2期305-310,共6页
针对Spark数据集不可变,以及Java虚拟机(JVM)依赖环境引起的代码执行、内存管理、数据序列化/反序列化等开销过多的不足,采用C/C++语言,设计并实现了一种轻量级的大数据运算系统——Helius。Helius支持Spark的基本操作,同时允许数据集... 针对Spark数据集不可变,以及Java虚拟机(JVM)依赖环境引起的代码执行、内存管理、数据序列化/反序列化等开销过多的不足,采用C/C++语言,设计并实现了一种轻量级的大数据运算系统——Helius。Helius支持Spark的基本操作,同时允许数据集整体修改;同时,Helius利用C/C++优化内存管理和网络传输,并采用stateless worker机制简化分布式计算平台的容错恢复过程。实验结果显示:5次迭代中,Helius运行PageRank算法的时间仅为Spark的25.12%~53.14%,运行TPCH Q6的时间仅为Spark的57.37%;在PageRank迭代1次的基础上,运行在Helius系统下时,master节点IP接收和发送数据量约为运行于Spark系统的40%和15%,而且200 s的运行过程中,Helius占用的总内存约为Spark的25%。实验结果与分析表明,与Spark相比,Helius具有节约内存、不需要序列化和反序列化、减少网络交互以及容错简单等优点。 展开更多
关键词 内存计算 大数据运算 分布式计算 有向无环图调度 容错恢复
下载PDF
大规模时空图数据存储和分析的优化方法
2
作者 杨慕乔 陈世敏 《高技术通讯》 CAS 2023年第2期124-134,共11页
时空图数据在数据量和数据更新速率两方面具有独特的特征,可以用来优化存储和查询分析。然而,现有的成熟的大数据存储和分析系统提供统一化的支持,没有考虑结合数据特征和查询特征做针对性的优化,因而无法很好地应对大规模数据的挑战,... 时空图数据在数据量和数据更新速率两方面具有独特的特征,可以用来优化存储和查询分析。然而,现有的成熟的大数据存储和分析系统提供统一化的支持,没有考虑结合数据特征和查询特征做针对性的优化,因而无法很好地应对大规模数据的挑战,存储和分析能力都有待加强。本文利用时空图数据的数据特征,提出了针对不同类型的顶点和边的差异化存储方案;利用时空图数据的查询特征,提出了差异化的存储布局和基于此的查询执行优化方案。实验结果表明,和现有方案相比,本研究提出的优化方法能减少1.7~5.4倍的存储空间,查询性能可以提高1~4个数量级。 展开更多
关键词 时空图存储 时空图查询 大数据存储 大数据分析
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部