-
题名轻量级大数据运算系统Helius
被引量:1
- 1
-
-
作者
丁梦苏
陈世敏
-
机构
计算机体系结构国家重点实验室(中国科学院计算技术研究所)
-
出处
《计算机应用》
CSCD
北大核心
2017年第2期305-310,共6页
-
基金
中国科学院"百人计划"项目
国家自然科学基金面上项目(61572468)
国家自然科学基金创新群体项目(61521092)~~
-
文摘
针对Spark数据集不可变,以及Java虚拟机(JVM)依赖环境引起的代码执行、内存管理、数据序列化/反序列化等开销过多的不足,采用C/C++语言,设计并实现了一种轻量级的大数据运算系统——Helius。Helius支持Spark的基本操作,同时允许数据集整体修改;同时,Helius利用C/C++优化内存管理和网络传输,并采用stateless worker机制简化分布式计算平台的容错恢复过程。实验结果显示:5次迭代中,Helius运行PageRank算法的时间仅为Spark的25.12%~53.14%,运行TPCH Q6的时间仅为Spark的57.37%;在PageRank迭代1次的基础上,运行在Helius系统下时,master节点IP接收和发送数据量约为运行于Spark系统的40%和15%,而且200 s的运行过程中,Helius占用的总内存约为Spark的25%。实验结果与分析表明,与Spark相比,Helius具有节约内存、不需要序列化和反序列化、减少网络交互以及容错简单等优点。
-
关键词
内存计算
大数据运算
分布式计算
有向无环图调度
容错恢复
-
Keywords
in-memory computation
big data processing
distributed computation
Directed Acyclic Graph (DAG) scheduling
fault tolerance and recovery
-
分类号
TP311.133.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名大规模时空图数据存储和分析的优化方法
- 2
-
-
作者
丁梦苏
杨慕乔
陈世敏
-
机构
中国科学院计算技术研究所
中国科学院大学计算机科学与技术学院
College of Electrical and Computer Engineering
-
出处
《高技术通讯》
CAS
2023年第2期124-134,共11页
-
基金
国家自然科学基金(62172390)
华为创新项目(HO2017050001B5)
王宽诚教育基金资助项目。
-
文摘
时空图数据在数据量和数据更新速率两方面具有独特的特征,可以用来优化存储和查询分析。然而,现有的成熟的大数据存储和分析系统提供统一化的支持,没有考虑结合数据特征和查询特征做针对性的优化,因而无法很好地应对大规模数据的挑战,存储和分析能力都有待加强。本文利用时空图数据的数据特征,提出了针对不同类型的顶点和边的差异化存储方案;利用时空图数据的查询特征,提出了差异化的存储布局和基于此的查询执行优化方案。实验结果表明,和现有方案相比,本研究提出的优化方法能减少1.7~5.4倍的存储空间,查询性能可以提高1~4个数量级。
-
关键词
时空图存储
时空图查询
大数据存储
大数据分析
-
Keywords
spatio-temporal graph storage
spatio-temporal graph query
big data storage
big data analysis
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-