-
题名易变数据流的系统资源配置方法
被引量:3
- 1
-
-
作者
王春凯
庄福振
史忠植
-
机构
中国再保险(集团)股份有限公司博士后科研工作站
中国科学院计算技术研究所
-
出处
《智能系统学报》
CSCD
北大核心
2019年第6期1278-1285,共8页
-
基金
国家自然科学基金项目(U1836206,61773361)
中国博士后科学基金项目(2019M650044)
-
文摘
大规模数据流管理系统往往由上层的关系查询系统和下层的流处理系统组成。当用户提交查询请求时,往往需要根据数据流的流速和分布情况动态配置系统参数。然而,由于数据流的易变性,频繁改变参数配置会降低系统性能。针对该问题,提出了OrientStream+框架。设定以用户自定义查询延迟阈值为间隔片段的微批量数据流传输机制;并利用多级别管道缓存,对相同配置的数据流进行批量处理;然后按照数据流的时间戳计算出精准查询结果;引入基于异常检测的增量学习模型,用于提高OrientStream+的预测精度。最后,在Storm上实现了该资源配置框架,并进行了大量的实验。实验结果表明,OrientStream+框架可进一步降低系统的处理延迟并提高系统的吞吐率。
-
关键词
大规模数据流管理系统
易变数据流
增量学习
模型预测
参数配置
微批处理
系统性能
异常检测
-
Keywords
large-scale data stream management system
variable data stream
incremental learning
model prediction
parameter configuration
mini-batch processing
system performance
outlier detection
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-