期刊文献+
共找到271篇文章
< 1 2 14 >
每页显示 20 50 100
基于云计算的流数据集成与服务 被引量:51
1
作者 王桂玲 韩燕波 +1 位作者 张仲妹 朱美玲 《计算机学报》 EI CSCD 北大核心 2017年第1期107-125,共19页
当前,大数据的管理和处理是云基础设施的重点用武之地,而服务是落实云计算环境中各类资源及能力交付和使用模式的主要方式.随着感知设备的普及,系统规模急剧扩张,数据多元异构复杂性提升,流数据并发数量及速度剧增,传统的流数据系统在... 当前,大数据的管理和处理是云基础设施的重点用武之地,而服务是落实云计算环境中各类资源及能力交付和使用模式的主要方式.随着感知设备的普及,系统规模急剧扩张,数据多元异构复杂性提升,流数据并发数量及速度剧增,传统的流数据系统在处理能力、可扩展性、容错性等方面面临瓶颈问题,而云计算技术依靠其良好的可伸缩性、数据的并行化处理能力、对服务使用模式的支持、容错性等特点,可作为流数据管理与处理的基础.基于云计算对来自不同类型设备的大规模流数据进行集成、处理及服务化正是文中关注的焦点所在.从应用需求出发,该文对大规模流数据集成和实时处理及服务的概念框架、集成方法、流数据查询处理、定制化服务、可伸缩性保障和可靠性保障以及相关评测基准等要点进行了剖析,归纳了大规模流数据的集成与服务研究面临的挑战,探讨了云计算环境下求解相关问题的思路. 展开更多
关键词 流数据 云服务 数据服务 云数据集成
下载PDF
大规模用电数据流的快速聚类和异常检测技术 被引量:51
2
作者 王桂兰 周国亮 +1 位作者 赵洪山 米增强 《电力系统自动化》 EI CSCD 北大核心 2016年第24期27-33,共7页
对近年来在电力系统中出现的大规模数据流进行了探讨,目的是利用流式计算技术提高系统的实时性和安全性。针对大规模用电信息采集中用电数据流的快速聚类和异常检测技术展开研究。结合分布式流式计算平台Spark Streaming,基于用电行为... 对近年来在电力系统中出现的大规模数据流进行了探讨,目的是利用流式计算技术提高系统的实时性和安全性。针对大规模用电信息采集中用电数据流的快速聚类和异常检测技术展开研究。结合分布式流式计算平台Spark Streaming,基于用电行为在纵向时间和横向空间上表现出的聚类特性,即同类用户具有相似用电模式和同一用户历史数据具有相似性,设计并实现了流式DBSCAN聚类算法,以实现对大规模用电数据流的快速异常检测。设计并搭建了支持大规模数据流处理的实验环境,证明了算法的有效性。 展开更多
关键词 数据流 聚类 异常检测 流式计算 用电行为
下载PDF
面向大数据分析的在线学习算法综述 被引量:38
3
作者 李志杰 李元香 +2 位作者 王峰 何国良 匡立 《计算机研究与发展》 EI CSCD 北大核心 2015年第8期1707-1721,共15页
大数据时代,越来越多的领域出现了对海量、高速数据进行实时处理的需求.如何对大数据流进行抽取转化成有用的信息并应用于各行各业变得越来越重要.传统的批量机器学习技术在大数据分析的应用中存在许多限制.在线学习技术采用流式计算模... 大数据时代,越来越多的领域出现了对海量、高速数据进行实时处理的需求.如何对大数据流进行抽取转化成有用的信息并应用于各行各业变得越来越重要.传统的批量机器学习技术在大数据分析的应用中存在许多限制.在线学习技术采用流式计算模式,在内存中直接进行数据的实时计算,为流数据的学习提供了有利的工具.介绍了大数据分析的动机与背景,集中展示经典和最新的在线学习方法与算法,这种在线学习体系很有希望解决各种大数据挖掘任务面临的困难与挑战.主要技术内容包括3方面:1)线性模型在线学习;2)基于核的非线性模型在线学习;3)非传统的在线学习方法.各类方法尽量给出详细的模型和伪代码,讨论面向大数据分析的大规模机器学习研究与应用中的关键问题;给出大数据在线学习的3种典型应用场景,并探讨现今或将来在线学习领域进一步的研究方向. 展开更多
关键词 在线学习算法 流数据 大数据分析 监督学习 多任务
下载PDF
基于HBase的交通流数据实时存储系统 被引量:26
4
作者 陆婷 房俊 乔彦克 《计算机应用》 CSCD 北大核心 2015年第1期103-107,135,共6页
交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题。针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统。该系统采用分布式存储架构,通过前端的预处理操作对数据进... 交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题。针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统。该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中。实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能。 展开更多
关键词 流数据 多源缓冲区 数据切分 一致性哈希算法 实时存储 HBASE
下载PDF
基于Spark Streaming流回归的煤矿瓦斯浓度实时预测 被引量:10
5
作者 吴海波 施式亮 念其锋 《中国安全生产科学技术》 CAS CSCD 北大核心 2017年第5期84-89,共6页
为了实时分析瓦斯监测流数据并对瓦斯浓度进行准确预测以实现瓦斯灾害实时预警,以实时流数据处理框架Spark Streaming构建基于流回归的瓦斯浓度实时预测系统。系统采用分布式流处理技术,可使基于回归算法的瓦斯浓度预测模型更新周期达... 为了实时分析瓦斯监测流数据并对瓦斯浓度进行准确预测以实现瓦斯灾害实时预警,以实时流数据处理框架Spark Streaming构建基于流回归的瓦斯浓度实时预测系统。系统采用分布式流处理技术,可使基于回归算法的瓦斯浓度预测模型更新周期达到秒级,提高了瓦斯浓度预测精度,满足流式大数据处理的实时性要求。实验表明:应用Spark Streaming流回归预测系统在采样周期为5s的瓦斯监测数据流上进行实时预测时,预测平均均方根误差随模型更新周期的缩短而减小,模型更新周期可达15s,且更新周期为45s时预测总均方根误差最小,既能保证预测精度,又能提高瓦斯灾害预警时效。 展开更多
关键词 监测数据 流数据 瓦斯浓度 SPARK streaming 流回归 实时预测 灾害预警
下载PDF
一种并行计算的流数据Delaunay构网算法 被引量:12
6
作者 李坚 李德仁 邵振峰 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2013年第7期794-798,共5页
提出了一种流数据算法进行Delaunay三角网构网,用来处理上十亿的LiDAR点云数据。该算法基于并行多核处理器架构,将三角网构网的分治算法与流数据处理相结合。一种四叉树结构用来自适应地划分点云数据文件,并将分割构网和合并子网工作动... 提出了一种流数据算法进行Delaunay三角网构网,用来处理上十亿的LiDAR点云数据。该算法基于并行多核处理器架构,将三角网构网的分治算法与流数据处理相结合。一种四叉树结构用来自适应地划分点云数据文件,并将分割构网和合并子网工作动态调度分布到不同处理器,以提高负载均衡。算法通过并行计算,充分利用多核处理器平台的计算能力,取得了高运行效率和低内存占用。 展开更多
关键词 Delaunay构网 并行计算 流数据 LIDAR点云 四叉树
原文传递
基于在线性能测试的概念漂移检测方法 被引量:12
7
作者 郭虎升 张爱娟 王文剑 《软件学报》 EI CSCD 北大核心 2020年第4期932-947,共16页
概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问... 概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问题,提出一种基于在线性能测试的概念漂移检测方法(concept drift detection method based on online performance test,简称CDPT).该方法将最新获得的数据集进行均匀分组,在每组子数据集上分别进行在线学习,同时记录每组子数据集训练测试得到的分类精度向量,并计算相邻学习时间单元之间的精度落差,依据测试精度下降阈值得到有效波动位点.然后采用交叉检验的方式整合不同分组中的有效波动位点,以消除流数据在线学习过程中由于训练样本过小导致模型不稳定造成的检测干扰,根据精度波动一致性得到一致波动位点.最后,通过跟踪在线学习分类准确率,得到一致波动位点邻域参照点的测试精度变化,比较一致波动位点邻域参照点对应的模型测试精度下降幅度及收敛情况,以有效检测一致波动位点当中真实的概念漂移位点.实验结果表明,该方法能够有效辨识流数据在线学习过程中发生的真实概念漂移,并能有效避免训练样本过小或者流数据中噪声对检测结果的负面影响,同时提高模型的泛化性能. 展开更多
关键词 流数据 概念漂移 交叉检验 有效波动位点 一致波动位点 概念漂移位点
下载PDF
基于时序窗口的概念漂移类别检测 被引量:10
8
作者 郭虎升 任巧燕 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2022年第1期127-143,共17页
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境... 流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window,CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能. 展开更多
关键词 流数据 概念漂移 时序窗口 漂移跨度 概念漂移类别
下载PDF
基于云边端架构的急救医疗设备物联网设计与实现 被引量:7
9
作者 范勇 梁洪 +5 位作者 孙继鹏 张博颖 朱海燕 曹德森 张政波 何昆仑 《生物医学工程学杂志》 EI CAS 北大核心 2023年第1期103-109,117,共8页
物联网技术作为实现业务数字化和智能化的关键基础支撑技术,在智慧医疗中发挥着重要作用。本文探讨了医院内急救医疗设备物联网解决方案,提出基于“云-边-端”架构的急救设备物联网设计方案:端侧实现设备物联,边中进行流数据封装、解析... 物联网技术作为实现业务数字化和智能化的关键基础支撑技术,在智慧医疗中发挥着重要作用。本文探讨了医院内急救医疗设备物联网解决方案,提出基于“云-边-端”架构的急救设备物联网设计方案:端侧实现设备物联,边中进行流数据封装、解析、分发以及计算,云上存储数据并开展数据挖掘可视化等。该系统自从2021年1月在急诊科上线运行以来,已稳定工作近20个月。项目组对近20个月的运行情况作了分析,包括数据采集情况分析、物联网性能测试以及预测预警模型开发等,实施效果验证了基于该技术方案的急救设备物联网系统的可行性和可靠性,能长时间、持续采集急救设备数据并支持机器学习、人工智能算法模型的开发和部署。本文最后对急救设备物联网中医疗设备数据交换、无线传输、院内外急救设备物联以及下一步开展急救设备物联网数据分析应用进行了展望。 展开更多
关键词 急救医学 医疗设备 物联网 流数据
原文传递
一种新的在线流数据异常检测方法 被引量:9
10
作者 丁智国 莫毓昌 杨凡 《计算机科学》 CSCD 北大核心 2016年第10期63-65,80,共4页
流数据的海量、无限、分布动态变化且不均衡等特征使得对流数据的在线异常检测成为当前一个研究热点。分析了异常数据的少而不同且更容易通过随机空间的分割而孤立出来的特征,基于在线集成学习理论,提出了一种基于隔离森林的在线流数据... 流数据的海量、无限、分布动态变化且不均衡等特征使得对流数据的在线异常检测成为当前一个研究热点。分析了异常数据的少而不同且更容易通过随机空间的分割而孤立出来的特征,基于在线集成学习理论,提出了一种基于隔离森林的在线流数据异常检测算法。在4个UCI标准数据集上的实验结果表明提出的方法有效。 展开更多
关键词 流数据 异常检测 隔离森林 在线集成学习
下载PDF
基于电力大数据的实时流数据处理技术研究 被引量:9
11
作者 彭晓平 段琳 +1 位作者 程旭明 胡勇 《电力大数据》 2017年第8期58-60,35,共4页
将对物联网终端报文数据规约解析技术研究,致力于对输电终端采集报文数据进行归于解析;实时/准实时数据接入HBASE技术,将解析后上送至服务端的数据写入Hbase数据库中统一存储,避免数据的分散化;终端实时在线心跳监测技术,实现对在线监... 将对物联网终端报文数据规约解析技术研究,致力于对输电终端采集报文数据进行归于解析;实时/准实时数据接入HBASE技术,将解析后上送至服务端的数据写入Hbase数据库中统一存储,避免数据的分散化;终端实时在线心跳监测技术,实现对在线监测终端进行实时监测。为解决电力流式数据的实时处理和存储问题,对建设电力大数据过程中涉及的技术进行研究。高效而可靠的完成电力大数据的处理,及时响应上层应用,快速完成输电设备性能评估。 展开更多
关键词 实时处理:流式数据 批处理
下载PDF
传感器网络中协作实时数据库事务的提交控制 被引量:4
12
作者 胡侃 刘云生 《计算机学报》 EI CSCD 北大核心 2007年第6期916-923,共8页
传统的事务模型由于其严格的ACID特性无法适应传感器网络中协作事务的实时性要求.因此着重研究传感器网络中协作实时数据库事务的提交机制.首先,分析传感器网络中实时数据库应用的协作特性,放松事务的严格ACID要求,运用控制区域的概念... 传统的事务模型由于其严格的ACID特性无法适应传感器网络中协作事务的实时性要求.因此着重研究传感器网络中协作实时数据库事务的提交机制.首先,分析传感器网络中实时数据库应用的协作特性,放松事务的严格ACID要求,运用控制区域的概念提出一种基于事务的行为语义控制区域的事务模型.然后,给出该模型的提交、回滚、可见规则及能保证数据库一致性和协作事务实时性的三阶段提交协议,并通过补偿事务保证外化信息准确性.性能测试表明,该模型及提交机制提高了采集数据的外化率和协作实时事务的成功率. 展开更多
关键词 实时数据库事务 事务模型 协作事务提交 流数据 无线传感器网络
下载PDF
基于Storm的流数据KNN分类算法的研究与实现 被引量:7
13
作者 周志阳 冯百明 +1 位作者 杨朋霖 温向慧 《计算机工程与应用》 CSCD 北大核心 2017年第19期71-75,97,共6页
KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类。近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据。考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以... KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类。近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据。考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以及流处理系统Storm对流数据处理具有实时性、可靠性的特点,提出了基于Storm的流数据KNN分类算法,该算法首先对整个样本集进行划分,形成多个片集,然后计算出待分类向量在各片集上的K近邻,最后再将所有片集K近邻归约得出整体K近邻,实现待分类向量的分类。实验结果表明,基于Storm的流数据KNN分类算法能够满足大数据背景下对流数据分类的高吞吐量、可扩展性、实时性和准确性的要求。 展开更多
关键词 STORM KNN算法 流数据 大数据 数据划分
下载PDF
基于流数据的动态存储技术 被引量:4
14
作者 刘佳 张毅 《燕山大学学报》 CAS 2005年第4期344-347,共4页
对比了传统的数据与流数据的存储方法,并总结了现有流数据存储方式的优缺点,在继承了双向流的优点基础上,针对多数据源、多查询及多级存储建立了一个新的流数据处理系统模型,给出了解决历史数据存储的几种方案,更加突出了“实时性与历... 对比了传统的数据与流数据的存储方法,并总结了现有流数据存储方式的优缺点,在继承了双向流的优点基础上,针对多数据源、多查询及多级存储建立了一个新的流数据处理系统模型,给出了解决历史数据存储的几种方案,更加突出了“实时性与历史性结合”的特点,同时满足了历史数据查询的需要,实现了流数据的动态存储策略。 展开更多
关键词 流数据 动态存储 历史数据
下载PDF
基于ELK+Kafka的智慧运维大数据分析平台研究与实现 被引量:7
15
作者 阮晓龙 贺路路 《软件导刊》 2020年第6期150-154,共5页
基于ELK在智慧运维大数据分析平台实现海量数据分析,对ELK的部署结构进行优化,并在日志采集和日志处理中间增加Kafka消息处理队列,减轻Logstash压力,增加集群高可用性。通过Logstash的Filter插件利用正则表达式实现日志数据拆分,将拆分... 基于ELK在智慧运维大数据分析平台实现海量数据分析,对ELK的部署结构进行优化,并在日志采集和日志处理中间增加Kafka消息处理队列,减轻Logstash压力,增加集群高可用性。通过Logstash的Filter插件利用正则表达式实现日志数据拆分,将拆分后的字段在Elasticsearch中存储,最终利用Kibana对日志数据进行搜索、绘图和展示。使用基于ELK的智慧运维大数据平台解决了运维过程中日志采集、日志处理、日志可视化问题,同时在数据处理上实现了接近1s的延迟搜索。 展开更多
关键词 ELK Kafka 日志分析 大数据 流式数据
下载PDF
动态滑动窗口加权互信息流特征选择 被引量:7
16
作者 程玉胜 李雨 +1 位作者 王一宾 陈飞 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第5期974-985,共12页
特征选择是解决数据高维性的一种有效方法,传统的特征选择算法常用经典信息论知识去度量特征的重要度,却忽略了标记和未标记数据的互相影响;同时,这些方法主要基于静态数据的多标记特征选择,很难直接应用到动态流数据环境中.而现实世界... 特征选择是解决数据高维性的一种有效方法,传统的特征选择算法常用经典信息论知识去度量特征的重要度,却忽略了标记和未标记数据的互相影响;同时,这些方法主要基于静态数据的多标记特征选择,很难直接应用到动态流数据环境中.而现实世界中,由于动态环境之下特征到达的数目和顺序都是未知的,并且研究者往往可能只对最近到达的特征感兴趣,所以滑动窗口机制能很好地解决此类问题.基于此,首先引入一种具有补性质的模糊信息熵,并考虑标记和未标记数据的互相影响,提出一种加权的模糊互信息度量方法,然后结合滑动窗口机制,分别提出基于固定滑动窗口的加权模糊互信息特征选择(Feature Selection with Weighted Fuzzy Mutual Information based on Sliding Window,FS-FMI)和基于动态滑动窗口的加权模糊互信息流特征选择(Streaming Feature Selection with Weighted Fuzzy Mutual Information based on Dynamic Sliding Window,SFS-FMI-DSW)两种算法.实验结果表明,SFS-FMI-DSW算法更加有效,统计假设进一步说明了算法的有效性. 展开更多
关键词 特征选择 滑动窗口 流数据 多标记 模糊互信息
下载PDF
结合滑动窗口与模糊互信息的多标记流特征选择 被引量:7
17
作者 程玉胜 李雨 +1 位作者 王一宾 陈飞 《小型微型计算机系统》 CSCD 北大核心 2019年第2期320-327,共8页
特征选择是处理高维度问题的一种有效方法,而传统的大部分算法都基于静态的特征空间.但是有些问题其特征空间和标记空间均呈现增量或动态的特点,传统的特征选择算法不再适用.针对这一问题,结合滑动窗口机制,本文提出了结合滑动窗口与模... 特征选择是处理高维度问题的一种有效方法,而传统的大部分算法都基于静态的特征空间.但是有些问题其特征空间和标记空间均呈现增量或动态的特点,传统的特征选择算法不再适用.针对这一问题,结合滑动窗口机制,本文提出了结合滑动窗口与模糊互信息的多标记流特征选择;同时,为了减弱互信息对特征重要程度的判断,对模糊互信息进行正则化处理,并通过正则化重新优化特征重要度目标函数.提出的算法在多标记数据集上进行了大量测试,实验结果和统计假设检验说明本文算法是有效的. 展开更多
关键词 模糊互信息 多标记学习 数据流 特征选择
下载PDF
瓦斯浓度流数据实时异常检测方法 被引量:4
18
作者 吴海波 施式亮 念其锋 《计算机与数字工程》 2019年第5期1086-1090,1105,共6页
为了实时分析与检测矿井瓦斯浓度流数据中的异常以提高瓦斯灾害实时风险评价的准确率,采用流回归机器学习算法与正态统计分布技术相结合的方法来建立瓦斯浓度流数据异常检测模型,并以基于内存的分布式流处理框架Spark Streaming构建了... 为了实时分析与检测矿井瓦斯浓度流数据中的异常以提高瓦斯灾害实时风险评价的准确率,采用流回归机器学习算法与正态统计分布技术相结合的方法来建立瓦斯浓度流数据异常检测模型,并以基于内存的分布式流处理框架Spark Streaming构建了瓦斯浓度异常实时检测系统。实验表明:基于流回归与统计分析技术的瓦斯浓度异常实时检测系统能定期更新异常检测模型,在异常检测模型更新周期为45s,异常阈值为0.05时,异常检测数与箱线图异常分析法检测异常数一致,但能实时判断流数据中的异常,提高了瓦斯风险评价时效。 展开更多
关键词 瓦斯浓度 流数据 异常检测 实时 流回归 SPARK streaming
下载PDF
基于决策树的流数据分类算法综述 被引量:6
19
作者 韩成成 增思涛 +2 位作者 林强 曹永春 满正行 《西北民族大学学报(自然科学版)》 2020年第2期20-30,共11页
流数据是一种有别于传统静态数据的新的数据形态,随着时间的推移而不断产生,而且富含变化.流数据分类是数据挖掘的研究分支,用于发现数据中隐含的模式并实现数据的类别划分,通常将每一个类别称作概念.将传统决策树算法引入流数据分类,... 流数据是一种有别于传统静态数据的新的数据形态,随着时间的推移而不断产生,而且富含变化.流数据分类是数据挖掘的研究分支,用于发现数据中隐含的模式并实现数据的类别划分,通常将每一个类别称作概念.将传统决策树算法引入流数据分类,针对流数据的特征提出特定的分类算法,是流数据分类的一个主要研究分支.为了全面介绍基于决策树的流数据分类算法,首先,简要概述数据挖掘及主要任务、决策树及其主要算法、流数据及其主要特性;然后,按照算法是否考虑概念漂移问题,将现有工作划分为包含概念漂移的流数据分类算法和不含概念漂移的流数据分类算法两大类,分别介绍每一类算法的主要算法流程、优缺点和典型应用;最后,指出基于决策树的流数据分类的进一步研究方向. 展开更多
关键词 数据挖掘 数据分类 流数据 决策树
下载PDF
基于水车模型的时序大数据快速存储 被引量:2
20
作者 陆铭琛 吕晏齐 +1 位作者 刘睿诚 金培权 《计算机科学》 CSCD 北大核心 2023年第1期25-33,共9页
近年来,随着物联网的高速发展,传感器部署的规模日益壮大。大规模的传感器每秒都会产生大量数据流,并且数据的价值会随着时间的流逝逐渐降低。因此,存储系统不仅需要能承受高速到达的数据流带来的写入压力,还需要以最快的速度将数据持久... 近年来,随着物联网的高速发展,传感器部署的规模日益壮大。大规模的传感器每秒都会产生大量数据流,并且数据的价值会随着时间的流逝逐渐降低。因此,存储系统不仅需要能承受高速到达的数据流带来的写入压力,还需要以最快的速度将数据持久化,以供后续的查询和分析。这对存储系统的写入性能提出了更高的要求。基于水车模型的快速存储系统可以满足大数据应用场景下的高速时序数据流快速存储需求。该系统部署在高速时序数据流和底层存储节点之间,利用多个数据桶构建一个逻辑上轮转的存储模型(类似于中国古代的水车),并且通过控制每个数据桶的状态来协调数据的写入和落盘。水车模型将数据桶分配给不同的底层存储节点,从而将瞬时写入压力均摊到多个底层存储节点上,并借助多节点的并行写入提高写吞吐。水车模型被部署在单机版MongoDB上,并和分布式MongoDB进行了实验对比。实验结果表明,水车模型可以有效提升系统的写吞吐,降低写入延迟,并且具有良好的横向可扩展性。 展开更多
关键词 时序大数据 流式数据 快速存储 水车模型 中间件
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部