期刊文献+
共找到1,258篇文章
< 1 2 63 >
每页显示 20 50 100
数据流频繁模式挖掘研究进展 被引量:34
1
作者 潘云鹤 王金龙 徐从富 《自动化学报》 EI CSCD 北大核心 2006年第4期594-602,共9页
现实世界和工程实践产生了大量的数据流,这种数据不同于传统的静态数据,对其进行有效处理和挖掘遇到了极大的挑战.如何使用有限存储空间进行快速和近似的频繁模式挖掘是数据流挖掘的基本问题,具有非常重要的研究价值和实践意义,已经引... 现实世界和工程实践产生了大量的数据流,这种数据不同于传统的静态数据,对其进行有效处理和挖掘遇到了极大的挑战.如何使用有限存储空间进行快速和近似的频繁模式挖掘是数据流挖掘的基本问题,具有非常重要的研究价值和实践意义,已经引起了国内外研究者的广泛关注.本文深入分析数据流中的频繁模式挖掘,对其特点和算法进行较为全面的总结和分类论述,并讨论了存在的主要问题和未来的研究方向. 展开更多
关键词 数据挖掘 数据流 频繁模式 近似算法
下载PDF
数据流挖掘分类技术综述 被引量:41
2
作者 王涛 李舟军 +1 位作者 颜跃进 陈火旺 《计算机研究与发展》 EI CSCD 北大核心 2007年第11期1809-1815,共7页
数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类... 数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类技术更是当前的研究热点.综述了当前国际上关于数据流挖掘分类算法的研究现状,并从数据平稳分布和带概念漂移两个方面对这些方法进行了系统的介绍与分析,最后对数据流挖掘分类技术当前所面临的问题和发展趋势进行了总结和展望. 展开更多
关键词 数据流 挖掘 分类 稳态分布 概念漂移
下载PDF
挖掘数据流中的频繁模式 被引量:25
3
作者 刘学军 徐宏炳 +2 位作者 董逸生 王永利 钱江波 《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2192-2198,共7页
发现数据流中的频繁项是数据流挖掘中最基本的问题之一·数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用·针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法·... 发现数据流中的频繁项是数据流挖掘中最基本的问题之一·数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用·针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法·算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘·通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε·分析和实验表明算法有较好的性能· 展开更多
关键词 数据流 频繁模式 FP—DS算法 流数据挖掘
下载PDF
数据挖掘中聚类分析算法研究 被引量:13
4
作者 赵法信 王国业 《通化师范学院学报》 2005年第2期11-13,共3页
聚类分析是数据挖掘的一个主要研究方向,目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成就 本文介绍了聚类分析的应用及数据挖掘对聚类算法的典型要求,并对现有的传统聚类算法进行了分析与评估
关键词 数据挖掘 聚类算法 流数据 网格
下载PDF
基于滑动窗口的数据流压缩技术及连续查询处理方法 被引量:17
5
作者 王栩 李建中 王伟平 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1639-1644,共6页
基于滑动窗口的连续查询处理是数据流研究领域的一个热点问题 已有的研究工作均假设滑动窗口内的数据能够全部保存在主存中 ,若滑动窗口内的数据量超过了可用主存空间 ,已有的查询处理方法则无法正常工作 提出两种数据流上的滑动窗口... 基于滑动窗口的连续查询处理是数据流研究领域的一个热点问题 已有的研究工作均假设滑动窗口内的数据能够全部保存在主存中 ,若滑动窗口内的数据量超过了可用主存空间 ,已有的查询处理方法则无法正常工作 提出两种数据流上的滑动窗口压缩技术 ,有效地降低了滑动窗口的存储空间需求 同时 ,给出了基于压缩滑动窗口的连续查询处理算法 ,理论分析和实验结果表明 ,这些算法具有很好的性能 。 展开更多
关键词 滑动窗口 压缩 连续查询 数据流
下载PDF
一种高效的数据流挖掘增量模糊决策树分类算法 被引量:18
6
作者 王涛 李舟军 +2 位作者 胡小华 颜跃进 陈火旺 《计算机学报》 EI CSCD 北大核心 2007年第8期1244-1250,共7页
数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域的研究工作带来了新挑战,而其中分类算法更是当前的研究热点.Domingos等在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决... 数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域的研究工作带来了新挑战,而其中分类算法更是当前的研究热点.Domingos等在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题.Gama等对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性.Peng等在传统数据挖掘环境下提出了基于模糊理论的连续属性平滑离散化方法.基于前述工作,作者设计并实现了一种基于线索化排序二叉树的增量模糊决策树分类算法fVFDT,其主要贡献有如下4点:(1)第一次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,fVFDT的样本插入时间复杂度由O(n2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(logn)个属性节点,而fVFDT只需要更新相应的一个节点即可;(2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的研究成果,相比VFDTc,fVFDT只需从更少的备选划分节点中选取最佳节点,备选划分节点数由O(n)降低到O(logn);(4)改进了传统数据挖掘环境下的基于模糊理论的连续属性平滑离散化方法,有效地处理了噪声数据,很好地提高了分类精度. 展开更多
关键词 数据流 线索化二叉排序树 连续属性 模糊离散化 增量 VFDT
下载PDF
基于数据流方法的大规模网络异常发现 被引量:17
7
作者 郑军 胡铭曾 +1 位作者 云晓春 郑仲 《通信学报》 EI CSCD 北大核心 2006年第2期1-8,共8页
随着网络规模和速度的增加,大规模网络异常发现要求检测算法能够在无保留状态或者少保留状态下对G比特级的海量网络业务量数据进行实时在线分析。针对在高速骨干网上进行大规模网络异常发现的特点和要求,提出了一种基于数据流的大规模... 随着网络规模和速度的增加,大规模网络异常发现要求检测算法能够在无保留状态或者少保留状态下对G比特级的海量网络业务量数据进行实时在线分析。针对在高速骨干网上进行大规模网络异常发现的特点和要求,提出了一种基于数据流的大规模网络异常发现的方法,第一次将数据流模型用于大规模网络的异常发现。主要包括以下创新点:设计了一种面向异常发现的网络流量概要数据结构和突发高频事件检测算法;提出了一种基于安全监测策略定制的预查询方法来进行多数据流的关联监测并且对数据流查询进行了优化;在真实数据分析的基础上,对网络业务量进行了数据约减,使得监测部分特殊类型的数据流能最大程度地获得整体网络业务量的变化特征以提高异常发现的效率。通过真实网络环境下的实验和性能评价验证了数据流方法的有效性。 展开更多
关键词 异常发现 数据流 大规模网络 突发高频事件 概要数据结构
下载PDF
数据流历史数据的存储与聚集查询处理算法 被引量:17
8
作者 张冬冬 李建中 +1 位作者 王伟平 郭龙江 《软件学报》 EI CSCD 北大核心 2005年第12期2089-2098,共10页
目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内... 目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询.同时,还给出了基于HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析.理论分析与实验结果表明,该方法可以有效地用于数据流历史数据的存储与分析.目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询.同时,还给出了基于HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析.理论分析与实验结果表明,该方法可以有效地用于数据流历史数据的存储与分析. 展开更多
关键词 数据流 历史数据 聚集算法 HDS—Tree
下载PDF
动态滑动窗口的数据流聚类方法 被引量:19
9
作者 张忠平 王浩 +1 位作者 薛伟 夏炎 《计算机工程与应用》 CSCD 北大核心 2011年第7期135-138,共4页
数据流聚类是聚类分析中的重要问题。针对数据流的流速是变化的问题,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,并计算数... 数据流聚类是聚类分析中的重要问题。针对数据流的流速是变化的问题,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,并计算数据点与微聚类中心的距离,以维护微聚类特征;离线阶段,对在线聚类阶段的聚类结果采用K-means算法进行宏聚类,生成最终聚类。实验结果表明,该算法具有较高的聚类质量和较好的伸缩性。 展开更多
关键词 数据挖掘 数据流 聚类 滑动窗口
下载PDF
数据流的核心技术与应用发展研究综述 被引量:13
10
作者 杨颖 韩忠明 杨磊 《计算机应用研究》 CSCD 北大核心 2005年第11期4-7,共4页
在数据流基本概念的基础上,综述了数据流领域中主要的流模型、构造概要数据结构的算法、连续查询处理和优化技术等热点问题,以及数据流的应用发展。
关键词 数据流 概要数据结构 连续查询 近似处理
下载PDF
孤立点检测算法及其在数据流挖掘中的可用性 被引量:15
11
作者 孙云 李舟军 陈火旺 《计算机科学》 CSCD 北大核心 2007年第10期200-203,225,共5页
孤立点(也称为噪声、异常点等)是那些不符合数据一般模型的数据,它们与数据集的其他部分不同或不一致。检测孤立点的主要目的是为了从数据集中找出那些不正常的观察结果。随着现实世界和工程实践中不断产生大量的数据流,在数据流上有效... 孤立点(也称为噪声、异常点等)是那些不符合数据一般模型的数据,它们与数据集的其他部分不同或不一致。检测孤立点的主要目的是为了从数据集中找出那些不正常的观察结果。随着现实世界和工程实践中不断产生大量的数据流,在数据流上有效检测孤立点越来越引起国内外研究者的广泛关注。在系统地分析了目前因内外孤立点检测相关文献的基础上,本文对孤立点检测算法进行了较为全面的阐述,并就这些算法是否可以用于数据流上孤立点检测进行了深入探讨和研究。 展开更多
关键词 孤立点 孤立点检测 数据流
下载PDF
基于并行约简的概念漂移探测 被引量:18
12
作者 邓大勇 徐小玉 黄厚宽 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期1071-1079,共9页
数据流挖掘是当前数据挖掘研究的一个热点,概念漂移检测是数据流挖掘的一个重要研究方向.虽然有不少概念漂移的探测方法,但是它们都有一些共同的缺陷:没有整体上删除冗余属性以及利用外部属性去探测概念漂移(比如利用对外部数据的分类... 数据流挖掘是当前数据挖掘研究的一个热点,概念漂移检测是数据流挖掘的一个重要研究方向.虽然有不少概念漂移的探测方法,但是它们都有一些共同的缺陷:没有整体上删除冗余属性以及利用外部属性去探测概念漂移(比如利用对外部数据的分类准确率)等.利用粗糙集和F-粗糙集的基本原理和基本方法,把数据流中的滑动窗口当成决策子表簇,提出了一种对数据流进行并行约简、整体删除冗余属性的方法,并运用并行约简后数据流决策子表簇中属性重要性的变化探测概念漂移现象.与传统的方法不同,新方法利用数据的内部特性对概念漂移进行探测.实验结果显示,该方法能够有效地整体删除冗余属性、探测概念漂移现象,并且基于互信息的属性重要性在概念漂移探测效果方面比基于正区域的属性重要性要好些. 展开更多
关键词 数据流 概念漂移 粗糙集 F-粗糙集 并行约简
下载PDF
基于低阶近似的多维数据流相关性分析 被引量:12
13
作者 王永利 徐宏炳 +2 位作者 董逸生 钱江波 刘学军 《电子学报》 EI CAS CSCD 北大核心 2006年第2期293-300,共8页
目前存在的多数据流相关性分析方法大多只针对于单属性维数据流,无法体现多变量组成的场与场之间真实的相关性.为了在资源受限的环境下快速检测多维数据流之间的相关性,本文提出一种新颖的基于典型相关性分析(CCA)的多维数据流相关性分... 目前存在的多数据流相关性分析方法大多只针对于单属性维数据流,无法体现多变量组成的场与场之间真实的相关性.为了在资源受限的环境下快速检测多维数据流之间的相关性,本文提出一种新颖的基于典型相关性分析(CCA)的多维数据流相关性分析算法S treamCCA,针对传统的CCA计算中的性能瓶颈,提出为样本方差阵与协差阵组成的乘积阵降维的高效低价近似方法,在保持分析精度的前提下显著地提高了计算效率.经理论分析和实验证明,S treamCCA能够在线精确地识别两条多维数据流的相关关系,可以作为通用的预报和诊断分析工具广泛应用于数据流挖掘领域. 展开更多
关键词 数据流 典型相关性分析 低阶近似 不等概采样 数据流挖掘
下载PDF
数据流上的连续预测聚集查询 被引量:4
14
作者 郭龙江 李建中 +1 位作者 王伟平 张冬冬 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1690-1695,共6页
提出了一种数据流上未来值的连续查询 ,称为连续预测查询 采用数理统计的方法给出了带有COUNT聚集函数的连续预测聚集查询实现算法 通过采用TPC H标准测试数据和随机生成的模拟数据进行了实验 理论和实验结果表明 。
关键词 数据流 连续查询 连续预测查询
下载PDF
时间序列数据流的自适应预测 被引量:7
15
作者 王永利 周景华 +2 位作者 徐宏炳 董逸生 刘学军 《自动化学报》 EI CSCD 北大核心 2007年第2期197-201,共5页
提出一种自适应预测方法AFStreams,综合了复杂人工智能预测方法和时间序列预测方法的优点,可以根据数据流值变化的快慢程度自适应地确定预测步长,在计算资源受限的前提下,形成最佳预测点轨迹.仿真实验证明,AFStreams能够良好地适应数... 提出一种自适应预测方法AFStreams,综合了复杂人工智能预测方法和时间序列预测方法的优点,可以根据数据流值变化的快慢程度自适应地确定预测步长,在计算资源受限的前提下,形成最佳预测点轨迹.仿真实验证明,AFStreams能够良好地适应数据的变化,在计算复杂度和预测精度之间平衡,显著地提高了平均预测精度. 展开更多
关键词 时间序列 数据流 预测 插值小波 KALMAN滤波
下载PDF
不确定性数据流上频繁项集挖掘的有效算法 被引量:14
16
作者 刘殷雷 刘玉葆 陈程 《计算机研究与发展》 EI CSCD 北大核心 2011年第S3期1-7,共7页
在很多应用中,不确定性数据都是以流的形式产生,例如传感器网络数据,移动对象跟踪数据等等.已有的基于不确定性数据流的频繁项集挖掘算法往往具有数据流储存结构繁琐、维护困难以及算法的计算量大等缺点.针对这种情况,提出了一种有效的... 在很多应用中,不确定性数据都是以流的形式产生,例如传感器网络数据,移动对象跟踪数据等等.已有的基于不确定性数据流的频繁项集挖掘算法往往具有数据流储存结构繁琐、维护困难以及算法的计算量大等缺点.针对这种情况,提出了一种有效的数据结构SRUF-tree用于储存不确定性数据事务流的项集,该结构由全局树SRtree、临时表Table和窗口队列Queue三部分组成,其中全局树压缩着最近窗口容纳的所有的项集,临时表存储着每批项集的信息.基于该结构设计了一种新的算法SRUF-mine,它挖掘流频繁项集时只需要深度遍历全局树,动态维护SRUF-tree结构只需要处理窗口队列中最旧一批项集的临时表.理论和实验结果表明,SRUF-mine算法是一种有效的挖掘不确定性数据流频繁项集的算法,时空效率和扩展性均优于UF-streaming算法. 展开更多
关键词 不确定数据 数据流 频繁项集
下载PDF
数据流频繁模式挖掘算法设计 被引量:11
17
作者 敖富江 颜跃进 +1 位作者 黄健 黄柯棣 《计算机科学》 CSCD 北大核心 2008年第3期1-5,共5页
介绍了数据流频繁模式的概念和定义,提出了数据流频繁模式挖掘算法的通用数据流处理模型,详细总结了数据流频繁模式挖掘算法的三种分类方式:"窗口模型"、"结果集类型"和"结果集精确性"。基于这些分类方... 介绍了数据流频繁模式的概念和定义,提出了数据流频繁模式挖掘算法的通用数据流处理模型,详细总结了数据流频繁模式挖掘算法的三种分类方式:"窗口模型"、"结果集类型"和"结果集精确性"。基于这些分类方法提出了数据流频繁模式挖掘算法的设计立方体,该立方体不仅涵盖了现有的数据流频繁模式挖掘算法,还对设计新的算法具有指导意义。基于设计立方体,分析了设计算法时应当采取的有效策略,旨在为设计新算法提供一个有力参考。最后讨论了数据流频繁模式挖掘的进一步研究工作。 展开更多
关键词 数据流 频繁模式 设计立方体
下载PDF
多普勒天气雷达信息网络服务系统的设计 被引量:11
18
作者 裴宇杰 顾松山 陈钟荣 《南京气象学院学报》 CSCD 北大核心 2005年第1期125-132,共8页
多普勒天气雷达信息网络服务系统具有较完善的远距离雷达数据传输、数据处理和图像实时显示功能,将雷达站和Web网站捆绑在一起,实现各类观测资料共享及联网服务,便于各层次用户使用。系统用Java类压缩方法和远程调用法建立新的套接字压... 多普勒天气雷达信息网络服务系统具有较完善的远距离雷达数据传输、数据处理和图像实时显示功能,将雷达站和Web网站捆绑在一起,实现各类观测资料共享及联网服务,便于各层次用户使用。系统用Java类压缩方法和远程调用法建立新的套接字压缩方法,实现网络上大数据量的数据传输。Java语言实现了I/O数据流与网络数据流的单一接口,用Java语言对数据文件压缩,使数据在Internet上快速传输以节省服务器的外存空间。 展开更多
关键词 网络服务系统 多普勒天气雷达 数据流 远程对象
下载PDF
在线挖掘数据流滑动窗口中最大频繁项集 被引量:9
19
作者 敖富江 颜跃进 +1 位作者 刘宝宏 黄柯棣 《系统仿真学报》 CAS CSCD 北大核心 2009年第4期1134-1139,共6页
相对于频繁项集,最大频繁项集的数目较少,挖掘最大频繁项集的算法具有较高的时空效率。提出了一种新的基于文法顺序FP-Tree的最大频繁项集单遍挖掘算法FPMFI-DS。该算法采用了一种混合搜索空间项顺序策略,并利用我们所提出的一种新的剪... 相对于频繁项集,最大频繁项集的数目较少,挖掘最大频繁项集的算法具有较高的时空效率。提出了一种新的基于文法顺序FP-Tree的最大频繁项集单遍挖掘算法FPMFI-DS。该算法采用了一种混合搜索空间项顺序策略,并利用我们所提出的一种新的剪枝技术—"子集等价剪枝技术",有效缩小搜索空间的大小。基于该算法,提出了一种能够在线更新挖掘数据流滑动窗口中最大频繁项集的算法FPMFI-DS+。FPMFI-DS+算法能够在任意时刻都维护数据流当前窗口中的最大频繁项集。仿真实验表明,FPMFI-DS算法的效率接近于多遍挖掘算法FPMax*,并具有良好的可扩展性,FPMFI-DS+算法更新挖掘速度快。 展开更多
关键词 数据流 最大频繁项集 在线挖掘 滑动窗口 文法顺序FP-Tree
下载PDF
基于信息熵的数据流自适应集成分类算法 被引量:10
20
作者 孙艳歌 王志海 +1 位作者 原继东 白洋 《中国科学技术大学学报》 CAS CSCD 北大核心 2017年第7期575-582,共8页
数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen... 数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen-Shannon散度度量相邻两个窗口间数据分布的距离,不仅能检测出不同类型的概念漂移,且能有效地发现重现的概念;采用分类器池机制来保存历史概念,从而实现对概念的重用.将所提出的算法与几种经典的学习算法在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明,所提出的算法在平均分类准确率上具有明显的优势,比其他集成算法消耗更少的时间,适合多种类型概念漂移的环境,并具有较高的抗噪性. 展开更多
关键词 数据流 概念漂移 集成分类器 信息熵 重复概念
下载PDF
上一页 1 2 63 下一页 到第
使用帮助 返回顶部