期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1,258
篇文章
<
1
2
…
63
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
数据流频繁模式挖掘研究进展
被引量:
34
1
作者
潘云鹤
王金龙
徐从富
《自动化学报》
EI
CSCD
北大核心
2006年第4期594-602,共9页
现实世界和工程实践产生了大量的数据流,这种数据不同于传统的静态数据,对其进行有效处理和挖掘遇到了极大的挑战.如何使用有限存储空间进行快速和近似的频繁模式挖掘是数据流挖掘的基本问题,具有非常重要的研究价值和实践意义,已经引...
现实世界和工程实践产生了大量的数据流,这种数据不同于传统的静态数据,对其进行有效处理和挖掘遇到了极大的挑战.如何使用有限存储空间进行快速和近似的频繁模式挖掘是数据流挖掘的基本问题,具有非常重要的研究价值和实践意义,已经引起了国内外研究者的广泛关注.本文深入分析数据流中的频繁模式挖掘,对其特点和算法进行较为全面的总结和分类论述,并讨论了存在的主要问题和未来的研究方向.
展开更多
关键词
数据挖掘
数据流
频繁模式
近似算法
下载PDF
职称材料
数据流挖掘分类技术综述
被引量:
41
2
作者
王涛
李舟军
+1 位作者
颜跃进
陈火旺
《计算机研究与发展》
EI
CSCD
北大核心
2007年第11期1809-1815,共7页
数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类...
数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类技术更是当前的研究热点.综述了当前国际上关于数据流挖掘分类算法的研究现状,并从数据平稳分布和带概念漂移两个方面对这些方法进行了系统的介绍与分析,最后对数据流挖掘分类技术当前所面临的问题和发展趋势进行了总结和展望.
展开更多
关键词
数据流
挖掘
分类
稳态分布
概念漂移
下载PDF
职称材料
挖掘数据流中的频繁模式
被引量:
25
3
作者
刘学军
徐宏炳
+2 位作者
董逸生
王永利
钱江波
《计算机研究与发展》
EI
CSCD
北大核心
2005年第12期2192-2198,共7页
发现数据流中的频繁项是数据流挖掘中最基本的问题之一·数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用·针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法·...
发现数据流中的频繁项是数据流挖掘中最基本的问题之一·数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用·针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法·算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘·通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε·分析和实验表明算法有较好的性能·
展开更多
关键词
数据流
频繁模式
FP—DS算法
流数据挖掘
下载PDF
职称材料
数据挖掘中聚类分析算法研究
被引量:
13
4
作者
赵法信
王国业
《通化师范学院学报》
2005年第2期11-13,共3页
聚类分析是数据挖掘的一个主要研究方向,目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成就 本文介绍了聚类分析的应用及数据挖掘对聚类算法的典型要求,并对现有的传统聚类算法进行了分析与评估
关键词
数据挖掘
聚类算法
流数据
网格
下载PDF
职称材料
基于滑动窗口的数据流压缩技术及连续查询处理方法
被引量:
17
5
作者
王栩
李建中
王伟平
《计算机研究与发展》
EI
CSCD
北大核心
2004年第10期1639-1644,共6页
基于滑动窗口的连续查询处理是数据流研究领域的一个热点问题 已有的研究工作均假设滑动窗口内的数据能够全部保存在主存中 ,若滑动窗口内的数据量超过了可用主存空间 ,已有的查询处理方法则无法正常工作 提出两种数据流上的滑动窗口...
基于滑动窗口的连续查询处理是数据流研究领域的一个热点问题 已有的研究工作均假设滑动窗口内的数据能够全部保存在主存中 ,若滑动窗口内的数据量超过了可用主存空间 ,已有的查询处理方法则无法正常工作 提出两种数据流上的滑动窗口压缩技术 ,有效地降低了滑动窗口的存储空间需求 同时 ,给出了基于压缩滑动窗口的连续查询处理算法 ,理论分析和实验结果表明 ,这些算法具有很好的性能 。
展开更多
关键词
滑动窗口
压缩
连续查询
数据流
下载PDF
职称材料
一种高效的数据流挖掘增量模糊决策树分类算法
被引量:
18
6
作者
王涛
李舟军
+2 位作者
胡小华
颜跃进
陈火旺
《计算机学报》
EI
CSCD
北大核心
2007年第8期1244-1250,共7页
数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域的研究工作带来了新挑战,而其中分类算法更是当前的研究热点.Domingos等在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决...
数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域的研究工作带来了新挑战,而其中分类算法更是当前的研究热点.Domingos等在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题.Gama等对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性.Peng等在传统数据挖掘环境下提出了基于模糊理论的连续属性平滑离散化方法.基于前述工作,作者设计并实现了一种基于线索化排序二叉树的增量模糊决策树分类算法fVFDT,其主要贡献有如下4点:(1)第一次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,fVFDT的样本插入时间复杂度由O(n2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(logn)个属性节点,而fVFDT只需要更新相应的一个节点即可;(2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的研究成果,相比VFDTc,fVFDT只需从更少的备选划分节点中选取最佳节点,备选划分节点数由O(n)降低到O(logn);(4)改进了传统数据挖掘环境下的基于模糊理论的连续属性平滑离散化方法,有效地处理了噪声数据,很好地提高了分类精度.
展开更多
关键词
数据流
线索化二叉排序树
连续属性
模糊离散化
增量
VFDT
下载PDF
职称材料
基于数据流方法的大规模网络异常发现
被引量:
17
7
作者
郑军
胡铭曾
+1 位作者
云晓春
郑仲
《通信学报》
EI
CSCD
北大核心
2006年第2期1-8,共8页
随着网络规模和速度的增加,大规模网络异常发现要求检测算法能够在无保留状态或者少保留状态下对G比特级的海量网络业务量数据进行实时在线分析。针对在高速骨干网上进行大规模网络异常发现的特点和要求,提出了一种基于数据流的大规模...
随着网络规模和速度的增加,大规模网络异常发现要求检测算法能够在无保留状态或者少保留状态下对G比特级的海量网络业务量数据进行实时在线分析。针对在高速骨干网上进行大规模网络异常发现的特点和要求,提出了一种基于数据流的大规模网络异常发现的方法,第一次将数据流模型用于大规模网络的异常发现。主要包括以下创新点:设计了一种面向异常发现的网络流量概要数据结构和突发高频事件检测算法;提出了一种基于安全监测策略定制的预查询方法来进行多数据流的关联监测并且对数据流查询进行了优化;在真实数据分析的基础上,对网络业务量进行了数据约减,使得监测部分特殊类型的数据流能最大程度地获得整体网络业务量的变化特征以提高异常发现的效率。通过真实网络环境下的实验和性能评价验证了数据流方法的有效性。
展开更多
关键词
异常发现
数据流
大规模网络
突发高频事件
概要数据结构
下载PDF
职称材料
数据流历史数据的存储与聚集查询处理算法
被引量:
17
8
作者
张冬冬
李建中
+1 位作者
王伟平
郭龙江
《软件学报》
EI
CSCD
北大核心
2005年第12期2089-2098,共10页
目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内...
目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询.同时,还给出了基于HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析.理论分析与实验结果表明,该方法可以有效地用于数据流历史数据的存储与分析.目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询.同时,还给出了基于HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析.理论分析与实验结果表明,该方法可以有效地用于数据流历史数据的存储与分析.
展开更多
关键词
数据流
历史数据
聚集算法
HDS—Tree
下载PDF
职称材料
动态滑动窗口的数据流聚类方法
被引量:
19
9
作者
张忠平
王浩
+1 位作者
薛伟
夏炎
《计算机工程与应用》
CSCD
北大核心
2011年第7期135-138,共4页
数据流聚类是聚类分析中的重要问题。针对数据流的流速是变化的问题,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,并计算数...
数据流聚类是聚类分析中的重要问题。针对数据流的流速是变化的问题,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,并计算数据点与微聚类中心的距离,以维护微聚类特征;离线阶段,对在线聚类阶段的聚类结果采用K-means算法进行宏聚类,生成最终聚类。实验结果表明,该算法具有较高的聚类质量和较好的伸缩性。
展开更多
关键词
数据挖掘
数据流
聚类
滑动窗口
下载PDF
职称材料
数据流的核心技术与应用发展研究综述
被引量:
13
10
作者
杨颖
韩忠明
杨磊
《计算机应用研究》
CSCD
北大核心
2005年第11期4-7,共4页
在数据流基本概念的基础上,综述了数据流领域中主要的流模型、构造概要数据结构的算法、连续查询处理和优化技术等热点问题,以及数据流的应用发展。
关键词
数据流
概要数据结构
连续查询
近似处理
下载PDF
职称材料
孤立点检测算法及其在数据流挖掘中的可用性
被引量:
15
11
作者
孙云
李舟军
陈火旺
《计算机科学》
CSCD
北大核心
2007年第10期200-203,225,共5页
孤立点(也称为噪声、异常点等)是那些不符合数据一般模型的数据,它们与数据集的其他部分不同或不一致。检测孤立点的主要目的是为了从数据集中找出那些不正常的观察结果。随着现实世界和工程实践中不断产生大量的数据流,在数据流上有效...
孤立点(也称为噪声、异常点等)是那些不符合数据一般模型的数据,它们与数据集的其他部分不同或不一致。检测孤立点的主要目的是为了从数据集中找出那些不正常的观察结果。随着现实世界和工程实践中不断产生大量的数据流,在数据流上有效检测孤立点越来越引起国内外研究者的广泛关注。在系统地分析了目前因内外孤立点检测相关文献的基础上,本文对孤立点检测算法进行了较为全面的阐述,并就这些算法是否可以用于数据流上孤立点检测进行了深入探讨和研究。
展开更多
关键词
孤立点
孤立点检测
数据流
下载PDF
职称材料
基于并行约简的概念漂移探测
被引量:
18
12
作者
邓大勇
徐小玉
黄厚宽
《计算机研究与发展》
EI
CSCD
北大核心
2015年第5期1071-1079,共9页
数据流挖掘是当前数据挖掘研究的一个热点,概念漂移检测是数据流挖掘的一个重要研究方向.虽然有不少概念漂移的探测方法,但是它们都有一些共同的缺陷:没有整体上删除冗余属性以及利用外部属性去探测概念漂移(比如利用对外部数据的分类...
数据流挖掘是当前数据挖掘研究的一个热点,概念漂移检测是数据流挖掘的一个重要研究方向.虽然有不少概念漂移的探测方法,但是它们都有一些共同的缺陷:没有整体上删除冗余属性以及利用外部属性去探测概念漂移(比如利用对外部数据的分类准确率)等.利用粗糙集和F-粗糙集的基本原理和基本方法,把数据流中的滑动窗口当成决策子表簇,提出了一种对数据流进行并行约简、整体删除冗余属性的方法,并运用并行约简后数据流决策子表簇中属性重要性的变化探测概念漂移现象.与传统的方法不同,新方法利用数据的内部特性对概念漂移进行探测.实验结果显示,该方法能够有效地整体删除冗余属性、探测概念漂移现象,并且基于互信息的属性重要性在概念漂移探测效果方面比基于正区域的属性重要性要好些.
展开更多
关键词
数据流
概念漂移
粗糙集
F-粗糙集
并行约简
下载PDF
职称材料
基于低阶近似的多维数据流相关性分析
被引量:
12
13
作者
王永利
徐宏炳
+2 位作者
董逸生
钱江波
刘学军
《电子学报》
EI
CAS
CSCD
北大核心
2006年第2期293-300,共8页
目前存在的多数据流相关性分析方法大多只针对于单属性维数据流,无法体现多变量组成的场与场之间真实的相关性.为了在资源受限的环境下快速检测多维数据流之间的相关性,本文提出一种新颖的基于典型相关性分析(CCA)的多维数据流相关性分...
目前存在的多数据流相关性分析方法大多只针对于单属性维数据流,无法体现多变量组成的场与场之间真实的相关性.为了在资源受限的环境下快速检测多维数据流之间的相关性,本文提出一种新颖的基于典型相关性分析(CCA)的多维数据流相关性分析算法S treamCCA,针对传统的CCA计算中的性能瓶颈,提出为样本方差阵与协差阵组成的乘积阵降维的高效低价近似方法,在保持分析精度的前提下显著地提高了计算效率.经理论分析和实验证明,S treamCCA能够在线精确地识别两条多维数据流的相关关系,可以作为通用的预报和诊断分析工具广泛应用于数据流挖掘领域.
展开更多
关键词
数据流
典型相关性分析
低阶近似
不等概采样
数据流挖掘
下载PDF
职称材料
数据流上的连续预测聚集查询
被引量:
4
14
作者
郭龙江
李建中
+1 位作者
王伟平
张冬冬
《计算机研究与发展》
EI
CSCD
北大核心
2004年第10期1690-1695,共6页
提出了一种数据流上未来值的连续查询 ,称为连续预测查询 采用数理统计的方法给出了带有COUNT聚集函数的连续预测聚集查询实现算法 通过采用TPC H标准测试数据和随机生成的模拟数据进行了实验 理论和实验结果表明 。
关键词
数据流
连续查询
连续预测查询
下载PDF
职称材料
时间序列数据流的自适应预测
被引量:
7
15
作者
王永利
周景华
+2 位作者
徐宏炳
董逸生
刘学军
《自动化学报》
EI
CSCD
北大核心
2007年第2期197-201,共5页
提出一种自适应预测方法AFStreams,综合了复杂人工智能预测方法和时间序列预测方法的优点,可以根据数据流值变化的快慢程度自适应地确定预测步长,在计算资源受限的前提下,形成最佳预测点轨迹.仿真实验证明,AFStreams能够良好地适应数...
提出一种自适应预测方法AFStreams,综合了复杂人工智能预测方法和时间序列预测方法的优点,可以根据数据流值变化的快慢程度自适应地确定预测步长,在计算资源受限的前提下,形成最佳预测点轨迹.仿真实验证明,AFStreams能够良好地适应数据的变化,在计算复杂度和预测精度之间平衡,显著地提高了平均预测精度.
展开更多
关键词
时间序列
数据流
预测
插值小波
KALMAN滤波
下载PDF
职称材料
不确定性数据流上频繁项集挖掘的有效算法
被引量:
14
16
作者
刘殷雷
刘玉葆
陈程
《计算机研究与发展》
EI
CSCD
北大核心
2011年第S3期1-7,共7页
在很多应用中,不确定性数据都是以流的形式产生,例如传感器网络数据,移动对象跟踪数据等等.已有的基于不确定性数据流的频繁项集挖掘算法往往具有数据流储存结构繁琐、维护困难以及算法的计算量大等缺点.针对这种情况,提出了一种有效的...
在很多应用中,不确定性数据都是以流的形式产生,例如传感器网络数据,移动对象跟踪数据等等.已有的基于不确定性数据流的频繁项集挖掘算法往往具有数据流储存结构繁琐、维护困难以及算法的计算量大等缺点.针对这种情况,提出了一种有效的数据结构SRUF-tree用于储存不确定性数据事务流的项集,该结构由全局树SRtree、临时表Table和窗口队列Queue三部分组成,其中全局树压缩着最近窗口容纳的所有的项集,临时表存储着每批项集的信息.基于该结构设计了一种新的算法SRUF-mine,它挖掘流频繁项集时只需要深度遍历全局树,动态维护SRUF-tree结构只需要处理窗口队列中最旧一批项集的临时表.理论和实验结果表明,SRUF-mine算法是一种有效的挖掘不确定性数据流频繁项集的算法,时空效率和扩展性均优于UF-streaming算法.
展开更多
关键词
不确定数据
数据流
频繁项集
下载PDF
职称材料
数据流频繁模式挖掘算法设计
被引量:
11
17
作者
敖富江
颜跃进
+1 位作者
黄健
黄柯棣
《计算机科学》
CSCD
北大核心
2008年第3期1-5,共5页
介绍了数据流频繁模式的概念和定义,提出了数据流频繁模式挖掘算法的通用数据流处理模型,详细总结了数据流频繁模式挖掘算法的三种分类方式:"窗口模型"、"结果集类型"和"结果集精确性"。基于这些分类方...
介绍了数据流频繁模式的概念和定义,提出了数据流频繁模式挖掘算法的通用数据流处理模型,详细总结了数据流频繁模式挖掘算法的三种分类方式:"窗口模型"、"结果集类型"和"结果集精确性"。基于这些分类方法提出了数据流频繁模式挖掘算法的设计立方体,该立方体不仅涵盖了现有的数据流频繁模式挖掘算法,还对设计新的算法具有指导意义。基于设计立方体,分析了设计算法时应当采取的有效策略,旨在为设计新算法提供一个有力参考。最后讨论了数据流频繁模式挖掘的进一步研究工作。
展开更多
关键词
数据流
频繁模式
设计立方体
下载PDF
职称材料
多普勒天气雷达信息网络服务系统的设计
被引量:
11
18
作者
裴宇杰
顾松山
陈钟荣
《南京气象学院学报》
CSCD
北大核心
2005年第1期125-132,共8页
多普勒天气雷达信息网络服务系统具有较完善的远距离雷达数据传输、数据处理和图像实时显示功能,将雷达站和Web网站捆绑在一起,实现各类观测资料共享及联网服务,便于各层次用户使用。系统用Java类压缩方法和远程调用法建立新的套接字压...
多普勒天气雷达信息网络服务系统具有较完善的远距离雷达数据传输、数据处理和图像实时显示功能,将雷达站和Web网站捆绑在一起,实现各类观测资料共享及联网服务,便于各层次用户使用。系统用Java类压缩方法和远程调用法建立新的套接字压缩方法,实现网络上大数据量的数据传输。Java语言实现了I/O数据流与网络数据流的单一接口,用Java语言对数据文件压缩,使数据在Internet上快速传输以节省服务器的外存空间。
展开更多
关键词
网络服务系统
多普勒天气雷达
数据流
远程对象
下载PDF
职称材料
在线挖掘数据流滑动窗口中最大频繁项集
被引量:
9
19
作者
敖富江
颜跃进
+1 位作者
刘宝宏
黄柯棣
《系统仿真学报》
CAS
CSCD
北大核心
2009年第4期1134-1139,共6页
相对于频繁项集,最大频繁项集的数目较少,挖掘最大频繁项集的算法具有较高的时空效率。提出了一种新的基于文法顺序FP-Tree的最大频繁项集单遍挖掘算法FPMFI-DS。该算法采用了一种混合搜索空间项顺序策略,并利用我们所提出的一种新的剪...
相对于频繁项集,最大频繁项集的数目较少,挖掘最大频繁项集的算法具有较高的时空效率。提出了一种新的基于文法顺序FP-Tree的最大频繁项集单遍挖掘算法FPMFI-DS。该算法采用了一种混合搜索空间项顺序策略,并利用我们所提出的一种新的剪枝技术—"子集等价剪枝技术",有效缩小搜索空间的大小。基于该算法,提出了一种能够在线更新挖掘数据流滑动窗口中最大频繁项集的算法FPMFI-DS+。FPMFI-DS+算法能够在任意时刻都维护数据流当前窗口中的最大频繁项集。仿真实验表明,FPMFI-DS算法的效率接近于多遍挖掘算法FPMax*,并具有良好的可扩展性,FPMFI-DS+算法更新挖掘速度快。
展开更多
关键词
数据流
最大频繁项集
在线挖掘
滑动窗口
文法顺序FP-Tree
下载PDF
职称材料
基于信息熵的数据流自适应集成分类算法
被引量:
10
20
作者
孙艳歌
王志海
+1 位作者
原继东
白洋
《中国科学技术大学学报》
CAS
CSCD
北大核心
2017年第7期575-582,共8页
数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen...
数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen-Shannon散度度量相邻两个窗口间数据分布的距离,不仅能检测出不同类型的概念漂移,且能有效地发现重现的概念;采用分类器池机制来保存历史概念,从而实现对概念的重用.将所提出的算法与几种经典的学习算法在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明,所提出的算法在平均分类准确率上具有明显的优势,比其他集成算法消耗更少的时间,适合多种类型概念漂移的环境,并具有较高的抗噪性.
展开更多
关键词
数据流
概念漂移
集成分类器
信息熵
重复概念
下载PDF
职称材料
题名
数据流频繁模式挖掘研究进展
被引量:
34
1
作者
潘云鹤
王金龙
徐从富
机构
浙江大学人工智能研究所
出处
《自动化学报》
EI
CSCD
北大核心
2006年第4期594-602,共9页
基金
国家自然科学基金重点项目(60533090)
国家自然科学基金(60402010
60573056)资助~~
文摘
现实世界和工程实践产生了大量的数据流,这种数据不同于传统的静态数据,对其进行有效处理和挖掘遇到了极大的挑战.如何使用有限存储空间进行快速和近似的频繁模式挖掘是数据流挖掘的基本问题,具有非常重要的研究价值和实践意义,已经引起了国内外研究者的广泛关注.本文深入分析数据流中的频繁模式挖掘,对其特点和算法进行较为全面的总结和分类论述,并讨论了存在的主要问题和未来的研究方向.
关键词
数据挖掘
数据流
频繁模式
近似算法
Keywords
data
mining,
data
streams
,
frequent
pattern,
approximate
algorithm
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
数据流挖掘分类技术综述
被引量:
41
2
作者
王涛
李舟军
颜跃进
陈火旺
机构
国防科学技术大学计算机学院
北京航空航天大学计算机学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第11期1809-1815,共7页
基金
国家自然科学基金项目(60573057)~~
文摘
数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类技术更是当前的研究热点.综述了当前国际上关于数据流挖掘分类算法的研究现状,并从数据平稳分布和带概念漂移两个方面对这些方法进行了系统的介绍与分析,最后对数据流挖掘分类技术当前所面临的问题和发展趋势进行了总结和展望.
关键词
数据流
挖掘
分类
稳态分布
概念漂移
Keywords
data
streams
mining
classify
stationary
distribution
concept-drift
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
挖掘数据流中的频繁模式
被引量:
25
3
作者
刘学军
徐宏炳
董逸生
王永利
钱江波
机构
东南大学计算机科学与技术系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2005年第12期2192-2198,共7页
基金
江苏省高技术基金项目(BG2004034)
江苏省2004年度研究生创新计划基金项目(xm04-36)~~
文摘
发现数据流中的频繁项是数据流挖掘中最基本的问题之一·数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用·针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法·算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘·通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε·分析和实验表明算法有较好的性能·
关键词
数据流
频繁模式
FP—DS算法
流数据挖掘
Keywords
data
streams
frequent
patterns
FP-DS
algorithm
stream
data
mining
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
数据挖掘中聚类分析算法研究
被引量:
13
4
作者
赵法信
王国业
机构
通化师院教务处
沈阳建筑大学科技产业处
出处
《通化师范学院学报》
2005年第2期11-13,共3页
文摘
聚类分析是数据挖掘的一个主要研究方向,目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成就 本文介绍了聚类分析的应用及数据挖掘对聚类算法的典型要求,并对现有的传统聚类算法进行了分析与评估
关键词
数据挖掘
聚类算法
流数据
网格
Keywords
data
mining
focusing
solutions
analysis
data
streams
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于滑动窗口的数据流压缩技术及连续查询处理方法
被引量:
17
5
作者
王栩
李建中
王伟平
机构
哈尔滨工业大学计算机科学与工程系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第10期1639-1644,共6页
基金
国家自然科学基金项目 ( 60 2 73 0 82 )
国家"八六三"高技术研究发展计划数据库重大专项基金项目 ( 2 0 0 2AA44 4110 )
黑龙江省自然科学基金重点项目 (zjg0 3 0 5 )
文摘
基于滑动窗口的连续查询处理是数据流研究领域的一个热点问题 已有的研究工作均假设滑动窗口内的数据能够全部保存在主存中 ,若滑动窗口内的数据量超过了可用主存空间 ,已有的查询处理方法则无法正常工作 提出两种数据流上的滑动窗口压缩技术 ,有效地降低了滑动窗口的存储空间需求 同时 ,给出了基于压缩滑动窗口的连续查询处理算法 ,理论分析和实验结果表明 ,这些算法具有很好的性能 。
关键词
滑动窗口
压缩
连续查询
数据流
Keywords
sliding
window
compress
continuous
queries
data
streams
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种高效的数据流挖掘增量模糊决策树分类算法
被引量:
18
6
作者
王涛
李舟军
胡小华
颜跃进
陈火旺
机构
国防科学技术大学计算机学院
北京航空航天大学计算机学院
德雷塞尔大学信息科学与技术学院
出处
《计算机学报》
EI
CSCD
北大核心
2007年第8期1244-1250,共7页
基金
国家自然科学基金(60573057)资助~~
文摘
数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域的研究工作带来了新挑战,而其中分类算法更是当前的研究热点.Domingos等在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题.Gama等对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性.Peng等在传统数据挖掘环境下提出了基于模糊理论的连续属性平滑离散化方法.基于前述工作,作者设计并实现了一种基于线索化排序二叉树的增量模糊决策树分类算法fVFDT,其主要贡献有如下4点:(1)第一次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,fVFDT的样本插入时间复杂度由O(n2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(logn)个属性节点,而fVFDT只需要更新相应的一个节点即可;(2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的研究成果,相比VFDTc,fVFDT只需从更少的备选划分节点中选取最佳节点,备选划分节点数由O(n)降低到O(logn);(4)改进了传统数据挖掘环境下的基于模糊理论的连续属性平滑离散化方法,有效地处理了噪声数据,很好地提高了分类精度.
关键词
数据流
线索化二叉排序树
连续属性
模糊离散化
增量
VFDT
Keywords
data
streams
threaded
binary
search
tree
continuous
arribute
soft
discretization
incremental
VFDT
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于数据流方法的大规模网络异常发现
被引量:
17
7
作者
郑军
胡铭曾
云晓春
郑仲
机构
哈尔滨工业大学计算机网络与信息安全技术研究中心
出处
《通信学报》
EI
CSCD
北大核心
2006年第2期1-8,共8页
基金
国家高技术研究发展计划("863"计划)基金资助项目(2002AA104410)
国家自然科学基金资助项目(60403033)~~
文摘
随着网络规模和速度的增加,大规模网络异常发现要求检测算法能够在无保留状态或者少保留状态下对G比特级的海量网络业务量数据进行实时在线分析。针对在高速骨干网上进行大规模网络异常发现的特点和要求,提出了一种基于数据流的大规模网络异常发现的方法,第一次将数据流模型用于大规模网络的异常发现。主要包括以下创新点:设计了一种面向异常发现的网络流量概要数据结构和突发高频事件检测算法;提出了一种基于安全监测策略定制的预查询方法来进行多数据流的关联监测并且对数据流查询进行了优化;在真实数据分析的基础上,对网络业务量进行了数据约减,使得监测部分特殊类型的数据流能最大程度地获得整体网络业务量的变化特征以提高异常发现的效率。通过真实网络环境下的实验和性能评价验证了数据流方法的有效性。
关键词
异常发现
数据流
大规模网络
突发高频事件
概要数据结构
Keywords
anomaly
detection
data
streams
large
scale
network
bursty
frequent
event
sketch
data
structure
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
数据流历史数据的存储与聚集查询处理算法
被引量:
17
8
作者
张冬冬
李建中
王伟平
郭龙江
机构
哈尔滨工业大学计算机科学与技术学院
出处
《软件学报》
EI
CSCD
北大核心
2005年第12期2089-2098,共10页
基金
国家自然科学基金
国家高技术研究发展计划(863)
+1 种基金
国家重点基础研究发展规划(973)
黑龙江省自然科学基金~~
文摘
目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询.同时,还给出了基于HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析.理论分析与实验结果表明,该方法可以有效地用于数据流历史数据的存储与分析.目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询.同时,还给出了基于HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析.理论分析与实验结果表明,该方法可以有效地用于数据流历史数据的存储与分析.
关键词
数据流
历史数据
聚集算法
HDS—Tree
Keywords
data
streams
historical
data
aggregation
algorithm
HDS-Tree
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
动态滑动窗口的数据流聚类方法
被引量:
19
9
作者
张忠平
王浩
薛伟
夏炎
机构
燕山大学信息科学与工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2011年第7期135-138,共4页
基金
国家自然科学基金No.60773100
河北省教育厅科研计划项目No.2006143~~
文摘
数据流聚类是聚类分析中的重要问题。针对数据流的流速是变化的问题,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,并计算数据点与微聚类中心的距离,以维护微聚类特征;离线阶段,对在线聚类阶段的聚类结果采用K-means算法进行宏聚类,生成最终聚类。实验结果表明,该算法具有较高的聚类质量和较好的伸缩性。
关键词
数据挖掘
数据流
聚类
滑动窗口
Keywords
data
mining
data
streams
clustering
sliding
windows
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
数据流的核心技术与应用发展研究综述
被引量:
13
10
作者
杨颖
韩忠明
杨磊
机构
东华大学信息学院
广西计算中心
出处
《计算机应用研究》
CSCD
北大核心
2005年第11期4-7,共4页
基金
国家"863"计划资助项目(2002AA4Z3430)
广西大学科研基金资助项目(CC060012)
文摘
在数据流基本概念的基础上,综述了数据流领域中主要的流模型、构造概要数据结构的算法、连续查询处理和优化技术等热点问题,以及数据流的应用发展。
关键词
数据流
概要数据结构
连续查询
近似处理
Keywords
data
streams
Synopsis
data
Structure
Continuous
Query
Approximate
Processing
分类号
TP274 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
孤立点检测算法及其在数据流挖掘中的可用性
被引量:
15
11
作者
孙云
李舟军
陈火旺
机构
国防科技大学计算机学院
北京航空航天大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2007年第10期200-203,225,共5页
基金
本文工作受到国家自然科学基金项目(60573057
60473057
90604007)的资助。
文摘
孤立点(也称为噪声、异常点等)是那些不符合数据一般模型的数据,它们与数据集的其他部分不同或不一致。检测孤立点的主要目的是为了从数据集中找出那些不正常的观察结果。随着现实世界和工程实践中不断产生大量的数据流,在数据流上有效检测孤立点越来越引起国内外研究者的广泛关注。在系统地分析了目前因内外孤立点检测相关文献的基础上,本文对孤立点检测算法进行了较为全面的阐述,并就这些算法是否可以用于数据流上孤立点检测进行了深入探讨和研究。
关键词
孤立点
孤立点检测
数据流
Keywords
Outliers,
Outliers
detection,
data
streams
分类号
TP311.6 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于并行约简的概念漂移探测
被引量:
18
12
作者
邓大勇
徐小玉
黄厚宽
机构
浙江师范大学数理与信息工程学院
北京交通大学计算机与信息技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第5期1071-1079,共9页
基金
国家自然科学基金项目(61473030)
浙江省自然科学基金项目(Y15F020044)
+1 种基金
浙江省自然科学青年基金项目(Q13F020006)
浙江师范大学计算机软件与理论省级重中之重学科开放基金项目(ZSDZZZZXK27)
文摘
数据流挖掘是当前数据挖掘研究的一个热点,概念漂移检测是数据流挖掘的一个重要研究方向.虽然有不少概念漂移的探测方法,但是它们都有一些共同的缺陷:没有整体上删除冗余属性以及利用外部属性去探测概念漂移(比如利用对外部数据的分类准确率)等.利用粗糙集和F-粗糙集的基本原理和基本方法,把数据流中的滑动窗口当成决策子表簇,提出了一种对数据流进行并行约简、整体删除冗余属性的方法,并运用并行约简后数据流决策子表簇中属性重要性的变化探测概念漂移现象.与传统的方法不同,新方法利用数据的内部特性对概念漂移进行探测.实验结果显示,该方法能够有效地整体删除冗余属性、探测概念漂移现象,并且基于互信息的属性重要性在概念漂移探测效果方面比基于正区域的属性重要性要好些.
关键词
数据流
概念漂移
粗糙集
F-粗糙集
并行约简
Keywords
data
streams
concept
drift
rough
sets
F-rough
sets
parallel
reducts
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于低阶近似的多维数据流相关性分析
被引量:
12
13
作者
王永利
徐宏炳
董逸生
钱江波
刘学军
机构
东南大学计算机科学与工程系
出处
《电子学报》
EI
CAS
CSCD
北大核心
2006年第2期293-300,共8页
基金
江苏省2004年度研究生创新计划项目(No.xm04-36)
江苏省高技术项目(No.BG2004034)
文摘
目前存在的多数据流相关性分析方法大多只针对于单属性维数据流,无法体现多变量组成的场与场之间真实的相关性.为了在资源受限的环境下快速检测多维数据流之间的相关性,本文提出一种新颖的基于典型相关性分析(CCA)的多维数据流相关性分析算法S treamCCA,针对传统的CCA计算中的性能瓶颈,提出为样本方差阵与协差阵组成的乘积阵降维的高效低价近似方法,在保持分析精度的前提下显著地提高了计算效率.经理论分析和实验证明,S treamCCA能够在线精确地识别两条多维数据流的相关关系,可以作为通用的预报和诊断分析工具广泛应用于数据流挖掘领域.
关键词
数据流
典型相关性分析
低阶近似
不等概采样
数据流挖掘
Keywords
data
streams
canonical
correlation
analysis
low-rank
approximation
non-equal
probability
sampiing
data
streams
mining
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
数据流上的连续预测聚集查询
被引量:
4
14
作者
郭龙江
李建中
王伟平
张冬冬
机构
哈尔滨工业大学计算机科学与技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第10期1690-1695,共6页
基金
国家自然科学基金重点项目 ( 60 2 73 0 82 )
黑龙江省自然科学基金重点项目 (ZJG0 3 0 5 )
文摘
提出了一种数据流上未来值的连续查询 ,称为连续预测查询 采用数理统计的方法给出了带有COUNT聚集函数的连续预测聚集查询实现算法 通过采用TPC H标准测试数据和随机生成的模拟数据进行了实验 理论和实验结果表明 。
关键词
数据流
连续查询
连续预测查询
Keywords
data
streams
continuous
queries
predictive
continuous
queries
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
时间序列数据流的自适应预测
被引量:
7
15
作者
王永利
周景华
徐宏炳
董逸生
刘学军
机构
东南大学计算机科学与工程学院
上海伽兴电子科技有限公司
出处
《自动化学报》
EI
CSCD
北大核心
2007年第2期197-201,共5页
基金
江苏省研究生创新计划项目(xm04-36)资助~~
文摘
提出一种自适应预测方法AFStreams,综合了复杂人工智能预测方法和时间序列预测方法的优点,可以根据数据流值变化的快慢程度自适应地确定预测步长,在计算资源受限的前提下,形成最佳预测点轨迹.仿真实验证明,AFStreams能够良好地适应数据的变化,在计算复杂度和预测精度之间平衡,显著地提高了平均预测精度.
关键词
时间序列
数据流
预测
插值小波
KALMAN滤波
Keywords
Time-series,
data
streams
,
forecasting,
interpolating
wavelet,
Kalman
filtering
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
不确定性数据流上频繁项集挖掘的有效算法
被引量:
14
16
作者
刘殷雷
刘玉葆
陈程
机构
中山大学信息科学与技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第S3期1-7,共7页
基金
国家自然科学基金项目(60703111
61070005
+2 种基金
61033010)
广东省科技计划项目(2010B080701062)
高校基本科研业务费中山大学青年教师培育项目(11lgpy63)
文摘
在很多应用中,不确定性数据都是以流的形式产生,例如传感器网络数据,移动对象跟踪数据等等.已有的基于不确定性数据流的频繁项集挖掘算法往往具有数据流储存结构繁琐、维护困难以及算法的计算量大等缺点.针对这种情况,提出了一种有效的数据结构SRUF-tree用于储存不确定性数据事务流的项集,该结构由全局树SRtree、临时表Table和窗口队列Queue三部分组成,其中全局树压缩着最近窗口容纳的所有的项集,临时表存储着每批项集的信息.基于该结构设计了一种新的算法SRUF-mine,它挖掘流频繁项集时只需要深度遍历全局树,动态维护SRUF-tree结构只需要处理窗口队列中最旧一批项集的临时表.理论和实验结果表明,SRUF-mine算法是一种有效的挖掘不确定性数据流频繁项集的算法,时空效率和扩展性均优于UF-streaming算法.
关键词
不确定数据
数据流
频繁项集
Keywords
uncertain
data
data
streams
frequent
itemsets
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
数据流频繁模式挖掘算法设计
被引量:
11
17
作者
敖富江
颜跃进
黄健
黄柯棣
机构
国防科技大学机电工程与自动化学院
出处
《计算机科学》
CSCD
北大核心
2008年第3期1-5,共5页
基金
国家科学自然基金项目(项目编号:60573057)资助
文摘
介绍了数据流频繁模式的概念和定义,提出了数据流频繁模式挖掘算法的通用数据流处理模型,详细总结了数据流频繁模式挖掘算法的三种分类方式:"窗口模型"、"结果集类型"和"结果集精确性"。基于这些分类方法提出了数据流频繁模式挖掘算法的设计立方体,该立方体不仅涵盖了现有的数据流频繁模式挖掘算法,还对设计新的算法具有指导意义。基于设计立方体,分析了设计算法时应当采取的有效策略,旨在为设计新算法提供一个有力参考。最后讨论了数据流频繁模式挖掘的进一步研究工作。
关键词
数据流
频繁模式
设计立方体
Keywords
data
streams
,
Frequent
pattern,
Cube
for
designing
algorithm
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
TN929.533 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
多普勒天气雷达信息网络服务系统的设计
被引量:
11
18
作者
裴宇杰
顾松山
陈钟荣
机构
南京信息工程大学电子工程系
出处
《南京气象学院学报》
CSCD
北大核心
2005年第1期125-132,共8页
基金
中国气象局减灾司"新一代天气雷达建设项目多普勒雷达资料的应用"
国家科技攻关计划项目(2001BA610A)
文摘
多普勒天气雷达信息网络服务系统具有较完善的远距离雷达数据传输、数据处理和图像实时显示功能,将雷达站和Web网站捆绑在一起,实现各类观测资料共享及联网服务,便于各层次用户使用。系统用Java类压缩方法和远程调用法建立新的套接字压缩方法,实现网络上大数据量的数据传输。Java语言实现了I/O数据流与网络数据流的单一接口,用Java语言对数据文件压缩,使数据在Internet上快速传输以节省服务器的外存空间。
关键词
网络服务系统
多普勒天气雷达
数据流
远程对象
Keywords
Web-server
system
doppler
weather
radar
data
streams
remote
objects
分类号
P415.2 [天文地球—大气科学及气象学]
下载PDF
职称材料
题名
在线挖掘数据流滑动窗口中最大频繁项集
被引量:
9
19
作者
敖富江
颜跃进
刘宝宏
黄柯棣
机构
国防科技大学机电工程与自动化学院
国防科技大学计算机学院
出处
《系统仿真学报》
CAS
CSCD
北大核心
2009年第4期1134-1139,共6页
基金
国家自然科学基金资助项目(60573057
60704038)
文摘
相对于频繁项集,最大频繁项集的数目较少,挖掘最大频繁项集的算法具有较高的时空效率。提出了一种新的基于文法顺序FP-Tree的最大频繁项集单遍挖掘算法FPMFI-DS。该算法采用了一种混合搜索空间项顺序策略,并利用我们所提出的一种新的剪枝技术—"子集等价剪枝技术",有效缩小搜索空间的大小。基于该算法,提出了一种能够在线更新挖掘数据流滑动窗口中最大频繁项集的算法FPMFI-DS+。FPMFI-DS+算法能够在任意时刻都维护数据流当前窗口中的最大频繁项集。仿真实验表明,FPMFI-DS算法的效率接近于多遍挖掘算法FPMax*,并具有良好的可扩展性,FPMFI-DS+算法更新挖掘速度快。
关键词
数据流
最大频繁项集
在线挖掘
滑动窗口
文法顺序FP-Tree
Keywords
data
streams
maximal
frequent
itemsets
online
mining
sliding
window
lexicographical-order
FP-Tree
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于信息熵的数据流自适应集成分类算法
被引量:
10
20
作者
孙艳歌
王志海
原继东
白洋
机构
北京交通大学计算机与信息技术学院
信阳师范学院计算机与信息技术学院
出处
《中国科学技术大学学报》
CAS
CSCD
北大核心
2017年第7期575-582,共8页
基金
国家自然科学基金(61672086)
河南省科技计划(172102210454)
+1 种基金
北京交通大学人才基金(2016RC048)
信阳师范学院青年骨干教师计划(2016GGJS-08)资助
文摘
数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen-Shannon散度度量相邻两个窗口间数据分布的距离,不仅能检测出不同类型的概念漂移,且能有效地发现重现的概念;采用分类器池机制来保存历史概念,从而实现对概念的重用.将所提出的算法与几种经典的学习算法在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明,所提出的算法在平均分类准确率上具有明显的优势,比其他集成算法消耗更少的时间,适合多种类型概念漂移的环境,并具有较高的抗噪性.
关键词
数据流
概念漂移
集成分类器
信息熵
重复概念
Keywords
data
streams
concept
drift
ensemble
classifier
entropy
recurring
concepts
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
数据流频繁模式挖掘研究进展
潘云鹤
王金龙
徐从富
《自动化学报》
EI
CSCD
北大核心
2006
34
下载PDF
职称材料
2
数据流挖掘分类技术综述
王涛
李舟军
颜跃进
陈火旺
《计算机研究与发展》
EI
CSCD
北大核心
2007
41
下载PDF
职称材料
3
挖掘数据流中的频繁模式
刘学军
徐宏炳
董逸生
王永利
钱江波
《计算机研究与发展》
EI
CSCD
北大核心
2005
25
下载PDF
职称材料
4
数据挖掘中聚类分析算法研究
赵法信
王国业
《通化师范学院学报》
2005
13
下载PDF
职称材料
5
基于滑动窗口的数据流压缩技术及连续查询处理方法
王栩
李建中
王伟平
《计算机研究与发展》
EI
CSCD
北大核心
2004
17
下载PDF
职称材料
6
一种高效的数据流挖掘增量模糊决策树分类算法
王涛
李舟军
胡小华
颜跃进
陈火旺
《计算机学报》
EI
CSCD
北大核心
2007
18
下载PDF
职称材料
7
基于数据流方法的大规模网络异常发现
郑军
胡铭曾
云晓春
郑仲
《通信学报》
EI
CSCD
北大核心
2006
17
下载PDF
职称材料
8
数据流历史数据的存储与聚集查询处理算法
张冬冬
李建中
王伟平
郭龙江
《软件学报》
EI
CSCD
北大核心
2005
17
下载PDF
职称材料
9
动态滑动窗口的数据流聚类方法
张忠平
王浩
薛伟
夏炎
《计算机工程与应用》
CSCD
北大核心
2011
19
下载PDF
职称材料
10
数据流的核心技术与应用发展研究综述
杨颖
韩忠明
杨磊
《计算机应用研究》
CSCD
北大核心
2005
13
下载PDF
职称材料
11
孤立点检测算法及其在数据流挖掘中的可用性
孙云
李舟军
陈火旺
《计算机科学》
CSCD
北大核心
2007
15
下载PDF
职称材料
12
基于并行约简的概念漂移探测
邓大勇
徐小玉
黄厚宽
《计算机研究与发展》
EI
CSCD
北大核心
2015
18
下载PDF
职称材料
13
基于低阶近似的多维数据流相关性分析
王永利
徐宏炳
董逸生
钱江波
刘学军
《电子学报》
EI
CAS
CSCD
北大核心
2006
12
下载PDF
职称材料
14
数据流上的连续预测聚集查询
郭龙江
李建中
王伟平
张冬冬
《计算机研究与发展》
EI
CSCD
北大核心
2004
4
下载PDF
职称材料
15
时间序列数据流的自适应预测
王永利
周景华
徐宏炳
董逸生
刘学军
《自动化学报》
EI
CSCD
北大核心
2007
7
下载PDF
职称材料
16
不确定性数据流上频繁项集挖掘的有效算法
刘殷雷
刘玉葆
陈程
《计算机研究与发展》
EI
CSCD
北大核心
2011
14
下载PDF
职称材料
17
数据流频繁模式挖掘算法设计
敖富江
颜跃进
黄健
黄柯棣
《计算机科学》
CSCD
北大核心
2008
11
下载PDF
职称材料
18
多普勒天气雷达信息网络服务系统的设计
裴宇杰
顾松山
陈钟荣
《南京气象学院学报》
CSCD
北大核心
2005
11
下载PDF
职称材料
19
在线挖掘数据流滑动窗口中最大频繁项集
敖富江
颜跃进
刘宝宏
黄柯棣
《系统仿真学报》
CAS
CSCD
北大核心
2009
9
下载PDF
职称材料
20
基于信息熵的数据流自适应集成分类算法
孙艳歌
王志海
原继东
白洋
《中国科学技术大学学报》
CAS
CSCD
北大核心
2017
10
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
63
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部