-
题名一种频繁模式决策树处理可变数据流
被引量:10
- 1
-
-
作者
韩萌
王志海
丁剑
-
机构
北方民族大学计算机科学与工程学院
北京交通大学计算机与信息工程学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2016年第8期1541-1554,共14页
-
基金
国家自然科学基金(61563001)
国家民委科研基金(14BFZ008)资助
-
文摘
数据流中可能包含大量的无用信息或者噪声,频繁模式挖掘可以去除这些无用信息,且频繁模式比单个属性包含了更多的信息.因此,挖掘频繁的、有区分力的模式,可以用于有效的分类.该文提出一个两步骤算法PatHT(Pattern-based Hoeffding Tree)生成决策树用于可变数据流分类.第一步,设计增量更新算法CCFPM(Constraintsbased and Closed Frequent Pattern Mining),用于生成闭合约束频繁模式集合CFPSet(Closed Frequent Pattern Set).CCFPM中采用滑动窗口模型和时间衰减模型处理实例,设计一种均值衰减因子设置方法得到高完整性和准确性的模式集合.第二步,增量更新方法 HTreeGrow(Hoeffding Tree Growing)生成基于CFPSet的概念漂移决策树.该方法使用概念漂移检测器监督概念改变,自动调整分类模型.针对高密度和低密度的数据流,设计了不同使用模式集合的方法.在真实和模拟数据流上的实验分析表明,与其他同类算法相比,提出的方法对稳态数据流处理时可以明显提高正确率或可以明显降低训练时间,在处理不同概念漂移特性的可变数据流时也具有很好的分类效果.
-
关键词
分类
可变数据流
决策树
频繁模式挖掘
hoeffding树
数据挖掘
-
Keywords
classification
evolving data stream
decision tree
frequent pattern mining
hoeffding tree
data mining
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名自适应概念漂移的在线集成分类器
被引量:1
- 2
-
-
作者
王黎明
周驰
-
机构
郑州大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第5期74-76,共3页
-
文摘
数据流挖掘要求算法能快速地响应、占用少量内存和自适应概念漂移。根据以上要求提出一种自适应概念漂移的基于Hoeffding树在线Bagging分类算法。利用统计学理论,检验分类模型在自适应窗口内数据的分类精度是否落入真实错误率的单侧置信区间,由检测结果决定更新Hoeffding树或重建新Hoeffding树。实验结果表明,该算法在处理带有概念漂移的数据流上表现出较高的分类精度。
-
关键词
数据流
概念漂移
hoeffding树
在线Bagging
-
Keywords
data stream
concept drift
hoeffding tree
online Bagging
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名高速数据链的挖掘算法——VFDT算法
被引量:1
- 3
-
-
作者
郑伟发
李培亮
郑梁珠
潘伟贤
曾繁富
-
机构
广东商学院
-
出处
《广东商学院学报》
2002年第S2期118-120,共3页
-
文摘
本文描述并评价了VFDT(VeryFastDecisionTree)算法。它可以使用不变的内存和时间来处理每个样本 ,从而有效地解决时间、内存和样本对数据挖掘的限制 ,特别是高速数据流上的数据挖掘。它通过建立Ho effding树来进行决策支持 ,并使用Hoeffding约束来保证以高精确度处理高速数据链。
-
关键词
数据挖掘
hoeffding树
VFDT算法
-
分类号
TP301.9
[自动化与计算机技术—计算机系统结构]
-