期刊文献+
共找到251篇文章
< 1 2 13 >
每页显示 20 50 100
轨迹大数据异常检测:研究进展及系统框架 被引量:58
1
作者 毛嘉莉 金澈清 +1 位作者 章志刚 周傲英 《软件学报》 EI CSCD 北大核心 2017年第1期17-34,共18页
定位技术与普适计算的蓬勃发展催生了轨迹大数据,轨迹大数据表现为定位设备所产生的大规模高速数据流.及时、有效地对以数据流形式出现的轨迹大数据进行分析处理,可以发现隐含在轨迹数据中的异常现象,从而服务于城市规划、交通管理、安... 定位技术与普适计算的蓬勃发展催生了轨迹大数据,轨迹大数据表现为定位设备所产生的大规模高速数据流.及时、有效地对以数据流形式出现的轨迹大数据进行分析处理,可以发现隐含在轨迹数据中的异常现象,从而服务于城市规划、交通管理、安全管控等应用.受限于轨迹大数据固有的不确定性、无限性、时变进化性、稀疏性和偏态分布性等特征,传统的异常检测技术不能直接应用于轨迹大数据的异常检测.由于静态轨迹数据集的异常检测方法通常假定数据分布先验已知,忽视了轨迹数据的时间特征,也不能评测轨迹大数据中动态演化的异常行为.面对轨迹大数据低劣的数据质量和快速的数据更新,需要利用有限的系统资源处理因时变带来的概念漂移,实时地检测多样化的轨迹异常,分析轨迹异常间的因果联系,继而识别更大时空区域内进化的、关联的轨迹异常,这是轨迹大数据异常检测的核心研究内容.此外,融合与位置服务应用相关的多源异质数据,剖析异常轨迹的起因以及其隐含的异常事件,也是轨迹大数据异常检测当下亟待研究的问题.为解决上述问题,对轨迹异常检测技术的研究成果进行了分类总结.针对现有轨迹异常检测方法的局限性,提出了轨迹大数据异常检测的系统架构.最后,在面向轨迹流的在线异常检测、轨迹异常的演化分析、轨迹异常检测系统的基准评测、异常检测结果语义分析的数据融合以及轨迹异常检测的可视化技术等方面探讨了今后的研究工作. 展开更多
关键词 异常检测 轨迹大数据 概念漂移 时变进化性
下载PDF
数据流挖掘分类技术综述 被引量:41
2
作者 王涛 李舟军 +1 位作者 颜跃进 陈火旺 《计算机研究与发展》 EI CSCD 北大核心 2007年第11期1809-1815,共7页
数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类... 数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类技术更是当前的研究热点.综述了当前国际上关于数据流挖掘分类算法的研究现状,并从数据平稳分布和带概念漂移两个方面对这些方法进行了系统的介绍与分析,最后对数据流挖掘分类技术当前所面临的问题和发展趋势进行了总结和展望. 展开更多
关键词 数据流 挖掘 分类 稳态分布 概念漂移
下载PDF
基于多分类器的数据流中的概念漂移挖掘 被引量:28
3
作者 孙岳 毛国君 +1 位作者 刘旭 刘椿年 《自动化学报》 EI CSCD 北大核心 2008年第1期93-97,共5页
数据流中概念漂移的检测是当前数据挖掘领域的重要研究分支,近年来得到了广泛的关注.本文提出了一种称为M_ID4的数据流挖掘算法.它是在大容量数据流挖掘中,通过尽量少的训练样本来实现概念漂移检测的快速方法.利用多分类器综合技术,M-ID... 数据流中概念漂移的检测是当前数据挖掘领域的重要研究分支,近年来得到了广泛的关注.本文提出了一种称为M_ID4的数据流挖掘算法.它是在大容量数据流挖掘中,通过尽量少的训练样本来实现概念漂移检测的快速方法.利用多分类器综合技术,M-ID4实现了数据流中概念漂移的增量式检测和挖掘.实验结果表明,MID4算法在处理数据流的概念漂移上表现出比已有同类算法更高的精确度和适应性. 展开更多
关键词 数据挖掘 数据流 概念漂移
下载PDF
高维类别属性数据流离群点快速检测算法 被引量:21
4
作者 周晓云 孙志挥 +1 位作者 张柏礼 杨宜东 《软件学报》 EI CSCD 北大核心 2007年第4期933-942,共10页
提出类别属性数据流数据离群度量——加权频繁模式离群因子(weighted frequent pattern outlier factor,简称WFPOF),并在此基础上给出一种快速数据流离群点检测算法FODFP-Stream(fast outlier detection for high dimensional categoric... 提出类别属性数据流数据离群度量——加权频繁模式离群因子(weighted frequent pattern outlier factor,简称WFPOF),并在此基础上给出一种快速数据流离群点检测算法FODFP-Stream(fast outlier detection for high dimensional categorical data streams based on frequent pattern).该算法通过动态发现和维护频繁模式来计算离群度,能够有效地处理高维类别属性数据流,并可进一步扩展到数值属性和混合属性数据流.对仿真数据集和真实数据集的实验检测均验证该算法具有良好的适用性和有效性. 展开更多
关键词 数据流 离群点检测 频繁模式 高维 概念转移
下载PDF
概念漂移数据流分类研究综述 被引量:25
5
作者 文益民 强保华 范志刚 《智能系统学报》 CSCD 北大核心 2013年第2期95-104,共10页
由于现有各种机器学习算法本质上都基于一个静态学习环境,而以尽量保证学习系统泛化能力为目标的寻优过程,概念漂移数据流分类给机器学习带来了巨大挑战.从数据流与概念漂移、概念漂移数据流分类研究的发展与趋势、概念漂移数据流分类... 由于现有各种机器学习算法本质上都基于一个静态学习环境,而以尽量保证学习系统泛化能力为目标的寻优过程,概念漂移数据流分类给机器学习带来了巨大挑战.从数据流与概念漂移、概念漂移数据流分类研究的发展与趋势、概念漂移数据流分类的主要研究领域、概念漂移数据流分类研究的新动态4个方面展开了文献综述,并分析了当前概念漂移数据流分类算法存在的问题. 展开更多
关键词 大数据 概念漂移 增量学习 适应学习 数据流 机器学习
下载PDF
一种基于混合模型的用户兴趣漂移方法 被引量:18
6
作者 宋丽哲 牛振东 +2 位作者 余正涛 宋瀚涛 董祥军 《计算机工程》 CAS CSCD 北大核心 2006年第1期4-6,89,共4页
针对个性化服务的系统中,如何将新发现的用户兴趣和原有兴趣合并为用户的新兴趣的问题,提出了一种基于概念相关性的用户兴趣漂移方法。采用混合模型,将用户兴趣分为长期兴趣和短期兴趣,对短期兴趣采用滑动窗口处理更新,对长期兴趣采用... 针对个性化服务的系统中,如何将新发现的用户兴趣和原有兴趣合并为用户的新兴趣的问题,提出了一种基于概念相关性的用户兴趣漂移方法。采用混合模型,将用户兴趣分为长期兴趣和短期兴趣,对短期兴趣采用滑动窗口处理更新,对长期兴趣采用基于概念相关的渐进遗忘方法,实验表明,该方法不仅能够较为准确地跟踪用户的兴趣变化,而且能够预测用户的兴趣,具有较好的效率。 展开更多
关键词 概念漂移 概念相关性 渐进遗忘 滑动窗口
下载PDF
新型含噪数据流集成分类的算法 被引量:24
7
作者 袁泉 郭江帆 《计算机应用》 CSCD 北大核心 2018年第6期1591-1595,共5页
针对数据流中概念漂移和噪声问题,提出一种新型的增量式学习的数据流集成分类算法。首先,引入噪声过滤机制过滤噪声;然后,引入假设检验方法对概念漂移进行检测,以增量式C4.5决策树为基分类器构建加权集成模型;最后,实现增量式学习实例... 针对数据流中概念漂移和噪声问题,提出一种新型的增量式学习的数据流集成分类算法。首先,引入噪声过滤机制过滤噪声;然后,引入假设检验方法对概念漂移进行检测,以增量式C4.5决策树为基分类器构建加权集成模型;最后,实现增量式学习实例并随之动态更新分类模型。实验结果表明,该集成分类器对概念漂移的检测精度达到95%~97%,对数据流抗噪性保持在90%以上。该算法分类精度较高,且在检测概念漂移的准确性和抗噪性方面有较好的表现。 展开更多
关键词 数据流 噪声 概念漂移 分类算法 分类精度
下载PDF
基于半监督学习的数据流集成分类算法 被引量:18
8
作者 徐文华 覃征 常扬 《模式识别与人工智能》 EI CSCD 北大核心 2012年第2期292-299,共8页
已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性.针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集... 已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性.针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类.实验结果表明,使用同样数量的已标记训练数据,SEClass算法与最新的有监督集成分类算法相比,其准确率平均高5.33%.且运算时间随属性维度和类标签数量的增加呈线性增长,能够适用于高维、高速数据流分类问题. 展开更多
关键词 属性权值 概念漂移 集成分类器 同质性 K均值聚类 半监督学习 数据流分类
原文传递
基于并行约简的概念漂移探测 被引量:18
9
作者 邓大勇 徐小玉 黄厚宽 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期1071-1079,共9页
数据流挖掘是当前数据挖掘研究的一个热点,概念漂移检测是数据流挖掘的一个重要研究方向.虽然有不少概念漂移的探测方法,但是它们都有一些共同的缺陷:没有整体上删除冗余属性以及利用外部属性去探测概念漂移(比如利用对外部数据的分类... 数据流挖掘是当前数据挖掘研究的一个热点,概念漂移检测是数据流挖掘的一个重要研究方向.虽然有不少概念漂移的探测方法,但是它们都有一些共同的缺陷:没有整体上删除冗余属性以及利用外部属性去探测概念漂移(比如利用对外部数据的分类准确率)等.利用粗糙集和F-粗糙集的基本原理和基本方法,把数据流中的滑动窗口当成决策子表簇,提出了一种对数据流进行并行约简、整体删除冗余属性的方法,并运用并行约简后数据流决策子表簇中属性重要性的变化探测概念漂移现象.与传统的方法不同,新方法利用数据的内部特性对概念漂移进行探测.实验结果显示,该方法能够有效地整体删除冗余属性、探测概念漂移现象,并且基于互信息的属性重要性在概念漂移探测效果方面比基于正区域的属性重要性要好些. 展开更多
关键词 数据流 概念漂移 粗糙集 F-粗糙集 并行约简
下载PDF
流数据概念漂移的检测算法 被引量:16
10
作者 张杰 赵峰 《控制与决策》 EI CSCD 北大核心 2013年第1期29-35,共7页
鉴于流数据具有实时、连续、有序和无限等特点,使用近似方法便可检测连续分时段的流数据序列,基于此,运用目标分布数据,结合相似分布理论,提出了利用Tr-OEM算法对流数据中的概念漂移现象进行检测.该算法能够动态地判断流数据概念漂移的... 鉴于流数据具有实时、连续、有序和无限等特点,使用近似方法便可检测连续分时段的流数据序列,基于此,运用目标分布数据,结合相似分布理论,提出了利用Tr-OEM算法对流数据中的概念漂移现象进行检测.该算法能够动态地判断流数据概念漂移的发生,自适应地优化概念漂移的检测值,适用于不同类型的流数据.通过分析和实验仿真可以表明,该算法在处理流数据概念漂移时具有较好的适应性. 展开更多
关键词 流数据 概念漂移 检测 数据挖掘
原文传递
基于在线迁移学习的重现概念漂移数据流分类 被引量:16
11
作者 文益民 唐诗淇 +1 位作者 冯超 高凯 《计算机研究与发展》 EI CSCD 北大核心 2016年第8期1781-1791,共11页
随着大数据时代的到来,数据流分类被应用于诸多领域,如:垃圾邮件过滤、市场预测及天气预报等.重现概念是这些应用领域的重要特点之一.针对重现概念的学习与分类问题中的"负迁移"和概念漂移检测的滞后性,提出了一种基于在线迁... 随着大数据时代的到来,数据流分类被应用于诸多领域,如:垃圾邮件过滤、市场预测及天气预报等.重现概念是这些应用领域的重要特点之一.针对重现概念的学习与分类问题中的"负迁移"和概念漂移检测的滞后性,提出了一种基于在线迁移学习的重现概念漂移数据流分类算法——RC-OTL.RC-OTL在检测到概念漂移时存储刚学习的一个基分类器,然后计算最近的样本与存储的各历史分类器之间的领域相似度,以选择最适合对后续样本进行学习的源分类器,从而改善从源领域到目标领域的知识迁移.另外,RC-OTL还在概念漂移检测之前根据分类准确率选择合适的分类器对后续样本分类.初步的理论分析解释了RC-OTL为什么能有效克服"负迁移",实验结果进一步表明:RC-OTL的确能有效提高分类准确率,并且在遭遇概念漂移后能更快地适应后续样本. 展开更多
关键词 概念漂移 迁移学习 重现概念 在线学习 负迁移
下载PDF
数据流决策树分类方法综述 被引量:16
12
作者 贾涛 韩萌 +2 位作者 王少峰 杜诗语 申明尧 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2019年第4期49-60,共12页
数据流的特征是海量的、高速流动的、实时处理的.由于一些数据分布随着时间而改变,因此将这些数据流称为概念漂移.首先按照分类模型对数据流决策树进行分类,分为单分类决策树和集成分类决策树.单分类模型分为快速决策树、变异决策树和... 数据流的特征是海量的、高速流动的、实时处理的.由于一些数据分布随着时间而改变,因此将这些数据流称为概念漂移.首先按照分类模型对数据流决策树进行分类,分为单分类决策树和集成分类决策树.单分类模型分为快速决策树、变异决策树和其他决策树算法.集成分类模型分为衍生快速决策树和随机决策树变体算法.其次介绍了概念漂移处理技术,包括概念漂移问题的描述、常见的概念漂移处理技术和用于解决概念漂移的决策树算法.接着介绍了增量模型决策树算法,最后对本文介绍的决策树算法进行分析总结. 展开更多
关键词 数据流挖掘 分类 决策树 概念漂移 集成分类
下载PDF
基于滚动时间窗口支持向量机的财务困境预测动态建模 被引量:15
13
作者 孙洁 李辉 韩建光 《管理工程学报》 CSSCI 北大核心 2010年第4期174-180,92,共8页
该文从财务困境概念漂移的全新视角,提出了基于滚动时间窗口支持向量机(support vector machine,SVM)的财务困境预测动态建模新方法。设计了面向概念漂移进行财务困境预测动态建模的思路框架,分为宽度固定的滚动时间窗口SVM和宽度可变... 该文从财务困境概念漂移的全新视角,提出了基于滚动时间窗口支持向量机(support vector machine,SVM)的财务困境预测动态建模新方法。设计了面向概念漂移进行财务困境预测动态建模的思路框架,分为宽度固定的滚动时间窗口SVM和宽度可变的滚动时间窗口SVM分别展开算法设计。以中国上市公司为对象,通过模拟时间推移过程,对2000至2008期间被ST的上市公司及其配对公司共692个样本展开实证研究。结果表明:基于滚动时间窗口SVM的财务困境预测动态建模方法能够有效地适应财务困境的概念漂移现象,对未来企业财务困境的预测效果明显优于静态SVM模型。通过比较分析,认为适应性可变时间窗口SVM动态建模方法具有较好的应用推广性。 展开更多
关键词 财务困境预测 概念漂移 滚动时间窗口 支持向量机
下载PDF
基于改进AdaBoost算法的动态不平衡财务预警模型 被引量:15
14
作者 任婷婷 鲁统宇 崔俊 《数量经济技术经济研究》 CSSCI CSCD 北大核心 2021年第11期182-196,F0003,共16页
研究目标:构建动态不平衡财务预警模型以同时处理概念漂移和数据分布不平衡问题。研究方法:在改进AdaBoost算法的基础上,以代价敏感支持向量机为基分类器构建ADA-CSSVM-TW模型,并利用我国2010~2020年制造业公司数据进行分析。研究发现:A... 研究目标:构建动态不平衡财务预警模型以同时处理概念漂移和数据分布不平衡问题。研究方法:在改进AdaBoost算法的基础上,以代价敏感支持向量机为基分类器构建ADA-CSSVM-TW模型,并利用我国2010~2020年制造业公司数据进行分析。研究发现:ADA-CSSVM-TW模型可显著提高预测准确率,性能良好,模型稳健。研究创新:将代价敏感支持向量机作为改进AdaBoost算法的基分类器,建立动态不平衡预警模型。研究价值:对我国上市公司有效防范财务困境具有重要的理论价值和现实意义。 展开更多
关键词 财务预警 不平衡数据 代价敏感学习 概念漂移 ADABOOST算法
原文传递
具有回忆和遗忘机制的数据流挖掘模型与算法 被引量:15
15
作者 赵强利 蒋艳凰 卢宇彤 《软件学报》 EI CSCD 北大核心 2015年第10期2567-2580,共14页
集成式数据流挖掘是对存在概念漂移的数据流进行学习的重要方法.针对传统集成式数据流挖掘存在的缺陷,将人类的回忆和遗忘机制引入到数据流挖掘中,提出基于记忆的数据流挖掘模型MDSM(memorizing based data stream mining).该模型将基... 集成式数据流挖掘是对存在概念漂移的数据流进行学习的重要方法.针对传统集成式数据流挖掘存在的缺陷,将人类的回忆和遗忘机制引入到数据流挖掘中,提出基于记忆的数据流挖掘模型MDSM(memorizing based data stream mining).该模型将基分类器看作是系统获得的知识,通过"回忆与遗忘"机制,不仅使历史上有用的基分类器因记忆强度高而保存在"记忆库"中,提高预测的稳定性,而且从"记忆库"中选取当前分类效果好的基分类器参与集成预测,以提高对概念变化的适应能力.基于MDSM模型,提出了一种集成式数据流挖掘算法MAE(memorizing based adaptive ensemble),该算法利用Ebbinghaus遗忘曲线对系统的遗忘机制进行设计,并利用选择性集成来模拟人类的"回忆"机制.与4种典型的数据流挖掘算法进行比较,结果表明:MAE算法分类精度高,对概念漂移的整体适应能力强,尤其对重复出现的概念漂移以及实际应用中存在的复杂概念漂移具有很好的适应能力.不仅能够快速适应新的概念变化,并且能够有效抵御随机的概念波动对系统性能的影响. 展开更多
关键词 数据流挖掘 概念漂移 回忆与遗忘 Ebbinghaus遗忘曲线 选择性集成
下载PDF
一种基于时间衰减模型的数据流闭合模式挖掘方法 被引量:15
16
作者 韩萌 王志海 原继东 《计算机学报》 EI CSCD 北大核心 2015年第7期1473-1483,共11页
数据流是随着时间顺序快速变化的和连续的,对其进行频繁模式挖掘时会出现概念漂移现象.在一些数据流应用中,通常认为最新的数据具有最大的价值.数据流挖掘会产生大量无用的模式,为了减少无用模式且保证无损压缩,需要挖掘闭合模式.因此,... 数据流是随着时间顺序快速变化的和连续的,对其进行频繁模式挖掘时会出现概念漂移现象.在一些数据流应用中,通常认为最新的数据具有最大的价值.数据流挖掘会产生大量无用的模式,为了减少无用模式且保证无损压缩,需要挖掘闭合模式.因此,提出了一种基于时间衰减模型和闭合算子的数据流闭合模式挖掘方式TDMCS(Time-Decay-Model-based Closed frequent pattern mining on data Stream).该算法采用时间衰减模型来区分滑动窗口内的历史和新近事务权重,使用闭合算子提高闭合模式挖掘的效率,设计使用最小支持度-最大误差率-衰减因子的三层架构避免概念漂移,设计一种均值衰减因子平衡算法的高查全率和高查准率.实验分析表明该算法适用于挖掘高密度、长模式的数据流;且具有较高的效率,在不同大小的滑动窗口条件下性能表现是稳态的,同时也优于其他同类算法. 展开更多
关键词 事务数据流 数据流挖掘 频繁模式挖掘 闭合模式挖掘 时间衰减模型 概念漂移
下载PDF
基于信息熵更新权重的数据流集成分类算法 被引量:13
17
作者 夏源 赵蕴龙 范其林 《计算机科学》 CSCD 北大核心 2022年第3期92-98,共7页
在动态的数据流中,由于其不稳定性以及存在概念漂移等问题,集成分类模型需要有及时适应新环境的能力。目前通常使用监督信息对基分类器的权重进行更新,以此来赋予符合当前环境的基分类器更高的权重,然而监督信息在真实数据流环境下无法... 在动态的数据流中,由于其不稳定性以及存在概念漂移等问题,集成分类模型需要有及时适应新环境的能力。目前通常使用监督信息对基分类器的权重进行更新,以此来赋予符合当前环境的基分类器更高的权重,然而监督信息在真实数据流环境下无法立即获得。为了解决这个问题,文中提出了一种基于信息熵更新基分类器权重的数据流集成分类算法。首先使用随机特征子空间对每个基分类器进行初始化来构建集成分类器;其次基于每个新到来的数据块构建一个新的基分类器来替换集成中权重最低的基分类器;然后基于信息熵的权重更新策略实时对基分类器中的权重进行更新;最后满足要求的基分类器参与加权投票,得到分类结果。将所提算法和几个经典学习算法进行对比,实验结果表明,所提方法的分类准确性有着明显优势,并且适合多种类型的概念漂移环境。 展开更多
关键词 数据流 概念漂移 信息熵 分类 集成算法
下载PDF
基于信息熵的自适应网络流概念漂移分类方法 被引量:14
18
作者 潘吴斌 程光 +1 位作者 郭晓军 黄顺翔 《计算机学报》 EI CSCD 北大核心 2017年第7期1556-1571,共16页
由于网络流量特征随时间和网络环境的变化而发生改变,导致基于机器学习的流量分类方法精度明显降低.同时,根据经验定期更新分类器是耗时的,且难以保证新分类器泛化性能.因而,文中提出一种基于信息熵的自适应网络流概念漂移分类方法,首... 由于网络流量特征随时间和网络环境的变化而发生改变,导致基于机器学习的流量分类方法精度明显降低.同时,根据经验定期更新分类器是耗时的,且难以保证新分类器泛化性能.因而,文中提出一种基于信息熵的自适应网络流概念漂移分类方法,首先根据特征属性的信息熵变化检测概念漂移,再采用增量集成学习策略在概念漂移点引入当前流量建立的分类器,并剔除性能下降的分类器,达到更新分类器的目的,最后加权集成分类结果.实验结果表明该方法可以有效地检测概念漂移并更新分类器,表现出较好的分类性能和泛化能力. 展开更多
关键词 概念漂移 机器学习 信息熵检测 增量集成学习 流量分类
下载PDF
基于在线性能测试的概念漂移检测方法 被引量:12
19
作者 郭虎升 张爱娟 王文剑 《软件学报》 EI CSCD 北大核心 2020年第4期932-947,共16页
概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问... 概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问题,提出一种基于在线性能测试的概念漂移检测方法(concept drift detection method based on online performance test,简称CDPT).该方法将最新获得的数据集进行均匀分组,在每组子数据集上分别进行在线学习,同时记录每组子数据集训练测试得到的分类精度向量,并计算相邻学习时间单元之间的精度落差,依据测试精度下降阈值得到有效波动位点.然后采用交叉检验的方式整合不同分组中的有效波动位点,以消除流数据在线学习过程中由于训练样本过小导致模型不稳定造成的检测干扰,根据精度波动一致性得到一致波动位点.最后,通过跟踪在线学习分类准确率,得到一致波动位点邻域参照点的测试精度变化,比较一致波动位点邻域参照点对应的模型测试精度下降幅度及收敛情况,以有效检测一致波动位点当中真实的概念漂移位点.实验结果表明,该方法能够有效辨识流数据在线学习过程中发生的真实概念漂移,并能有效避免训练样本过小或者流数据中噪声对检测结果的负面影响,同时提高模型的泛化性能. 展开更多
关键词 流数据 概念漂移 交叉检验 有效波动位点 一致波动位点 概念漂移位点
下载PDF
基于时序窗口的概念漂移类别检测 被引量:10
20
作者 郭虎升 任巧燕 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2022年第1期127-143,共17页
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境... 流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window,CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能. 展开更多
关键词 流数据 概念漂移 时序窗口 漂移跨度 概念漂移类别
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部