概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问...概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问题,提出一种基于在线性能测试的概念漂移检测方法(concept drift detection method based on online performance test,简称CDPT).该方法将最新获得的数据集进行均匀分组,在每组子数据集上分别进行在线学习,同时记录每组子数据集训练测试得到的分类精度向量,并计算相邻学习时间单元之间的精度落差,依据测试精度下降阈值得到有效波动位点.然后采用交叉检验的方式整合不同分组中的有效波动位点,以消除流数据在线学习过程中由于训练样本过小导致模型不稳定造成的检测干扰,根据精度波动一致性得到一致波动位点.最后,通过跟踪在线学习分类准确率,得到一致波动位点邻域参照点的测试精度变化,比较一致波动位点邻域参照点对应的模型测试精度下降幅度及收敛情况,以有效检测一致波动位点当中真实的概念漂移位点.实验结果表明,该方法能够有效辨识流数据在线学习过程中发生的真实概念漂移,并能有效避免训练样本过小或者流数据中噪声对检测结果的负面影响,同时提高模型的泛化性能.展开更多
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境...流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window,CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能.展开更多
特征选择是解决数据高维性的一种有效方法,传统的特征选择算法常用经典信息论知识去度量特征的重要度,却忽略了标记和未标记数据的互相影响;同时,这些方法主要基于静态数据的多标记特征选择,很难直接应用到动态流数据环境中.而现实世界...特征选择是解决数据高维性的一种有效方法,传统的特征选择算法常用经典信息论知识去度量特征的重要度,却忽略了标记和未标记数据的互相影响;同时,这些方法主要基于静态数据的多标记特征选择,很难直接应用到动态流数据环境中.而现实世界中,由于动态环境之下特征到达的数目和顺序都是未知的,并且研究者往往可能只对最近到达的特征感兴趣,所以滑动窗口机制能很好地解决此类问题.基于此,首先引入一种具有补性质的模糊信息熵,并考虑标记和未标记数据的互相影响,提出一种加权的模糊互信息度量方法,然后结合滑动窗口机制,分别提出基于固定滑动窗口的加权模糊互信息特征选择(Feature Selection with Weighted Fuzzy Mutual Information based on Sliding Window,FS-FMI)和基于动态滑动窗口的加权模糊互信息流特征选择(Streaming Feature Selection with Weighted Fuzzy Mutual Information based on Dynamic Sliding Window,SFS-FMI-DSW)两种算法.实验结果表明,SFS-FMI-DSW算法更加有效,统计假设进一步说明了算法的有效性.展开更多
文摘概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问题,提出一种基于在线性能测试的概念漂移检测方法(concept drift detection method based on online performance test,简称CDPT).该方法将最新获得的数据集进行均匀分组,在每组子数据集上分别进行在线学习,同时记录每组子数据集训练测试得到的分类精度向量,并计算相邻学习时间单元之间的精度落差,依据测试精度下降阈值得到有效波动位点.然后采用交叉检验的方式整合不同分组中的有效波动位点,以消除流数据在线学习过程中由于训练样本过小导致模型不稳定造成的检测干扰,根据精度波动一致性得到一致波动位点.最后,通过跟踪在线学习分类准确率,得到一致波动位点邻域参照点的测试精度变化,比较一致波动位点邻域参照点对应的模型测试精度下降幅度及收敛情况,以有效检测一致波动位点当中真实的概念漂移位点.实验结果表明,该方法能够有效辨识流数据在线学习过程中发生的真实概念漂移,并能有效避免训练样本过小或者流数据中噪声对检测结果的负面影响,同时提高模型的泛化性能.
文摘流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window,CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能.
文摘特征选择是解决数据高维性的一种有效方法,传统的特征选择算法常用经典信息论知识去度量特征的重要度,却忽略了标记和未标记数据的互相影响;同时,这些方法主要基于静态数据的多标记特征选择,很难直接应用到动态流数据环境中.而现实世界中,由于动态环境之下特征到达的数目和顺序都是未知的,并且研究者往往可能只对最近到达的特征感兴趣,所以滑动窗口机制能很好地解决此类问题.基于此,首先引入一种具有补性质的模糊信息熵,并考虑标记和未标记数据的互相影响,提出一种加权的模糊互信息度量方法,然后结合滑动窗口机制,分别提出基于固定滑动窗口的加权模糊互信息特征选择(Feature Selection with Weighted Fuzzy Mutual Information based on Sliding Window,FS-FMI)和基于动态滑动窗口的加权模糊互信息流特征选择(Streaming Feature Selection with Weighted Fuzzy Mutual Information based on Dynamic Sliding Window,SFS-FMI-DSW)两种算法.实验结果表明,SFS-FMI-DSW算法更加有效,统计假设进一步说明了算法的有效性.