期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
有新类的动态数据流分类算法研究 被引量:3
1
作者 武炜杰 张景祥 《计算机科学与探索》 CSCD 北大核心 2021年第1期132-140,共9页
针对有新类的动态数据流分类算法检测新类性能不高的问题,提出一种基于k近邻的完全随机森林算法(KCRForest)。该算法利用动态数据流中已知类样本构建完全随机森林的完全随机树,并根据叶节点平均路径长度将样本空间分成正常区域与异常区... 针对有新类的动态数据流分类算法检测新类性能不高的问题,提出一种基于k近邻的完全随机森林算法(KCRForest)。该算法利用动态数据流中已知类样本构建完全随机森林的完全随机树,并根据叶节点平均路径长度将样本空间分成正常区域与异常区域。通过落入异常区域中样本的k近邻计算该样本离群值。若样本离群值大于设定阈值,则判断样本为新类,否则为已知类。落入异常区域的已知类样本由该样本的k近邻得到样本标签分布,否则取该区域中原训练样本标签分布,投票得到样本标签。当新类样本检测达到一定数量时,利用新类样本信息更新模型,便于检测其他新类。为了验证KCRForest算法检测新类的有效性,分别在4个UCI数据集上进行实验,并与已有算法进行比较。结果表明该算法的新类检测性能优于或与iForest+SVM算法、LOF+SVM算法相当,分类准确率明显高于SENCForest算法。 展开更多
关键词 新类检测 完全随机森林 动态数据流
下载PDF
一种增量更新模型的新类检测方法
2
作者 赵峰 董育宁 邱晓晖 《智能计算机与应用》 2024年第4期202-208,共7页
开集流识别网络流量分类是网络管理的重要组成部分。为了适应变化的网络环境,已有许多研究瞄准开集流识别,但这些方法不能以增量方式更新模型。针对这一问题,本文提出了一种增量更新级联结构,通过筛选的模拟新类,利用置信度阈值进行新... 开集流识别网络流量分类是网络管理的重要组成部分。为了适应变化的网络环境,已有许多研究瞄准开集流识别,但这些方法不能以增量方式更新模型。针对这一问题,本文提出了一种增量更新级联结构,通过筛选的模拟新类,利用置信度阈值进行新类检测,采用分类器级联的方式逐步包含新出现的类;当级联分类器个数达到设定值时,重新训练多分类器,以此减少分类时间。使用真实数据集对所提方法进行验证,并与代表性文献方法进行对比。结果表明,在分类性能上,本文方法已知类F1和综合性能指标NA均能达到0.9以上;在时间性能上,分类时间和平均模型更新时间显著减少,均优于代表性文献方法,有利于实现快速在线新类检测与分类。 展开更多
关键词 开集流识别 新类检测 模拟新类 增量更新
下载PDF
一种基于ELM算法的在线学习模型
3
作者 吕超 董育宁 邱晓晖 《智能计算机与应用》 2024年第6期110-118,共9页
网络应用程序的多样化对网络流量分类提出了新的挑战。如何在变化的环境中准确地识别已知类和新类流量,然后实现模型在线更新,最后将新类纳入已知类范畴成为了研究的要点。针对这一问题,本文提出了一种基于极限学习机(Ex⁃treme Learning... 网络应用程序的多样化对网络流量分类提出了新的挑战。如何在变化的环境中准确地识别已知类和新类流量,然后实现模型在线更新,最后将新类纳入已知类范畴成为了研究的要点。针对这一问题,本文提出了一种基于极限学习机(Ex⁃treme Learning Machine,ELM)的在线学习模型,使用基于ELM算法的距离度量选择辅助训练样本,根据距离度量阈值进行新类检测,采用串联识别新类的二分类器的方式包含新的流量类别,当串联的分类器数量达到设定值时重新训练模型。在真实网络流数据集上的测试结果显示,本文方法已知类F1和开集总体准确率NA均能达到0.9以上。与代表性文献方法相比,在分类性能和时间性能方面均有更好的表现。 展开更多
关键词 极限学习机 开集流识别 新类检测 辅助训练 在线学习
下载PDF
自训练新类探测半监督学习算法
4
作者 何玉林 陈佳琪 +2 位作者 黄启航 菲律普弗尼尔-维格 黄哲学 《计算机科学与探索》 CSCD 北大核心 2023年第9期2184-2197,共14页
传统的半监督学习算法(SSL)存在适用范围有限和泛化能力不足的缺陷,尤其是当训练数据集中出现未见标签的新类样本时,算法的性能将在很大程度上受到影响。基于人工标注的有标记样本获取方式需要领域专家的参与,消耗了高昂的时间和财力成... 传统的半监督学习算法(SSL)存在适用范围有限和泛化能力不足的缺陷,尤其是当训练数据集中出现未见标签的新类样本时,算法的性能将在很大程度上受到影响。基于人工标注的有标记样本获取方式需要领域专家的参与,消耗了高昂的时间和财力成本,且由于专家背景知识的局限,无法避免标记过程中的人为错标现象。为此,以提高对未见标签样本标注正确性为出发点的半监督学习算法具有迫切的实际需要。在对自训练算法进行了详细剖析之后,提出了一种有效的新类探测半监督学习算法(NCD-SSL)。首先,基于经典的极限学习机模型,构造了可处理标签增量和样本增量学习的通用增量极限学习机;然后,对自训练算法进行改进,利用标注可信度高的样本进行样本增量学习,同时设置了缓存池用以存储标注可信度低的样本;之后,使用聚类和分布一致性判定方法进行新类探测,进而实现类增量学习;最后,在仿真数据集和真实数据集上对提出算法的可行性和有效性进行了实验验证,实验结果显示在缺失类别数为3、2、1时,新算法的测试精度普遍比其他6种半监督学习算法高出30、20、10个百分点左右,从而证实了提出的算法能够获得更好的新类探测半监督学习表现。 展开更多
关键词 半监督学习(SSL) 新类探测 自训练 极限学习机 最大平均差异 分布一致性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部