期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
融合后验概率和密度的不平衡数据欠采样方法 被引量:3
1
作者 任艳平 郑重 +2 位作者 江一飞 严远亭 张燕平 《计算机工程与应用》 CSCD 北大核心 2022年第23期268-277,共10页
欠采样是当前解决类不平衡问题的主流方法之一。现有研究表明,高效地处理类别重叠能够有效提升过采样方法的性能。然而,目前对欠采样的研究大多认为由于样本选择策略不当而导致的关键样本丢失是影响欠采样方法性能的主要原因,为此,研究... 欠采样是当前解决类不平衡问题的主流方法之一。现有研究表明,高效地处理类别重叠能够有效提升过采样方法的性能。然而,目前对欠采样的研究大多认为由于样本选择策略不当而导致的关键样本丢失是影响欠采样方法性能的主要原因,为此,研究者从不同的角度提出了一系列针对性的方法,但鲜有对欠采样中类别重叠的研究。提出一种融合贝叶斯后验概率和分布密度的欠采样方法(BPDDUS)实现重叠区域样本的检测和清洗,并通过样本的分布信息对清洗后的样本进行欠采样。具体来说,该方法通过贝叶斯后验概率对多数类样本中潜在的噪声和重叠样本进行清洗以增强分类决策边界的清晰度。对清洗后的多数类样本,引入全局分布密度和信息熵来度量样本对不平衡数据分类学习的重要程度并对其分配相应的采样权重。按样本权重欠采样并构建集成分类系统,以提升模型的泛化能力。在43个KEEL数据库数据集上进行的数值实验验证了所提的BPDDUS方法的有效性。 展开更多
关键词 不平衡数据 欠采样 贝叶斯后验概率 全局分布密度 集成分类 信息熵
下载PDF
基于海量数据的不平衡SVM增量学习的钓鱼网站检测方法 被引量:1
2
作者 叶志雄 王丹弘 《电信工程技术与标准化》 2016年第12期26-31,共6页
钓鱼网站每年在电子商务、通信、银行等领域给用户造成极大损失,成功有效的防范钓鱼网站成为一项艰巨任务。本文通过对实际数据的分析,提取了URL相关特点、网页文本内容两方面特征描述网页,然后对不同特征构建相应分类器,根据增量学习... 钓鱼网站每年在电子商务、通信、银行等领域给用户造成极大损失,成功有效的防范钓鱼网站成为一项艰巨任务。本文通过对实际数据的分析,提取了URL相关特点、网页文本内容两方面特征描述网页,然后对不同特征构建相应分类器,根据增量学习思想优化各分类器,提升算法在线学习能力。最后采用分类集成的方法综合各个分类器的预测结果,达到对钓鱼网站在线智能检测的目标。实验表明,集成分类具有良好的在线学习能力和泛化能力。 展开更多
关键词 增量学习 钓鱼网站 不平衡SVM方法 集成分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部