期刊文献+

基于数据分布的标签噪声过滤 被引量:10

Label noise filtering based on the data distribution
原文传递
导出
摘要 在监督学习中,标签噪声对模型建立有较大的影响。目前对于标签噪声的处理方法主要有基于模型预测的过滤方法和鲁棒性建模方法,然而这些方法存在过滤效果差或者过滤效率低等问题。针对该问题,该文提出一种基于数据分布的标签噪声过滤方法。首先对于数据集中的每一个样本,根据其近邻内样本的分布,将其及邻域样本形成的区域划分为高密度区域和低密度区域,然后针对不同的区域采用不同的噪声过滤规则进行过滤。与已有方法相比,该方法从数据分布角度出发,使得噪声过滤更具有针对性从而提高过滤效果;此外,使用过滤规则对噪声数据进行处理而非建立噪声预测模型,因而可以提高过滤效率。在15个UCI标准多分类数据集上的实验结果表明:该方法在噪声低于30%时,噪声检测效率和分类精度均有很好的表现。 Label noise can severely influence supervised learning models.Existing methods are mainly based on model predictions and robust prediction modeling.However,these methods are sometimes not effective or efficient.This paper presents a label noise filtering method based on the data distribution.First,the area formed by each sample and the vicinage samples is divided into high density area or low density areas according to the distribution of the vicinage samples.Then,different noise filtering rules are used to deal with the different areas.Thus,this approach takes the data distribution into account so that the label noise filtering is focused on the key data and can avoid over-filtering.Filter rules are used instead of a noise filter forecasting model,which improves the efficiency.Tests on 15 UCI standard multi-class data sets show that this approach is effective and efficient.
作者 陈庆强 王文剑 姜高霞 CHEN Qingqiang;WANG Wenjian;JIANG Gaoxia(School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China;Key Laboratory of Computation Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China)
出处 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第4期262-269,共8页 Journal of Tsinghua University(Science and Technology)
基金 国家自然科学基金资助项目(61673249) 山西省回国留学人员科研基金资助项目(2016-004) 赛尔网络下一代互联网技术创新项目(NGII20170601)
关键词 标签噪声 噪声过滤 模型鲁棒性 数据分布 label noise noise filtering robust modeling data distribution
  • 相关文献

同被引文献35

引证文献10

二级引证文献16

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部