基于混合比例估计的标签噪声学习方法

Label-noise learning via mixture proportion estimation

导出

摘要近年来,人工智能蓬勃发展,伴随着计算硬件算力的提升,深度学习已成为了人工智能算法的新范式.然而深度学习依赖大量精确标注的数据,在现实的多类别分类场景中,受限于标注成本和隐私数据保护等因素,大量精准标注的数据往往难以获得.近些年,移动众包和网络爬虫这类经济廉价的数据收集方法被广泛采用,但他们不可避免地引入了错误标注,即标签噪声.鉴于深度神经网络强大的数据拟合能力,标签噪声的存在将造成算法的过拟合,严重制约了深度学习方法的泛化能力.针对标签噪声问题,现有研究大多显式或隐式地依赖锚点(明确属于某一类别的样本),然而在现实场景中锚点难以获取,这使得现有解决方案不再适用.为解决这一问题,本文创造性地将多类别标签噪声学习问题转化为混合比例估计(mixture proportion estimation,MPE)问题,构建了一种不依赖锚点的满足统计一致性的学习算法.本文的主要贡献包括:(1)对现有的仅适用于二组成物MPE场景的R-MPE(regrouping-MPE)方法进行推广,提出了多组成物场景下不依赖不可约假设的MPE方法MR-MPE(multi-component oriented R-MPE);(2)理论上证明了多类别分类场景下标签噪声学习算法锚点假设和MPE问题不可约假设的等价性,并基于所提出的MR-MPE方法构建了不依赖锚点的满足统计一致性的算法.本文在合成噪声数据集和真实噪声数据集上分别与现有算法进行了对比实验,结果显示本文所提算法在多个数据集上均展现出了最优的性能;同时,在移除锚点的情况下,本文对算法的鲁棒性进行了测试,验证了所提算法不依赖锚点的特性. With the rise of artificial intelligence in recent years,along with the improvement of hardware computing power,deep learning has emerged as the new paradigm for artificial intelligence algorithms.In realistic multi-class classification scenarios,deep learning relies heavily on the availability of massive manually labeled data;the limitations of labeling costs and privacy protections,however,often make it difficult to obtain adequate amounts of appropriately labeled data for deep learning.Recently,crowdsourcing and web crawling have provided an easy way to collect large amounts of labeled data,but they are limited by the inevitable introduction of label noise.As deep neural networks have a high capacity to fit noisy labels,it is challenging to train deep networks robustly with noisy labels.For robust learning,existing works commonly rely explicitly or implicitly on a given set of anchor points,i.e.,instances that almost certainly belong to the true classes.Unfortunately,anchor points are difficult to obtain in practice,which makes these works fragile.To address this problem,in this paper,we build an anchor-free statistically consistent algorithm in the presence of label noise by creatively transforming the multi-class label-noise learning problem into a mixture proportion estimation(MPE)problem.This paper makes the following contributions:(i)we for the first time generalize the existing Regrouping-MPE(R-MPE)method that is only suitable for two-component scenarios,and propose a multi-component oriented R-MPE(MRMPE)method without relying on the common irreducible assumption;and(ii)from a theoretical perspective,we demonstrate that the anchor point hypothesis for label-noise learning is equivalent to the irreducible hypothesis for MPE problems in the context of multi-class classification.Therefore,an anchor-free statistically consistent label-noise learning algorithm is subsequently constructed based on the proposed MR-MPE method.In this paper,comparative experiments with existing algorithms are conducted on both sy

作者郑庆华曹书植阮建飞赵锐董博 Qinghua ZHENG;Shuzhi CAO;Jianfei RUAN;Rui ZHAO;Bo DONG(School of Computer Science and Technology,Xi'an Jiaotong University,Xi'an 710049,China;School of Continuing Education,Xi'an Jiaotong University,Xi'an 710049,China;Ministry of Education Key Lab for Intelligent Networks and Network Security,Xi'an 710049,China;Shaanxi Province Key Lab of Satellite and Terrestrial Network Technology Research and Development,Xi'an 710049,China)

机构地区西安交通大学计算机科学与技术学院西安交通大学继续教育学院智能网络与网络安全教育部重点实验室陕西省天地网技术重点实验室

出处《中国科学：信息科学》 CSCD 北大核心 2024年第3期603-622,共20页 Scientia Sinica(Informationis)

基金科技创新2030—“新一代人工智能”重大项目(批准号:2020AAA0108800) 国家自然科学基金(批准号:62037001,61721002,62002282) 教育部创新团队项目(批准号:IRT−17R86) 西安交通大学本科教学改革研究项目(批准号:20JX04Y) 西安交大-税友集团税务大数据协同创新项目资助。

关键词混合比例估计多类别分类标签噪声学习锚点不可约假设统计一致性 mixture proportion estimation multi-class classification label-noise learning anchor point irreducible assumption statistical consistency

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP309 [自动化与计算机技术—控制科学与工程]

引文网络
相关文献

参考文献2

1陈长建,姜流,雷娜,刘世霞.基于众包学习的交互式特征选择方法[J].中国科学：信息科学,2020,50(6):794-812. 被引量：4
2秦川,祝恒书,庄福振,郭庆宇,张琦,张乐,王超,陈恩红,熊辉.基于知识图谱的推荐系统研究综述[J].中国科学：信息科学,2020,50(7):937-956. 被引量：119

二级参考文献4

1李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26
2巫英才,崔为炜,宋阳秋,陈杨,刘世霞.基于主题的文本可视分析研究[J].计算机辅助设计与图形学学报,2012,24(10):1266-1272. 被引量：10
3肖剑楠,刘梦尘,刘世霞.新闻数据可视分析系统[J].计算机辅助设计与图形学学报,2016,28(11):1863-1871. 被引量：6
4Zhi-Hua ZHOU.Abductive learning: towards bridging machine learning and logical reasoning[J].Science China(Information Sciences),2019,62(7):220-222. 被引量：22

共引文献121

1熊回香,黄晓捷,肖兵,王妞妞.在线学术资源中基于时序知识图谱的学者推荐研究[J].情报科学,2022,40(8):3-10.
2陈新元,周忠眉,陈庆强,高美春,施达雅.结合四元数路径集成和空洞循环卷积的知识表示[J].中文信息学报,2023,37(3):54-64.
3张艺玲,徐玮,周宇帆,王雅琳,郑豪.基于人脸识别的精准商品推送系统[J].智能计算机与应用,2020,10(9):199-202.
4程开原,姚俊萍,李晓军,王伊靖.时态网络中知识图谱推荐:关键技术与研究进展[J].中国电子科学研究院学报,2021,16(2):174-183. 被引量：9
5付文博,尹立杰.个性化推荐系统冷启动问题研究综述[J].新一代信息技术,2020,3(24):35-40.
6孙佳琛,王金龙,丁国如,陈瑾,龚玉萍.频谱知识图谱:面向未来频谱管理的智能引擎[J].通信学报,2021,42(5):1-12. 被引量：15
7赵雪芹,王青青,蔡铨.基于三元交互决定论的在线学术社区动态知识推荐服务模型研究[J].农业图书情报学报,2021,33(5):4-13. 被引量：3
8汪涛,夏彬.基于文本集密度的社交媒体软件内容推荐系统设计研究[J].现代电子技术,2021,44(12):73-77. 被引量：4
9吴林静,马鑫倩,刘清堂,王瑾洁,高喻.大数据支持的慕课论坛教师干预预测及应用[J].电化教育研究,2021,42(7):47-53. 被引量：9
10付文博,尹立杰.基于个性化推荐系统的冷启动问题研究进展[J].新一代信息技术,2021,4(3):8-13.

1魏琦,孙皓亮,马玉玲,尹义龙.面向标签噪声的联合训练框架[J].中国科学：信息科学,2024,54(1):144-158.
2鲍琪琪,孙超仁.一种应用于智能分诊的改进朴素贝叶斯方法[J].现代医院,2024,24(3):424-427. 被引量：1
3王晴佳.“哥廷根七君子”和德意志学术文化[J].读书,2024(1):65-70.
4丁成砚,孙杰,李霄剑,彭文,张殿华.基于混合多阶集成模型的非平衡热轧带钢凸度智能诊断[J].Journal of Central South University,2024,31(3):762-782. 被引量：1
5徐圣方,王金阳.Python爬虫获取豆瓣观众影评数据及可视化分析[J].网络安全技术与应用,2024(4):59-62. 被引量：2
6史梦龙,张晨瑶,吴晓蕾,马毓聪,杜亮,刘炳林,曹璐佳,张俊华.“以患者为中心药物研发”中患者体验数据的收集技术要点[J].中国循证医学杂志,2024,24(4):478-483. 被引量：2
7Jinlan Wang,Chenghua Sun,Shaohua Dong.Editorial:special topic on computation-assisted materials screening and design[J].Science China Materials,2024,67(4):1011-1013.
8陈杰,邢灵博,李胃胜,陈志祥,陈崇萍.不完备质量下带有风险厌恶的库存决策模型[J].中国管理科学,2024,32(2):54-64. 被引量：1
9周雪晴.基于人力绩效考核的团队协作与绩效提升研究[J].中文科技期刊数据库（全文版）经济管理,2024(4):0053-0057.
10Xuepu Cao,Shengkun Jia,Xing Qian,Yiqing Luo,Xigang Yuan.Cascade equilibrium stage relaxation method by introducing equilibrium efficiency parameter[J].Chinese Journal of Chemical Engineering,2024,66(2):145-156.

中国科学：信息科学

2024年第3期

浏览历史

内容加载中请稍等...

基于混合比例估计的标签噪声学习方法

参考文献2

二级参考文献4

共引文献121

相关作者

相关机构

相关主题

浏览历史