使用少量有标签样本学习的方法

Learning method using few labeled data

下载PDF

导出

摘要随着网络的普及,网络上产生了越来越多的数据,但是在实际生产的时候,会发现这些数据大部分都不会被打上标签;而要进行数据挖掘的任务,监督型学习算法要求有足够的标签才能进行训练。针对样本缺少标签的问题,提出并实现了正样本-无标签样本学习的方法。第一种方法首先对没有标签的样本进行评估,用评估值将样本打上标签,然后利用这些标签训练出一个模型。第二种方法通过对样本权重的把控,达到利用大量数据中信息的目的。实验结果表明,这两种方法的效果与之前的方法相似甚至能超过之前的算法,而且实现起来更加简单。 With the development of Internet,more and more data are generated.Most of these data would not be labeled in real world while the label is of vital importance when using these data.Concerning the problem of lacking labeled data,two optimized methods for positive-unlabeled learning were proposed.The first method is to evaluate and label the unknown samples before they were used to train a model.The second method is to set the sample weight to make use of the information in these datasets.The experiments show that these two methods get the similar result as the previous ones,while they are easier to implement and more robust.

作者熊智翔陆青王胤 XIONG Zhixiang;LU Qing;WANG Yin(Department of Computer Science and Technology,Tongji University,Shanghai 201804,China;Key Laboratory of Embedded Systems and Service Computing(Tongji University),Shanghai 201804,China;Technique Center,Eleme,Shanghai 200333,China)

机构地区同济大学计算机科学与技术系嵌入式系统与服务计算教育部重点实验室(同济大学) 饿了么技术中心

出处《计算机应用》 CSCD 北大核心 2018年第A02期11-15,41,共6页 journal of Computer Applications

关键词弱监督学习 Positive-Unlabeled学习异常检测机器学习数据挖掘 weakly supervised learning positive-unlabeled learning anomaly detection machine learning data mining

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1zhi-hua zhou.A brief introduction to weakly supervised learning[J].National Science Review,2018,5(1):44-53. 被引量：101
2梁吉业,高嘉伟,常瑜.半监督学习研究进展[J].山西大学学报（自然科学版）,2009,32(4):528-534. 被引量：32

二级参考文献13

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
2周志华.Multi-Instance Learning from Supervised View[J].Journal of Computer Science & Technology,2006,21(5):800-809. 被引量：12
3李和平,胡占义,吴毅红,吴福朝.基于半监督学习的行为建模与异常检测[J].软件学报,2007,18(3):527-537. 被引量：30
4郑海清,林琛,牛军钰.一种基于紧密度的半监督文本分类方法[J].中文信息学报,2007,21(3):54-60. 被引量：11
5杨剑,王珏,钟宁.流形上的Laplacian半监督回归[J].计算机研究与发展,2007,44(7):1121-1127. 被引量：15
6邓超,郭茂祖.基于Tri-Training和数据剪辑的半监督聚类算法[J].软件学报,2008,19(3):663-673. 被引量：30
7门昌骞,王文剑.一种基于多学习器标记的半监督SVM学习方法[J].广西师范大学学报（自然科学版）,2008,26(1):186-189. 被引量：9
8尹学松,胡思良,陈松灿.基于成对约束的判别型半监督聚类分析[J].软件学报,2008,19(11):2791-2802. 被引量：51
9肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
10梁吉业,钱宇华.信息系统中的信息粒与熵理论[J].中国科学（E辑）,2008,38(12):2048-2065. 被引量：51

共引文献129

1孙朝云,裴莉莉,徐磊,李伟,杜耀辉.基于DS-LOF与GA-XGBoost的路域环境感知数据智能检测与修复[J].中国公路学报,2023,36(4):15-26. 被引量：1
2麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：4
3罗益超,李争彦,张奇.基于句子选择的关键短语生成[J].中文信息学报,2021,35(8):64-72.
4郝昕毓,周建涛,王昊.表格单元格分类的端到端不完全监督方法[J].计算机与数字工程,2023,51(1):59-65.
5宋闯,赵佳佳,王康,梁欣凯.面向智能感知的小样本学习研究综述[J].航空学报,2020(S01):15-28. 被引量：15
6刘蓉.半监督学习的Co-training算法研究[J].电脑编程技巧与维护,2010(14):4-5. 被引量：1
7梁军,陈龙,周卫琪,陶文倩,姚明,胥正川.基于马尔科夫随机场和鲁棒误差函数的半监督分类研究[J].山东大学学报（理学版）,2010,45(11):1-4.
8姚林朋,王辉,钱勇,黄成军,郑文栋,江秀臣.基于半监督学习的XLPE电缆局部放电模式识别研究[J].电力系统保护与控制,2011,39(14):40-46. 被引量：19
9黄霜明,谢丽聪.协同训练半监督学习二次伪迭代算法[J].广西师范大学学报（自然科学版）,2011,29(3):110-114.
10樊艺,吴章勇.WTO与我国商业银行的业务拓展[J].现代商业银行导刊,2000(6):22-25. 被引量：1

1周映荷,刘琪,李天乐,刘龙申.基于SVM的蛋鸡叫声异常检测系统研究[J].中国农业文摘（农业工程）,2019,31(1):61-62. 被引量：3
2王巍,张沫,任永健.智能视频分析技术在铁路客站的测试研究[J].中国铁路,2018(12):106-110. 被引量：4
3徐久强,周洋洋,王进法,赵海.基于流时间影响域的网络流量异常检测[J].东北大学学报（自然科学版）,2019,40(1):26-31. 被引量：3
4黄健航,雷迎科.通信辐射源个体识别的自编码器构造方法[J].火力与指挥控制,2018,43(11):108-112. 被引量：5
5袁非牛,章琳,史劲亭,夏雪,李钢.自编码神经网络理论及应用综述[J].计算机学报,2019,42(1):203-230. 被引量：144
6王彦芳,阴彩宏.孕中期血清学筛查在产前诊断和妊娠结局预测中的应用价值[J].中国当代医药,2018,25(35):104-106. 被引量：10
7王华,罗平,张杰.引入深度学习的城市基准地价评估模型研究[J].中国土地科学,2018,32(9):59-65. 被引量：9
8张智博,苏义坤,武艾琳,曹丽斐.绿色建造标准对工业化建筑的适用性评估研究[J].建筑节能,2018,46(12):27-31. 被引量：2
9余丽秀,邵晨,朱进,江伟华,郭佳.膨润土开发利用水平评估影响因素探讨[J].矿产保护与利用,2018,38(6):20-23. 被引量：5
10冷强,杨英杰,胡浩.面向风险评估的专家权重自适应调整方法[J].计算机科学,2018,45(12):98-103. 被引量：7

计算机应用

2018年第A02期

浏览历史

内容加载中请稍等...

使用少量有标签样本学习的方法

参考文献2

二级参考文献13

共引文献129

相关作者

相关机构

相关主题

浏览历史