-
题名基于动态阈值和差异性检验的自训练算法
- 1
-
-
作者
吕佳
邱鸿波
肖锋
-
机构
重庆师范大学计算机与信息科学学院
重庆市数字农业服务工程技术研究中心
-
出处
《智能系统学报》
CSCD
北大核心
2024年第4期839-852,共14页
-
基金
国家自然科学基金重大项目(11991024)
重庆市教委“成渝地区双城经济圈建设”科技创新项目(KJCX2020024)
重庆市高校创新研究群体资助项目(CXQT20015).
-
文摘
针对自训练算法在迭代训练分类器的过程中存在难以有效选取高置信度样本以及误标记样本错误累积的问题,本文提出了基于动态阈值和差异性检验的自训练算法。引入样本的局部离群因子,据此剔除有标签样本中的离群点以及分类标注无标签样本,依据标注分批次处理无标签样本,以使模型更易选取到高置信度的无标签样本;根据新增伪标签样本的数量和对比隶属度的变化,设计一种动态隶属度阈值函数,提升高置信度样本的质量;定义密集距离度量样本间的差异性,分别计算伪标签样本与同类和不同类样本之间的密集距离之和,从而找出不确定度高的伪标签样本,并将此类样本并入下轮训练的无标签样本集中,缓解误标记样本错误累积的问题。实验结果表明,该算法在12个UCI基准数据集上均取得理想效果。
-
关键词
自训练算法
误标记样本
高置信度样本
动态阈值
差异性检验
局部离群因子
对比隶属度
密集距离
-
Keywords
self-training algorithm
mislabeled samples
high-confidence samples
dynamic threshold
difference test
local outlier factor
contrast membership
dense distance
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-