半监督学习方法通过少量标记数据和大量未标记数据来提升学习性能.Tri-training是一种经典的基于分歧的半监督学习方法,但在学习过程中可能产生标记噪声问题.为了减少Tri-training中的标记噪声对未标记数据的预测偏差,学习到更好的半监...半监督学习方法通过少量标记数据和大量未标记数据来提升学习性能.Tri-training是一种经典的基于分歧的半监督学习方法,但在学习过程中可能产生标记噪声问题.为了减少Tri-training中的标记噪声对未标记数据的预测偏差,学习到更好的半监督分类模型,用交叉熵代替错误率以更好地反映模型预估结果和真实分布之间的差距,并结合凸优化方法来达到降低标记噪声的目的,保证模型效果.在此基础上,分别提出了一种基于交叉熵的Tri-training算法、一个安全的Tri-training算法,以及一种基于交叉熵的安全Tri-training算法.在UCI(University of California Irvine)机器学习库等基准数据集上验证了所提方法的有效性,并利用显著性检验从统计学的角度进一步验证了方法的性能.实验结果表明,提出的半监督学习方法在分类性能方面优于传统的Tri-training算法,其中基于交叉熵的安全Tri-training算法拥有更高的分类性能和泛化能力.展开更多
Tri-Training算法是半监督算法中的一种,其初始分类器性能受有标记样本影响较大,当样本数目不足时,分类器性能相对较弱,会直接影响后续迭代.为此提出IFS-Tri-Training(Tri-Training based on intuitionistic fuzzy sets)算法,引入SOM算...Tri-Training算法是半监督算法中的一种,其初始分类器性能受有标记样本影响较大,当样本数目不足时,分类器性能相对较弱,会直接影响后续迭代.为此提出IFS-Tri-Training(Tri-Training based on intuitionistic fuzzy sets)算法,引入SOM算法构建直觉模糊集,使得分类器在多因素下综合判别无标记样本,提高无标记样本的使用率,从而在迭代中扩展有标记样本集.在多个UCI数据上进行实验,结果数据表明,分类器的性能得到提高,学习无标记样本过程是影响分类器的关键点.展开更多
文摘半监督学习方法通过少量标记数据和大量未标记数据来提升学习性能.Tri-training是一种经典的基于分歧的半监督学习方法,但在学习过程中可能产生标记噪声问题.为了减少Tri-training中的标记噪声对未标记数据的预测偏差,学习到更好的半监督分类模型,用交叉熵代替错误率以更好地反映模型预估结果和真实分布之间的差距,并结合凸优化方法来达到降低标记噪声的目的,保证模型效果.在此基础上,分别提出了一种基于交叉熵的Tri-training算法、一个安全的Tri-training算法,以及一种基于交叉熵的安全Tri-training算法.在UCI(University of California Irvine)机器学习库等基准数据集上验证了所提方法的有效性,并利用显著性检验从统计学的角度进一步验证了方法的性能.实验结果表明,提出的半监督学习方法在分类性能方面优于传统的Tri-training算法,其中基于交叉熵的安全Tri-training算法拥有更高的分类性能和泛化能力.
文摘Tri-Training算法是半监督算法中的一种,其初始分类器性能受有标记样本影响较大,当样本数目不足时,分类器性能相对较弱,会直接影响后续迭代.为此提出IFS-Tri-Training(Tri-Training based on intuitionistic fuzzy sets)算法,引入SOM算法构建直觉模糊集,使得分类器在多因素下综合判别无标记样本,提高无标记样本的使用率,从而在迭代中扩展有标记样本集.在多个UCI数据上进行实验,结果数据表明,分类器的性能得到提高,学习无标记样本过程是影响分类器的关键点.