The aim of the paper is to estimate the density functions or distribution functions measured by Wasserstein metric, a typical kind of statistical distances, which is usually required in the statistical learning. Based...The aim of the paper is to estimate the density functions or distribution functions measured by Wasserstein metric, a typical kind of statistical distances, which is usually required in the statistical learning. Based on the classical Bernstein approximation, a scheme is presented. To get the error estimates of the scheme, the problem turns to estimating the L1 norm of the Bernstein approximation for monotone C-1 functions, which was rarely discussed in the classical approximation theory. Finally, we get a probability estimate by the statistical distance.展开更多
Fisher线性判别分析(Fisher Linear Discriminant Analysis,FLDA)是一种典型的监督型特征提取方法,旨在最大化Fisher准则,寻求最优投影矩阵。在标准Fisher准则中,涉及到的度量为L_2范数度量,此度量通常缺乏鲁棒性,对异常值点较敏感。为...Fisher线性判别分析(Fisher Linear Discriminant Analysis,FLDA)是一种典型的监督型特征提取方法,旨在最大化Fisher准则,寻求最优投影矩阵。在标准Fisher准则中,涉及到的度量为L_2范数度量,此度量通常缺乏鲁棒性,对异常值点较敏感。为提高鲁棒性,引入了一种基于L_1范数度量的FLDA及其优化求解算法。实验结果表明:在很多情形下,相比于传统的L_2范数FLDA,L_1范数FLDA具有更好的分类精度和鲁棒性。展开更多
目的度量学习是机器学习与图像处理中依赖于任务的基础研究问题。由于实际应用背景复杂,在大量不可避免的噪声环境下,度量学习方法的性能受到一定影响。为了降低噪声影响,现有方法常用L1距离取代L2距离,这种方式可以同时减小相似样本和...目的度量学习是机器学习与图像处理中依赖于任务的基础研究问题。由于实际应用背景复杂,在大量不可避免的噪声环境下,度量学习方法的性能受到一定影响。为了降低噪声影响,现有方法常用L1距离取代L2距离,这种方式可以同时减小相似样本和不相似样本的损失尺度,却忽略了噪声对类内和类间样本的不同影响。为此,本文提出了一种非贪婪的鲁棒性度量学习算法——基于L2/L1损失的边缘费歇尔分析(marginal Fisher analysis based on L2/L1 loss,MFA-L2/L1),采用更具判别性的损失,可提升噪声环境下的识别性能。方法在边缘费歇尔分析(marginal Fisher analysis,MFA)方法的基础上,所提模型采用L2距离刻画相似样本损失、L1距离刻画不相似样本损失,同时加大对两类样本的惩罚程度以提升方法的判别性。首先,针对模型非凸带来的求解困难,将目标函数转为迭代两个凸函数之差便于求解;然后,受DCA(difference of convex functions algorithm)思想启发,推导出非贪婪的迭代求解算法,求得最终度量矩阵;最后,算法的理论证明保证了迭代算法的收敛性。结果在5个UCI(University of California Irrine)数据集和7个人脸数据集上进行对比实验:1)在不同程度噪声的5个UCI数据集上,MFA-L2/L1算法最优,且具有较好的抗噪性,尤其在30%噪声程度的Seeds和Wine数据集上,与次优方法LDANgL1(non-greedy L1-norm linear discriminant analysis))相比,MFA-L2/L1的准确率高出9%;2)在不同维度的AR和FEI人脸数据集上的实验,验证了模型采用L1损失、采用L2损失提升了模型的判别性;3)在Senthil、Yale、ORL、Caltech和UMIST人脸数据集的仿真实验中,MFA-L2/L1算法呈现出较强鲁棒性,性能排名第1。结论本文提出了一种基于L2/L1损失的鲁棒性度量学习模型,并推导了一种便捷有效的非贪婪式求解算法,进行了算法收敛性的理论分析。在不同数据集的不同噪声情况下的实展开更多
基金Supported by 973-Project of China(2006cb303102)the National Science Foundation of China(11461161006,11201079)
文摘The aim of the paper is to estimate the density functions or distribution functions measured by Wasserstein metric, a typical kind of statistical distances, which is usually required in the statistical learning. Based on the classical Bernstein approximation, a scheme is presented. To get the error estimates of the scheme, the problem turns to estimating the L1 norm of the Bernstein approximation for monotone C-1 functions, which was rarely discussed in the classical approximation theory. Finally, we get a probability estimate by the statistical distance.
文摘Fisher线性判别分析(Fisher Linear Discriminant Analysis,FLDA)是一种典型的监督型特征提取方法,旨在最大化Fisher准则,寻求最优投影矩阵。在标准Fisher准则中,涉及到的度量为L_2范数度量,此度量通常缺乏鲁棒性,对异常值点较敏感。为提高鲁棒性,引入了一种基于L_1范数度量的FLDA及其优化求解算法。实验结果表明:在很多情形下,相比于传统的L_2范数FLDA,L_1范数FLDA具有更好的分类精度和鲁棒性。
文摘目的度量学习是机器学习与图像处理中依赖于任务的基础研究问题。由于实际应用背景复杂,在大量不可避免的噪声环境下,度量学习方法的性能受到一定影响。为了降低噪声影响,现有方法常用L1距离取代L2距离,这种方式可以同时减小相似样本和不相似样本的损失尺度,却忽略了噪声对类内和类间样本的不同影响。为此,本文提出了一种非贪婪的鲁棒性度量学习算法——基于L2/L1损失的边缘费歇尔分析(marginal Fisher analysis based on L2/L1 loss,MFA-L2/L1),采用更具判别性的损失,可提升噪声环境下的识别性能。方法在边缘费歇尔分析(marginal Fisher analysis,MFA)方法的基础上,所提模型采用L2距离刻画相似样本损失、L1距离刻画不相似样本损失,同时加大对两类样本的惩罚程度以提升方法的判别性。首先,针对模型非凸带来的求解困难,将目标函数转为迭代两个凸函数之差便于求解;然后,受DCA(difference of convex functions algorithm)思想启发,推导出非贪婪的迭代求解算法,求得最终度量矩阵;最后,算法的理论证明保证了迭代算法的收敛性。结果在5个UCI(University of California Irrine)数据集和7个人脸数据集上进行对比实验:1)在不同程度噪声的5个UCI数据集上,MFA-L2/L1算法最优,且具有较好的抗噪性,尤其在30%噪声程度的Seeds和Wine数据集上,与次优方法LDANgL1(non-greedy L1-norm linear discriminant analysis))相比,MFA-L2/L1的准确率高出9%;2)在不同维度的AR和FEI人脸数据集上的实验,验证了模型采用L1损失、采用L2损失提升了模型的判别性;3)在Senthil、Yale、ORL、Caltech和UMIST人脸数据集的仿真实验中,MFA-L2/L1算法呈现出较强鲁棒性,性能排名第1。结论本文提出了一种基于L2/L1损失的鲁棒性度量学习模型,并推导了一种便捷有效的非贪婪式求解算法,进行了算法收敛性的理论分析。在不同数据集的不同噪声情况下的实