本文基于UCI机器学习库中的信用卡客户违约的数据,以客户是否存在信用卡违约行为作为响应变量,以23个描述客户信息以及客户每月的还款情况和还款金额的变量作为解释变量建立预测模型。为了提升金融服务领域对信用卡违约概率评估的准确...本文基于UCI机器学习库中的信用卡客户违约的数据,以客户是否存在信用卡违约行为作为响应变量,以23个描述客户信息以及客户每月的还款情况和还款金额的变量作为解释变量建立预测模型。为了提升金融服务领域对信用卡违约概率评估的准确性和效率,本文提出了一种优化的预测模型——改进的斜坡损失最小二乘几何非平行超平面支持向量机(RLS-GNHSVM)。RLS-GNHSVM模型融合了斜坡损失函数和最小二乘几何非平行超平面支持向量机的优势,旨在克服传统的凸损失函数对异常值敏感而导致性能不佳的问题。该模型不仅能够在数据含噪或存在异常值的情况下保持稳定的预测性能,还显著优化了预测精度。在实证应用中,RLS-GNHSVM模型相较于其他三种主流模型,在预测信用卡客户违约概率方面展现出了更高的效能和适用性,为金融机构提供了更为精准的风险评估工具。Based on the credit card customer default dataset from the UCI Machine Learning Repository, this paper establishes a predictive model with the presence of credit card default behavior as the response variable and 23 explanatory variables detailing customer information, along with monthly repayment status and amounts during the data collection period. To enhance the accuracy and efficiency of credit card default probability assessment in the financial services sector, we propose an optimized predictive model known as the Refined Least Squares Ramp Loss Geometric Non-Parallel Hyperplane Support Vector Machine (RLS-GNHSVM). The RLS-GNHSVM model seamlessly combines the strengths of the Least Squares Ramp Loss function and the Geometric Non-Parallel Hyperplane SVM. This integration aims to address the shortcomings of traditional convex loss functions, which are prone to performance degradation due to sensitivity to outliers. The RLS-GNHSVM model not only maintains stable predictive performance amidst noisy data or the presence of outliers展开更多
针对非平行支持向量机(NonParallel Support Vector Machine,NPSVM)对噪声敏感和忽略了数据分布结构的问题,提出了一种具有间隔分布的抗噪声非平行支持向量机(Anti-Noise NPSVM with Margin Distribution, MDANPSVM)分类模型.在MD-ANPSV...针对非平行支持向量机(NonParallel Support Vector Machine,NPSVM)对噪声敏感和忽略了数据分布结构的问题,提出了一种具有间隔分布的抗噪声非平行支持向量机(Anti-Noise NPSVM with Margin Distribution, MDANPSVM)分类模型.在MD-ANPSVM模型中,每个优化问题同时最小化两类样本的基于L1范数的绝对损失和改进的铰链损失,这可以保证模型的稳定性,减小噪声和异常值的影响.此外,在MD-ANPSVM模型中,采用一阶和二阶统计量来描述训练数据的间隔分布信息,并试图同时最大化间隔均值和最小化间隔方差,这进一步提高了模型的泛化性能.最终,我们在不同的数据集上进行了对比实验.实验结果显示,MD-ANPSVM模型具有较强的泛化能力和强鲁棒性.展开更多
针对投影孪生支持向量机(Projection Twin Support VectorMachine,PTSVM)在训练和求解过程中存在的问题,提出了一类改进的投影孪生支持向量机(Improved PTSVM),简称为IPTSVM.该文首先构造了改进的线性投影孪生支持向量机,然后利用核技...针对投影孪生支持向量机(Projection Twin Support VectorMachine,PTSVM)在训练和求解过程中存在的问题,提出了一类改进的投影孪生支持向量机(Improved PTSVM),简称为IPTSVM.该文首先构造了改进的线性投影孪生支持向量机,然后利用核技巧轻松将其推广到了非线性形式.本文的主要贡献有:(1)提出了投影孪生支持向量机的新模型,克服了原始PTSVM在训练之前需要求解两个逆矩阵的问题;(2)继承了传统SVM(Support VectorMachine)的精髓,利用核技巧直接将线性IPTSVM推广到非线性形式;(3)引入了一个新的参数,可以调节模型的性能,提高了IPTSVM的分类精度.实验结果表明,与PTSVM算法相比较,IPTSVM不仅提高了分类精度,而且克服了PTSVM的一些不足.展开更多
本文提出了一种新的带有同步化特征选择的聚类算法,称为"具有同步化特征选择的迭代紧凑非平行支持向量聚类算法"(IT-NHSVC-SFS).在具有两个非平行超平面的学习模型中使用迭代(交替)优化算法完成聚类,同时引入两种类型的正则项...本文提出了一种新的带有同步化特征选择的聚类算法,称为"具有同步化特征选择的迭代紧凑非平行支持向量聚类算法"(IT-NHSVC-SFS).在具有两个非平行超平面的学习模型中使用迭代(交替)优化算法完成聚类,同时引入两种类型的正则项,分别是欧几里得范数和无穷范数,欧几里得范数用于提升聚类模型的泛化能力,无穷范数实际上是对两个非平行超平面进行同步化地隐式特征抽取,从而降低来自于不相关特征的聚类噪音,保证了模型的聚类精度,并引入一组束缚变量(bounding variables)避免无穷范数的最大化操作,将非凸优化问题转化成二次凸优化问题.同时,由于新提出的模型体现着"最大间隔"的思想,因此具有良好的泛化能力.为了方便实现两个非平行超平面同步化的特征选择过程,文中将非平行超平面SVM(Nonparallel Hyperplane SVM,NHSVM)作为IT-NHSVC-SFS算法的基础模型,因此和TWSVM以及它的变体模型不同的是:只需要求解一个二次规划问题(QP问题)就可以同时得到两个最优超平面.同时,新算法在原有的NHSVM模型的约束条件集合中新添加了两组等式约束条件,从而无需进行原有模型中的两个大矩阵的求逆操作,降低了计算复杂度.此外,在IT-NHSVC-SFS模型中,用拉普拉斯损失函数(Laplacian loss measure)代替了NHSVM模型原有的铰链损失函数(hinge loss function),避免了算法早熟收敛(premature convergence).在一组标准数据集上的数值实验结果表明,相对于其他已有的聚类算法,IT-NHSVC-SFS算法在聚类精度方面具有更好的表现.展开更多
文摘本文基于UCI机器学习库中的信用卡客户违约的数据,以客户是否存在信用卡违约行为作为响应变量,以23个描述客户信息以及客户每月的还款情况和还款金额的变量作为解释变量建立预测模型。为了提升金融服务领域对信用卡违约概率评估的准确性和效率,本文提出了一种优化的预测模型——改进的斜坡损失最小二乘几何非平行超平面支持向量机(RLS-GNHSVM)。RLS-GNHSVM模型融合了斜坡损失函数和最小二乘几何非平行超平面支持向量机的优势,旨在克服传统的凸损失函数对异常值敏感而导致性能不佳的问题。该模型不仅能够在数据含噪或存在异常值的情况下保持稳定的预测性能,还显著优化了预测精度。在实证应用中,RLS-GNHSVM模型相较于其他三种主流模型,在预测信用卡客户违约概率方面展现出了更高的效能和适用性,为金融机构提供了更为精准的风险评估工具。Based on the credit card customer default dataset from the UCI Machine Learning Repository, this paper establishes a predictive model with the presence of credit card default behavior as the response variable and 23 explanatory variables detailing customer information, along with monthly repayment status and amounts during the data collection period. To enhance the accuracy and efficiency of credit card default probability assessment in the financial services sector, we propose an optimized predictive model known as the Refined Least Squares Ramp Loss Geometric Non-Parallel Hyperplane Support Vector Machine (RLS-GNHSVM). The RLS-GNHSVM model seamlessly combines the strengths of the Least Squares Ramp Loss function and the Geometric Non-Parallel Hyperplane SVM. This integration aims to address the shortcomings of traditional convex loss functions, which are prone to performance degradation due to sensitivity to outliers. The RLS-GNHSVM model not only maintains stable predictive performance amidst noisy data or the presence of outliers
文摘针对非平行支持向量机(NonParallel Support Vector Machine,NPSVM)对噪声敏感和忽略了数据分布结构的问题,提出了一种具有间隔分布的抗噪声非平行支持向量机(Anti-Noise NPSVM with Margin Distribution, MDANPSVM)分类模型.在MD-ANPSVM模型中,每个优化问题同时最小化两类样本的基于L1范数的绝对损失和改进的铰链损失,这可以保证模型的稳定性,减小噪声和异常值的影响.此外,在MD-ANPSVM模型中,采用一阶和二阶统计量来描述训练数据的间隔分布信息,并试图同时最大化间隔均值和最小化间隔方差,这进一步提高了模型的泛化性能.最终,我们在不同的数据集上进行了对比实验.实验结果显示,MD-ANPSVM模型具有较强的泛化能力和强鲁棒性.
文摘本文提出了一种新的带有同步化特征选择的聚类算法,称为"具有同步化特征选择的迭代紧凑非平行支持向量聚类算法"(IT-NHSVC-SFS).在具有两个非平行超平面的学习模型中使用迭代(交替)优化算法完成聚类,同时引入两种类型的正则项,分别是欧几里得范数和无穷范数,欧几里得范数用于提升聚类模型的泛化能力,无穷范数实际上是对两个非平行超平面进行同步化地隐式特征抽取,从而降低来自于不相关特征的聚类噪音,保证了模型的聚类精度,并引入一组束缚变量(bounding variables)避免无穷范数的最大化操作,将非凸优化问题转化成二次凸优化问题.同时,由于新提出的模型体现着"最大间隔"的思想,因此具有良好的泛化能力.为了方便实现两个非平行超平面同步化的特征选择过程,文中将非平行超平面SVM(Nonparallel Hyperplane SVM,NHSVM)作为IT-NHSVC-SFS算法的基础模型,因此和TWSVM以及它的变体模型不同的是:只需要求解一个二次规划问题(QP问题)就可以同时得到两个最优超平面.同时,新算法在原有的NHSVM模型的约束条件集合中新添加了两组等式约束条件,从而无需进行原有模型中的两个大矩阵的求逆操作,降低了计算复杂度.此外,在IT-NHSVC-SFS模型中,用拉普拉斯损失函数(Laplacian loss measure)代替了NHSVM模型原有的铰链损失函数(hinge loss function),避免了算法早熟收敛(premature convergence).在一组标准数据集上的数值实验结果表明,相对于其他已有的聚类算法,IT-NHSVC-SFS算法在聚类精度方面具有更好的表现.