目的先心病数据存在类别不平衡问题,使先心病预测存在偏差,本文针对以上问题建立基于代价敏感性和概率校准的先心病概率预测模型,以期提高模型概率预测能力,为筛选先心病高危人群给予参考。方法构建调整惩罚权重的加权支持向量机(weight...目的先心病数据存在类别不平衡问题,使先心病预测存在偏差,本文针对以上问题建立基于代价敏感性和概率校准的先心病概率预测模型,以期提高模型概率预测能力,为筛选先心病高危人群给予参考。方法构建调整惩罚权重的加权支持向量机(weighted support vector machine,WSVM)和加权随机森林(weighted random forest,WRF)的Platt和Isotonic regression(Iso)校准模型(WSVM-Platt,WRF-Platt,WSVM-Iso,WRF-Iso),同时与logistic回归模型进行对比。结果通过比较6种模型(WSVM-Platt,WSVM-Iso,WRF,WRF-Platt,WRF-Iso和logistic回归模型)的概率预测效果评价指标AUC(the area under the curves)、RMSE(root mean squared error)及SAR可得,以上6类模型均比较理想。6种模型中,WSVM的Platt校准模型的预测效果最优,logistic回归其次;对于WRF,WRF-Platt和WRF-Iso的预测效果均优于WRF;对于WRF和WSVM,Platt校准的概率预测能力均略优于Iso校准。结论针对极端不平衡数据,本文模型的预测结果较为理想。相比未校准模型,校准模型的预测效果更优,Platt校准预测效果略优于Iso校准,故本文构建的模型可为有效筛选先心病高危人群提供参考。展开更多
文摘针对不平衡数据集中少数类样本分类识别率较低的问题,提出一种基于代价敏感卷积神经网络(cost sensitive convolutional neural network,CSCNN)和AdaBoost的分类算法(classification algorithm based on cost sensitive convolutional neural network and AdaBoost,AdaBoost-CSCNN)。设置特定的代价敏感指标来协同卷积神经网络的交叉熵损失函数,从而构建CSCNN。在训练过程中,借助代价赋权机制降低少数类样本关键特征属性的损失度,实现单个CSCNN作为基分类器在AdaBoost中的分类效果。为验证算法的有效性,使用Accuracy、Recall、F1值和AUC这4个评价指标在9个具有不同不平衡率的数据集上开展实验。结果表明,AdaBoost-CSCNN算法处理不平衡数据集分类问题有较好的显示度。
文摘目的先心病数据存在类别不平衡问题,使先心病预测存在偏差,本文针对以上问题建立基于代价敏感性和概率校准的先心病概率预测模型,以期提高模型概率预测能力,为筛选先心病高危人群给予参考。方法构建调整惩罚权重的加权支持向量机(weighted support vector machine,WSVM)和加权随机森林(weighted random forest,WRF)的Platt和Isotonic regression(Iso)校准模型(WSVM-Platt,WRF-Platt,WSVM-Iso,WRF-Iso),同时与logistic回归模型进行对比。结果通过比较6种模型(WSVM-Platt,WSVM-Iso,WRF,WRF-Platt,WRF-Iso和logistic回归模型)的概率预测效果评价指标AUC(the area under the curves)、RMSE(root mean squared error)及SAR可得,以上6类模型均比较理想。6种模型中,WSVM的Platt校准模型的预测效果最优,logistic回归其次;对于WRF,WRF-Platt和WRF-Iso的预测效果均优于WRF;对于WRF和WSVM,Platt校准的概率预测能力均略优于Iso校准。结论针对极端不平衡数据,本文模型的预测结果较为理想。相比未校准模型,校准模型的预测效果更优,Platt校准预测效果略优于Iso校准,故本文构建的模型可为有效筛选先心病高危人群提供参考。