用户流失预测能够帮助公司减少客户的流失,对公司的营收和提高竞争力有重要意义。然而,由于电信领域数据的稀疏性和不平衡等问题,国内外对于电信领域的用户流失预测大多处于研究阶段,还没有真正应用到实际生产当中。提出了利用神经网络...用户流失预测能够帮助公司减少客户的流失,对公司的营收和提高竞争力有重要意义。然而,由于电信领域数据的稀疏性和不平衡等问题,国内外对于电信领域的用户流失预测大多处于研究阶段,还没有真正应用到实际生产当中。提出了利用神经网络、机器学习与朴素随机过采样、投票相结合的混合模型来预测电信领域的流失用户。数据集使用的是KDD Cup 2009年比赛数据,该数据由法国电信运行商Orange公司提供。在十折交叉验证下,AdaBoost和Gradient Boosting一次投票分类后AUC值能够达到0.6771,利用其他模型对混合模型预测出的流失用户清单进行二次投票分类,前200名高危流失用户的预测准确率能够达到31.8%。实验结果表明,朴素随机过采样和投票相结合有效提升了模型的准确性。展开更多
使用医疗信息系统的数据进行睡眠呼吸暂停低通气综合征(OSAHS)预测和分析过程中,存在不平衡数据问题。为此,在现有临床研究的基础上,提出了一种基于ROSE(Random Over Sampling Examples)和C5.0算法的初筛模型。利用收集到的人体测量学...使用医疗信息系统的数据进行睡眠呼吸暂停低通气综合征(OSAHS)预测和分析过程中,存在不平衡数据问题。为此,在现有临床研究的基础上,提出了一种基于ROSE(Random Over Sampling Examples)和C5.0算法的初筛模型。利用收集到的人体测量学指标数据,通过数据预处理,删除异常值并填补缺失值。然后采用ROSE算法对数据进行平衡,利用C5.0分类器对平衡后的数据构建筛查模型,通过十则交叉验证的方法检验模型的筛查效果。实验结果表明,使用该模型进行打鼾患者的OSAHS筛查,可以有效地提高筛查效率。展开更多
文摘用户流失预测能够帮助公司减少客户的流失,对公司的营收和提高竞争力有重要意义。然而,由于电信领域数据的稀疏性和不平衡等问题,国内外对于电信领域的用户流失预测大多处于研究阶段,还没有真正应用到实际生产当中。提出了利用神经网络、机器学习与朴素随机过采样、投票相结合的混合模型来预测电信领域的流失用户。数据集使用的是KDD Cup 2009年比赛数据,该数据由法国电信运行商Orange公司提供。在十折交叉验证下,AdaBoost和Gradient Boosting一次投票分类后AUC值能够达到0.6771,利用其他模型对混合模型预测出的流失用户清单进行二次投票分类,前200名高危流失用户的预测准确率能够达到31.8%。实验结果表明,朴素随机过采样和投票相结合有效提升了模型的准确性。
文摘使用医疗信息系统的数据进行睡眠呼吸暂停低通气综合征(OSAHS)预测和分析过程中,存在不平衡数据问题。为此,在现有临床研究的基础上,提出了一种基于ROSE(Random Over Sampling Examples)和C5.0算法的初筛模型。利用收集到的人体测量学指标数据,通过数据预处理,删除异常值并填补缺失值。然后采用ROSE算法对数据进行平衡,利用C5.0分类器对平衡后的数据构建筛查模型,通过十则交叉验证的方法检验模型的筛查效果。实验结果表明,使用该模型进行打鼾患者的OSAHS筛查,可以有效地提高筛查效率。