期刊文献+

数据挖掘技术在现场流行病学调查资料中的应用 被引量:6

The Application of Data Mining Techniques in Epidemiological Survey Data
下载PDF
导出
摘要 目的介绍数据挖掘中3种模型在农村初级卫生保健项目资料分析中的应用,及选择最适合的模型并对资料进行分析的经验。方法应用SAS/Enterprise Miner模块对2005年西部10个省45个县4 238例已经断奶儿童的初级卫生保健资料进行研究,将数据集按70%、15%和15%比例分成训练集、验证集以及测试集,进行模型的拟合、测试和验证。通过综合模型的Root ASE、误分率(Misclassification rate)、ROC曲线的面积以及信息诊断图(Diagnose chart)等对模型进行最优选择。结果 BP神经网络模型的Root ASE为0.372,误分率为0.257以及ROC曲线下面积均为3种模型最优,最终选择神经网络模型对数据进行分析。结论利用SAS/Enterprise Miner所提供的数据挖掘工具,根据数据集自身的特点选择合适的模型对数据进行分析,使分析的结果更加准确可靠,为初级卫生保健政策的制定提供准确、可靠的数据支持。 OBJECTIVE Introduction our experiences of applying three models of data mining application in the rural health project and choose the best model to analysis.METHODS In the Enterprise Miner module of software SAS 9.13,4 238 observations were sampled from database and built by three models.Split the dataset at 70%,15% and 15% rate into training set,testing set and validation set,to fitting,testing and verification the model.Through Root ASE、Misclassification rate、ROC curve and Diagnose chart to choice the best model.RESULTS BP neural network is the best model of this study,it's Root ASE was 0.372,Misclassification rate was 0.257 and ROC curve area was largest in the three models.CONCLUSION Data mining make more choices when we do data analysis,data set according to the characteristics of their own could choice of a suitable model to analysis,and made the results more reliable.
出处 《中国初级卫生保健》 2011年第8期9-12,共4页 Chinese Primary Health Care
基金 国家自然科学基金资助(30771866)
关键词 数据挖掘 误分率 噪声数据 神经网络 决策树 data mining misclassification rate noise data neural network decision tree
  • 相关文献

参考文献5

二级参考文献18

共引文献50

同被引文献69

引证文献6

二级引证文献30

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部