摘要
为研究得出吸烟是否成人白血病发病危险因素的明确结论,在某大型三甲医院的电子病历系统中,收集成人白血病病人的病历资料,从海量数据中严格筛选符合科研要求的数据以解决样本小的问题,并对相关数据进行预处理以进行数据挖掘。着重介绍了在数据预处理过程中存在的病人隐私保护、病例重复、数据不规范等关键问题,并对其解决思路进行了探讨。
出处
《电脑编程技巧与维护》
2018年第10期117-119,共3页
Computer Programming Skills & Maintenance
基金
广西壮族自治区卫生和计划生育委员会自筹课题(编号:Z2016728)