摘要
海难是人们现今最难处理的突发案件之一,关乎到上百人的生命。以对预测海难生还人数的工作做出贡献为目的,本文通过使用多元回归和随机森林模型,以Kaggle网站上搜到的一次海难数据为例,从多方面预测海难生还人数并建立模型、并对两者进行比较与分析。我学习了数据挖掘的概念、相关技术和前沿应用、随机森林模型和逻辑回归模型。我创意性地将我所考虑到的所有可能影响乘客生还的因素总结并分类,然后建立了两种模型,接着利用从网上得到的数据,将随机选出的训练集输入进模型,得到测试集的结果,数据预测大概完成。根据结果,我发挥自己的思考,试着猜测此结果影响因素背后的理由,和当时背景下可能的社会因素。最后我对自己的收获进行了总结。
出处
《中国新通信》
2019年第11期231-234,共4页
China New Telecommunications