摘要
辛普森悖论是大数据分析中的“陷阱”。为研究这一现象,首先提炼出辛普森悖论的数学模型;其次对建立的模型进行较为全面的分析,从理论上揭示辛普森悖论产生的原因,推导辛普森悖论发生的概率;再次通过数据分析,验证辛普森悖论出现的合理性;最后说明数据粗糙和精细程度对所得结论的重要性。
The phenomenon of Simpson’s paradox in big data analysis is discussed in detail in the paper.Firstly,the mathematical model of Simpson’s paradox is set up.Secondly,a comprehensive analysis of the model is carried out,thus revealing the causes of the paradox in theory and deducing the probability of the occurrence of the paradox.The rationality of the occurrence of the“paradox”is verified based on data analysis.Finally,the importance of data’s roughness to the conclusions is illustrated.
作者
李国重
许伟
韩松辉
马朝忠
LI Guozhong;XU Wei;HAN Songhui;MA Chaozhong(Information Engineering University,Zhengzhou 450001,China)
出处
《信息工程大学学报》
2019年第2期242-245,共4页
Journal of Information Engineering University
基金
国家自然科学基金资助项目(41174005)
关键词
大数据分析
辛普森悖论
数学模型
线性函数
big data analysis
Simpson’s paradox
mathematical model
linear function