大数据背景下网络调查样本的建模推断问题研究——以广义Boosted模型的倾向得分推断为例被引量：11

Research on the Modeling Inference of Web Survey Samples In the Context of Big Data: Taking Propensity Score Inference of Generalized Boosted Model as an Example

下载PDF

导出

摘要随着大数据和网络的不断发展,网络调查越来越广泛,大部分网络调查样本属于非概率样本,难以采用传统的抽样推断理论进行推断,如何解决网络调查样本的推断问题是大数据背景下网络调查发展的迫切需求。本文首次从建模的角度提出了解决该问题的基本思路:一是入样概率的建模推断,可以考虑构建基于机器学习与变量选择的倾向得分模型来估计入样概率推断总体;二是目标变量的建模推断,可以考虑直接对目标变量建立参数、非参数或半参数超总体模型进行估计;三是入样概率与目标变量的双重建模推断,可以考虑进行倾向得分模型与超总体模型的加权估计与混合推断。最后,以基于广义Boosted模型的入样概率建模推断为例演示了具体解决方法。 With the development of big data and internet,web surveys are becoming more and more extensive.However,most of web survey samples belong to non-probability samples.It is difficult to apply the traditional inference theory of probability sampling to web survey samples.Therefore,how to solve inference problems of web survey samples is the urgent need for the development of web surveys in the context of big data.The research proposes some basic ideas to solve this problem from the perspective of modeling for the first time.First,inclusion probabilities can be estimated via modeling for inference.That is,propensity score models based on machine learning and variable selection can be constructed to estimate inclusion probabilities.Second,target variables can be estimated via modeling for inference.It can be considered to establish parametric,non-parametric or semi-parametric superpopulation models of target variables for estimating the population.Third,both inclusion probabilities and target variables can be estimated via modeling for inference.The weighted estimation and hybrid inference of propensity score models and superpopulation models can be considered.Finally,the modeling inference method of inclusion probabilities based on generalized boosted model is taken as an example to discuss concrete solutions to the modeling inference problem of web survey samples.

作者刘展潘莹丽 Liu Zhan;Pan Yingli

机构地区湖北大学数学与统计学学院

出处《统计研究》 CSSCI 北大核心 2019年第9期93-103,共11页 Statistical Research

基金国家社会科学基金一般项目“大数据背景下网络调查样本的模型推断研究”(18BTJ022)的资助

关键词大数据网络调查样本入样概率目标变量建模推断 Big Data Web Survey Samples Inclusion Probability Target Variables Modeling Inference

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] O212.1 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献4

1刘展,金勇进.网络访问固定样本调查的统计推断研究[J].统计与信息论坛,2017,32(2):3-10. 被引量：16
2牛成英,孙秋碧.基于倾向值加权的网络调查总体参数Horvitz-Thompson估计[J].统计与信息论坛,2015,30(4):15-20. 被引量：1
3金勇进,刘展.大数据背景下非概率抽样的统计推断问题[J].统计研究,2016,33(3):11-17. 被引量：36
4Goran Stahl,Svetlana Saarela,Sebastian Schnell,Soren Holm,Johannes Breidenbach,Sean P. Healey,Paul L. Patterson,Steen Magnussen,Erik Naesset,Ronald E. McRoberts,Timothy G. Gregoire.Use of models in large-area forest surveys： comparing model-assisted, model-based and hybrid estimation[J].Forest Ecosystems,2016,3(2):153-163. 被引量：7

二级参考文献27

1Gill Fenella J,Leslie Gavin D,Grech Carol,et al.Using a Web-based Survey Tool to Undertake a Delphi Study:Application for Nurse Education Research[J].Nurse Education Today,2013,33(11). 被引量：1
2Weimiao Fan,Zheng Yan.Factors Affecting Response Rates of the Web Survey:A Systematic Review[J].Computers in Human Behavior,2010,26(2). 被引量：1
3Denniston Maxine M,Brener Nancy D,Kann Laura,et al.Comparison of Paper-and-pencil Versus Web Administration of the Youth Risk Behavior Survey(YRBS):Participation,Data Quality,and Perceived Privacy and Anonymity[J].Computers in Human Behavior,2010,26(5). 被引量：1
4Yi-Ching Wang,Ching-Mei Lee,Chih-Yin Lew-Ting,et al.Survey of Substance Use among High School Students in Taipei:Webbased Questionnaire Versus Paper-and-pencil Questionnaire[J].Journal of Adolescent Health,2005,37(4). 被引量：1
5Hsiu-Mei Huang.Do Print and Web Surveys Provide the Same Results?[J].Computers in Human Behavior,2006,22(3). 被引量：1
6Rosenbaum P R,Rubin D B.The Central Role of the Propensity Score in Observational Studies for Causal Effects[J].Biometrika,1983,70(1). 被引量：1
7郭申阳,马克·W.弗雷泽.倾向值分析:统计方法与应用[M].郭志刚,巫锡炜,等,译.重庆:重庆大学出版社,2012. 被引量：6
8Schonlau M,Zapert K.A Comparison between Responses from a Propensity-Weight Web Survey and an Identical RDD Survey[J].Social Science Computer Review,2003,21(10). 被引量：1
9Fan Li,Zaslavsky Alan M,Landrum Mary Beth.Propensity Score Weighting with Multilevel Data[J].Statistics in Medicine,2013,32(19). 被引量：1
10Svensson J. Web panel surveys--can they be designed and used in a scientifically sound way? [ C ]. 59th World Statistics Congress, 2013. 被引量：1

共引文献48

1贺建风,李宏煜.大数据背景下基于社交网络的聚类随机游走抽样算法研究[J].统计研究,2021(4):131-144. 被引量：9
2刘展,潘莹丽,涂朝凤,张梦.基于倾向得分的伪权数构造与混合样本推断[J].统计与决策,2021(2):20-24. 被引量：4
3马荣昌.大数据对金融统计的影响分析[J].现代经济信息,2021(29):173-174.
4朱钰,王恬.网络数据环境下动态抽样框的构建及其应用[J].统计与决策,2019,35(2):5-8. 被引量：3
5程开明,宋艺旋.大数据还需要抽样吗[J].中国统计,2017,32(11):10-13. 被引量：7
6肖海燕.非概率抽样样本容量的确定问题[J].山西大同大学学报（自然科学版）,2018,34(1):29-31. 被引量：3
7董海军,耿宇.移动互联网+问卷的应用特点与发展[J].晋阳学刊,2018(3):104-110. 被引量：7
8陈光慧,刘建平.构建新时代现代化统计调查体系的问题研究[J].统计研究,2018,35(6):11-17. 被引量：10
9胡桂华,薛婷.中国户籍登记系统覆盖评估研究[J].统计与信息论坛,2018,33(7):34-46. 被引量：7
10胡桂华,漆莉,吴婷,廖金盆.基于比率估计量的人口普查内容误差估计[J].工程数学学报,2018,35(6):622-634. 被引量：4

同被引文献43

1刘展,潘莹丽,涂朝凤,张梦.基于倾向得分的伪权数构造与混合样本推断[J].统计与决策,2021(2):20-24. 被引量：4
2王小宁,王霄.基于K-means聚类算法的问卷分割设计[J].调研世界,2021(2):74-81. 被引量：2
3冯士雍.抽样调查应用与理论中的若干前沿问题[J].统计与信息论坛,2007,22(1):5-13. 被引量：39
4徐浪,向蓉美.目前中国网络调查的局限性和适用范围[J].统计与信息论坛,2006,21(1):84-88. 被引量：13
5方佳明,邵培基,粟婕,张谦,田禹.基于网络的问卷调查回复率影响因素实证研究[J].管理评论,2006,18(10):12-17. 被引量：14
6郭继志,阎瑞雪,宋棠.网络调查方法的优势与局限[J].中国社会医学杂志,2006,23(1):48-52. 被引量：7
7刘学军.基于最小Gini指标的决策树分类算法设计与研究[J].软件导刊,2009,8(5):56-57. 被引量：8
8方佳明,闻超.网络调查参与意愿形成的心理影响因素研究[J].应用心理学,2011,17(4):339-345. 被引量：4
9孙燕.随机效应Logit计量模型的自适应Lasso变量选择方法研究——基于Gauss-Hermite积分的EM算法[J].数量经济技术经济研究,2012,29(12):147-157. 被引量：11
10吴美京,吴骋,王睿,赵艳芳,贺佳.倾向性评分法中评分值的估计方法及比较[J].中国卫生统计,2013,30(3):440-444. 被引量：28

引证文献11

1王超,于天龙.关于财政管理信息化生命力的思考[J].吉林广播电视大学学报,2023(4):103-106.
2王鑫,汪玉,赵龙,张淑娟,李周.大数据背景下数据治理的网络安全策略[J].通信电源技术,2019,36(11):147-148. 被引量：5
3崔月婷,胡欣,时小莹,李婷,张迪,刘菲,胡剑平.网络环境下安徽省医务工作者调研参与度及影响因素[J].医学信息,2020,33(16):132-134.
4王冰.在“大数据”时代背景下探究计算机信息处理技术[J].长江信息通信,2021,34(11):173-175. 被引量：8
5刘展,潘莹丽,金美玲.大数据背景下网络调查样本的随机森林倾向得分模型推断研究[J].统计研究,2021,38(11):130-140. 被引量：3
6杨昊宇,秦祎辰,李扬.问卷分割设计的成组序贯子问卷分配法[J].系统科学与数学,2022,42(1):17-34.
7刘展,潘莹丽,石寒.基于Adaptive LASSO Logistic倾向得分模型的网络调查样本推断方法[J].统计与决策,2022,38(6):15-20. 被引量：3
8刘展,李若菡,潘莹丽.高维非概率样本数据的神经网络推断方法研究[J].湖北大学学报（自然科学版）,2023,45(5):684-694.
9姜天英,金勇进.规模以下工业企业抽样调查的权数调整研究[J].工程数学学报,2024,41(2):199-216.
10刘展,周青,王林,潘莹丽.多源数据融合视角下非概率样本与概率样本的大量插补推断方法[J].系统科学与数学,2024,44(2):523-540.

二级引证文献19

1姜技.大数据背景下的网络安全维护策略[J].信息与电脑,2020,32(12):203-205.
2常秀岩,袁博.大数据背景下有关优化网络安全策略的探讨[J].数码设计,2021,10(2):37-37.
3黄蓉.计算机网络安全与数据完整性技术探究[J].网络安全技术与应用,2021(4):57-58. 被引量：12
4马骁.大数据时代数据安全治理的网络安全策略[J].科学大众（科技创新）,2021(9):63-64.
5崔明.大数据时代计算机信息处理技术探析[J].信息与电脑,2022,34(4):13-15. 被引量：6
6姜晗,李娟娟.大数据与计算机信息技术的应用[J].电子技术（上海）,2022,51(7):234-235. 被引量：1
7刘拓,俞铖航,黄烈雨.Apriori算法在卫生标准问卷调查数据挖掘中的应用及R语言实现[J].中国卫生标准管理,2022,13(18):1-5. 被引量：2
8吴晓林.论计算机信息处理技术在大数据时代中的有效应用[J].软件,2022,43(10):178-180. 被引量：6
9孙云.基于云环境的大数据计算机处理技术分析[J].长江信息通信,2022,35(11):158-160. 被引量：4
10陈泽恩.大数据背景下数据治理的网络安全措施[J].数字技术与应用,2023,41(8):219-221. 被引量：7

1张静,赵建军,杨伟,张丽楠,王成丽,王健,任吉祥.基于中医证候特征的缺血性中风复发风险的横断面分析[J].中国实验方剂学杂志,2018,24(12):194-198. 被引量：20
2廖梦夏.媒介属性和事件属性的双重建模:媒介与环境群体性事件的关联研究——基于20个案例的清晰集定性比较分析(QCA)[J].西南民族大学学报（人文社会科学版）,2018,39(10):151-156. 被引量：11
3杨伟,唐进法,易丹辉,李学林,李伟霞,周晓华.GBM倾向评分加权法用于因果推断的研究[J].世界科学技术-中医药现代化,2017,19(9):1462-1472. 被引量：13
4王琴,邱婕,黄翀.基于因子分析的重庆市新三板挂牌企业的财务绩效研究[J].纳税,2019,0(21):117-117. 被引量：1
5崔莉,姜娇娇,王涛,纪文华,孟兆青,赵恒强,王晓.低场核磁技术结合化学计量学法快速检测掺假阿胶产品[J].时珍国医国药,2019,30(7):1628-1633. 被引量：6
6刘慧敏,付英姿,许东旭.基于动态D藤Copula的CoVaR度量[J].金融监管研究,2019(8):50-64. 被引量：6
7祝远超.遗传系谱图概率计算的“一题多解”例析[J].中学生理科应试,2019,0(8):52-53.
8谢岗,张克成.基于大数据的物资供应商画像研究分析与应用[J].安徽电力,2019,0(2):13-17. 被引量：4
9陈雨,肖长诗,周春辉,文元桥,陈芊芊,张义萌.基于机载视觉的内河落水人员发现概率建模[J].大连海事大学学报,2019,45(3):121-128.

统计研究

2019年第9期

浏览历史

内容加载中请稍等...

大数据背景下网络调查样本的建模推断问题研究——以广义Boosted模型的倾向得分推断为例被引量：11

参考文献4

二级参考文献27

共引文献48

同被引文献43

引证文献11

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

大数据背景下网络调查样本的建模推断问题研究——以广义Boosted模型的倾向得分推断为例 被引量：11

参考文献4

二级参考文献27

共引文献48

同被引文献43

引证文献11

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

大数据背景下网络调查样本的建模推断问题研究——以广义Boosted模型的倾向得分推断为例被引量：11