期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于logistic回归模型的大数据分布式两步子抽样算法 被引量:6
1
作者 李莉莉 杜梅慧 张璇 《数理统计与管理》 CSSCI 北大核心 2022年第5期858-866,共9页
随着大数据时代的到来,分布式存储系统被广泛应用,这使得数据的分析面临较大的挑战。本文主要基于文[1]提出的两步子抽样算法思想,提出分布式两步子抽样算法,利用该算法得到的参数估计量具有一致性和渐近正态性。采用数值模拟及真实数... 随着大数据时代的到来,分布式存储系统被广泛应用,这使得数据的分析面临较大的挑战。本文主要基于文[1]提出的两步子抽样算法思想,提出分布式两步子抽样算法,利用该算法得到的参数估计量具有一致性和渐近正态性。采用数值模拟及真实数据预测,进一步对算法进行评估,结果表明,分布式两步子抽样算法与简单随机抽样算法相比精度更高,与全样本相比,在保证精度损失很小的基础上,节约了CPU运行时间,提高了算法效率。 展开更多
关键词 大数据 分布式存储 步子抽样算法 LOGISTIC回归模型
原文传递
基于两步子抽样算法的多目标抽样统计推断研究
2
作者 李莉莉 周楷贺 杜梅慧 《数理统计与管理》 CSSCI 北大核心 2023年第6期1037-1060,共24页
针对海量数据,子抽样算法是当前一种流行的简化计算和降低计算成本的方法。现阶段的研究主要集中于单目标变量的估计上。多目标抽样也是现实生活中经常遇到的问题。本文提出基于广义线性模型,多目标抽样的均值两步子抽样算法。两步子抽... 针对海量数据,子抽样算法是当前一种流行的简化计算和降低计算成本的方法。现阶段的研究主要集中于单目标变量的估计上。多目标抽样也是现实生活中经常遇到的问题。本文提出基于广义线性模型,多目标抽样的均值两步子抽样算法。两步子抽样算法是Wang等(2018)[1]提出的基于L-最优和A-最优的思想,确定每个抽样单元的入样概率。本文在此基础上,定义多目标抽样的各单元的入样概率,并推导模型参数估计量的渐近性质,最后用模拟数据和实际例子对均值两步子抽样算法和多目标两步子抽样方法进行比较。结果表明,在样本量相同时,A-最优准则下均值两步子抽样算法在估计精度上优于基于两步子抽样算法的MPPS抽样和L-最优准则下均值多目标两步子抽样算法。在计算效率上也较全样本估计有显著的提高,节约了计算时间。 展开更多
关键词 大数据 步子抽样算法 广义线性模型
原文传递
基于主成分分析法的两步子抽样算法及应用研究
3
作者 王玉 李莉莉 周楷贺 《青岛大学学报(自然科学版)》 CAS 2023年第4期13-17,共5页
针对大数据中高维变量多重共线性问题,结合Logistic模型提出两种基于主成分分析法的两步子抽样算法,分别为基于A-最优准则的最小均方误差(minimum Mean Square Error,mMSE)抽样和基于L-最优准则的最小方差协方差(minimum Variance covar... 针对大数据中高维变量多重共线性问题,结合Logistic模型提出两种基于主成分分析法的两步子抽样算法,分别为基于A-最优准则的最小均方误差(minimum Mean Square Error,mMSE)抽样和基于L-最优准则的最小方差协方差(minimum Variance covariance,mVc)抽样。实证结果表明,相较于随机抽样,mMSE抽样和mVc抽样能大幅降低模型参数估计的均方误差,提升模型的查准率、召回率、F1分数、特异度等分类评价指标。 展开更多
关键词 大数据 主成分分析法 步子抽样算法 信用风险预测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部