海量数据下广义线性模型参数的聚合估计算法研究被引量：2

Aggregate Estimation of Parameters in Generalized Linear Model with Massive Data

下载PDF

导出

摘要海量数据下研究广义线性模型参数的估计算法,针对通常的极大似然估计或拟似然估计方程算法中每步迭代均需使用到全体观测数据而造成存储空间不足、计算负担繁重的问题,对广义线性模型参数估计方法进行了改进。结合分治算法与Newton-Raphson算法,提出一种适用于在单机和分布式并行环境下广义线性模型参数求解的聚合拟似然估计方程算法,并进一步研究了聚合拟似然估计量的渐近性质。研究结果表明,当数据分块数目满足一定条件时,所得到的聚合拟似然估计与基于全部数据直接得到的极大拟似然估计具有相同的渐近性质。在数值模拟中,通过单机和Spark集群的实现方式对算法进行数值计算,结果表明聚合拟似然估计方法在解决了数据存储问题的同时提高了计算效率。最后,利用该算法估计Probit模型参数,并将估计出的模型应用于超对称粒子分类问题。 In the parameter estimation problem of the generalized linear model under massive data,in order to solve the problem of insufficient storage space caused by the use of all observation data in each iteration of the usual maximum likelihood estimation or quasi-likelihood estimation equation algorithm,the estimation method is improved.Combining the divide and conquer algorithm with Newton-Raphson.An algorithm is proposed for aggregate quasi-likelihood estimation equations suitable for solving in a single machine and distributed parallel environment,and the asymptotic properties of aggregate estimators are furbher studied.The results show that,when the number of data partitions meets certain conditions,the obtained aggregate quasi-likelihood estimation has the same asymptotic properties as the maximum quasi-likelihood estimation based directly on all data.In the numerical simulation,the algorithm is numerically calculated through the implementation of stand-alone and Spark clusters which shows that the aggregation quasi-likelihood estimation method improves the calculation efficiency while solving the data storage problem.Finally,the algorithm is used to estimate the Probit model parameters,and the estimated model is applied to the supersymmetric particle classification problem.

作者陈少东李志强 CHEN Shao-dong;LI Zhi-qiang(College of Mathematics and Science,Beijing University of Chemical Technology,Beijing 100029,China)

机构地区北京化工大学数理学院

出处《统计与信息论坛》 CSSCI 北大核心 2020年第7期18-24,共7页 Journal of Statistics and Information

关键词广义线性模型海量数据分治算法聚合拟似然估计方程 generalized linear model massive data divide and conquer algorithm aggregated quasi-likelihood estimation equation

分类号 O212 [理学—概率论与数理统计]

引文网络
相关文献

参考文献4

1方方,尹相菊,张强.海量数据下模型平均的分治算法[J].系统科学与数学,2018,38(7):764-776. 被引量：5
2宋廷山,郭思亮,韩伟.基于HADOOP的大数据描述统计分析[J].统计与信息论坛,2015,30(11):32-38. 被引量：2
3梅长林,王宁..近代回归分析方法[M].北京:科学出版社,2012:230.
4代亮,许宏科,陈婷,钱超,梁殿鹏.基于MapReduce的多元线性回归预测模型[J].计算机应用,2014,34(7):1862-1866. 被引量：17

二级参考文献26

1钟连德,孙小端,陈永胜,贺玉龙,刘小明.高速公路事故预测模型[J].北京工业大学学报,2009,35(7):966-971. 被引量：8
2Hua-Ping Zhang,Rui-Qi Zhang,Yan-Ping Zhao,Bao-Jun Ma.Big Data Modeling and Analysis of Microblog Ecosystem[J].International Journal of Automation and computing,2014,11(2):119-127. 被引量：6
3王惠文,孟洁.多元线性回归的预测建模方法[J].北京航空航天大学学报,2007,33(4):500-504. 被引量：241
4SEGHOUANE A K.New AIC corrected variants for multivariate linear regression model selection[J].IEEE Transactions on Aerospace and Electronic Systems,2011,47(2):1154-1165. 被引量：1
5AKOZ O,KARSLIGIL M E.Severity detection of traffic accidents at intersections based on vehicle motion analysis and multiphase linear regression[C]//Proceedings of the 13th International IEEE Conference on Intelligent Transportation Systems.Piscataway:IEEE,2010:474-479. 被引量：1
6SIMON P W,MATTHEW G K,FRED L M.Statistical and econometric methods for transportation data analysis[M].2nd ed.London:Chapman and Hall/CRC,2010. 被引量：1
7SHEN L O,LU C X,ZHAO,et al.Discrete fourier transformation for seasonal-factor pattern classification and assignment[J].IEEE Transactions on Intelligent Transportation Systems,2013,14(2):511-516. 被引量：1
8WANG S,CUI L J,LIU D C,et al.Vehicle identification via sparse representation[J].IEEE Transactions on Intelligent Transportation Systems,2012,13(2):955-962. 被引量：1
9NANDI A,YU C,BOHANNON P,et al.Data cube materialization and mining over MapReduce[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(20):1747-1759. 被引量：1
10WANGZK,AGRAWALD,TANKL.COSAC:a framework for combinatorial statistical analysis on cloud[J].IEEE Transactions on Knowledge and Data Engineering,2013,25(9):2010-2023. 被引量：1

共引文献21

1何良泽,覃宇,李力,游清泉,何鑫垒,陈争,向绍俊.十大将军县成因及其相关性的分析[J].山东青年,2019,0(4):111-112.
2左建伟.煤矿井下环境诱发人为事故DH-A评价模型的建立[J].煤炭与化工,2016,39(3):133-135.
3张斌,彭其渊.基于大数据的铁路客户关系管理系统设计研究[J].铁道运输与经济,2017,39(6):42-48. 被引量：19
4焦飞,黄天文.时间幂函数与LSF在气温预测中的应用研究[J].肇庆学院学报,2017,38(5):1-4. 被引量：1
5秦洪岩,王海东,题正义,李洋.西马矿膏体充填材料最佳混合比确定[J].煤矿安全,2017,48(12):63-66. 被引量：4
6贺元香,史宝明.颜色与物质浓度辨识模型研究[J].兰州文理学院学报（自然科学版）,2018,32(3):21-28.
7尹聪敏,竹翠,赵枫朝,朱文君.基于IP品质因子的早期电影票房预测研究[J].软件导刊,2018,17(10):60-63.
8聂绪吉,贲悦涵,杨琴.基于多元线性回归分析泰州市大学生消费[J].江苏商论,2018(9):14-16. 被引量：2
9张志,杜延菱,崔慧军,汪洋,贺哲,赖晓文.考虑关联因素的智能化中长期电力负荷预测方法[J].电力系统保护与控制,2019,47(2):24-30. 被引量：39
10马若炎,刘子桦.机器学习模块在研究中国老年人摔倒因素中的应用[J].电子技术与软件工程,2019(16):169-170.

同被引文献14

1佚名.麦肯锡七步分析法[J].财务与会计（理财版）,2007(7):68-68. 被引量：1
2蒲石,陈周国,祝世雄.震网病毒分析与防范[J].信息网络安全,2012(2):40-43. 被引量：43
3童晓阳,王晓茹.乌克兰停电事件引起的网络攻击与电网信息安全防范思考[J].电力系统自动化,2016,40(7):144-148. 被引量：83
4雷财林,钟添翼,蔡晓禹,唐小勇.基于车联网OBD数据的道路安全评价方法[J].公路与汽运,2019(1):30-36. 被引量：12
5于晓婷,姜楠楠.物联网框架下的驾驶行为分析[J].电子技术与软件工程,2019(19):2-3. 被引量：1
6陈思光,杨熠,黄黎明,韩林秀,吴蒙.基于雾计算的智能电网安全与隐私保护数据聚合研究[J].南京邮电大学学报（自然科学版）,2019,39(6):62-72. 被引量：47
7丁勇,王冰尧,袁方,王玉珏,张昆,田磊.支持第三方仲裁的智能电网数据安全聚合方案[J].电子学报,2020,48(2):350-358. 被引量：26
8陈江兴,梁良,付俊峰,蔡志民.基于大数据的智能电网数据调度与快速分发方法研究[J].电测与仪表,2020,57(6):88-93. 被引量：58
9杨丽,陈思光.雾辅助的轻量级隐私保护数据多级聚合研究[J].小型微型计算机系统,2020,41(6):1224-1230. 被引量：13
10刘宗巍,康丹,赵福全,丁超凡.汽车产品开发流程的量化评价与对比分析[J].汽车工程学报,2020,10(4):286-296. 被引量：4

引证文献2

1王晓慧,荣见华,杨向前.基于车联网的多维驾驶员行为评价方法研究[J].机电工程技术,2020,49(11):119-122. 被引量：2
2蒋建烨.智能电网环境下数据聚合方案分类研究[J].通信电源技术,2021,38(16):28-30.

二级引证文献2

1姚柳成,邹智宏.基于数据降维与聚类的车联网数据分析应用[J].汽车实用技术,2022,47(4):24-28. 被引量：3
2张立成,张婷,蔡学锐,赵祥模,彭琨.驾驶行为分类方法及量化评估综述[J].汽车技术,2024(5):1-14.

1胡沁,宁爱兵,苟海雯,张惠珍.精确覆盖问题的加权分治算法[J].运筹与管理,2020,29(4):179-186. 被引量：1
2任文军.鞅变换估计函数的复合[J].电子工程学院学报,2020,9(1):127-127.
3李明磊,黄晖,陆余良.面向漏洞挖掘的基于符号分治区的测试用例生成技术[J].信息网络安全,2020(5):39-46. 被引量：1
4于丹,王丽娜,曹勇,崔治国,王晨,唐艳南.数据分布特性对空调系统能耗预测的影响[J].科学技术与工程,2020,20(14):5723-5728. 被引量：9
5何晓群,胡小宁.单变量空间自回归测量误差模型的参数估计[J].中国科学：数学,2020,50(5):613-628.
6朱瑞,李英,衣文索.高斯色噪声背景下EES-MIMO雷达目标参数估计方法[J].电子技术与软件工程,2020(7):110-112.
7田瑞琴,徐登可.纵向缺失数据下高维部分线性回归模型的变量选择[J].杭州师范大学学报（自然科学版）,2020,19(3):273-281.
8李灼,王健.航空结构大规模并行分析与优化应用[J].科学与信息化,2020(12):26-26.
9王潇文,吕艳.一类随机偏微分方程极大似然估计的假设检验[J].山东大学学报（理学版）,2020,55(6):17-22. 被引量：2
10张敬言,宋禹昕,张姮妤,张莹,杨润清.间断性状关联分析中复杂群体分层的快速矫正[J].黑龙江八一农垦大学学报,2020,32(3):27-34. 被引量：2

统计与信息论坛

2020年第7期

浏览历史

内容加载中请稍等...

海量数据下广义线性模型参数的聚合估计算法研究被引量：2

参考文献4

二级参考文献26

共引文献21

同被引文献14

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

海量数据下广义线性模型参数的聚合估计算法研究 被引量：2

参考文献4

二级参考文献26

共引文献21

同被引文献14

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

海量数据下广义线性模型参数的聚合估计算法研究被引量：2