期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于倾向得分的伪权数构造与混合样本推断 被引量:4
1
作者 刘展 潘莹丽 +1 位作者 涂朝凤 张梦 《统计与决策》 CSSCI 北大核心 2021年第2期20-24,共5页
随着网络调查与大数据的发展,非概率样本受到越来越多的关注和重视,然而非概率样本存在入样概率和权数未知的问题,为了充分利用信息,如何将非概率样本和概率样本结合,利用混合样本推断总体成为一个热点问题。基于此,文章提出将概率样本... 随着网络调查与大数据的发展,非概率样本受到越来越多的关注和重视,然而非概率样本存在入样概率和权数未知的问题,为了充分利用信息,如何将非概率样本和概率样本结合,利用混合样本推断总体成为一个热点问题。基于此,文章提出将概率样本与非概率样本混合,从同时计算权数和分别计算权数两条思路出发,结合倾向得分来构造非概率样本的伪权数,并利用混合样本来推断总体。模拟与实证研究表明:提出的两种混合样本推断方法所得的总体均值估计的绝对偏差、方差与均方误差都比仅基于概率样本的总体均值估计小,并且相对于分别计算权数估计总体均值的方法,同时计算权数估计总体均值的方法效果更好。 展开更多
关键词 倾向得分匹配法 伪权数 混合样本 概率样本 非概率样本
下载PDF
多源数据融合视角下非概率样本与概率样本的大量插补推断方法
2
作者 刘展 周青 +1 位作者 王林 潘莹丽 《系统科学与数学》 CSCD 北大核心 2024年第2期523-540,共18页
随着社会的发展,概率样本无回答率越来越高,其目标变量可能存在缺失的情况.同时,大数据与网络调查的发展使得获得的样本大多数是非概率样本,如何结合这两种样本推断总体是当今时代多源数据融合领域的一个热点问题.假设存在目标变量完全... 随着社会的发展,概率样本无回答率越来越高,其目标变量可能存在缺失的情况.同时,大数据与网络调查的发展使得获得的样本大多数是非概率样本,如何结合这两种样本推断总体是当今时代多源数据融合领域的一个热点问题.假设存在目标变量完全缺失的概率样本和数据完整的非概率样本,提出基于非概率样本建立超总体局部多项式模型,插补概率样本缺失的目标变量,并利用插补后的概率样本估计总体,进一步证明提出估计的渐近性质.模拟和实证研究表明:与基于非概率样本的倾向得分逆加权估计相比,提出估计的绝对相对偏差,方差与均方误差更小,且与基于真实概率样本的总体估计相接近;提出总体均值估计的方差估计的绝对相对偏差与95%置信区间覆盖率也接近于基于真实概率样本的总体估计的相应指标,估计效果较好. 展开更多
关键词 非概率样本 概率样本 超总体局部多项式模型 大量插补 多源数据
原文传递
概率-非概率调查样本的整合推断问题研究:核匹配方法
3
作者 王俊 金勇进 《统计与信息论坛》 CSSCI 北大核心 2024年第10期3-12,共10页
基于网络便利调查、大数据平台的数据收集方式,在实践中得到了广泛的发展,但获得的样本本质上均是非概率样本。利用非概率样本推断目标总体特征面临着潜在的偏差,如涵盖偏差、自我选择偏差等。近年来,对融合概率调查和非概率调查的数据... 基于网络便利调查、大数据平台的数据收集方式,在实践中得到了广泛的发展,但获得的样本本质上均是非概率样本。利用非概率样本推断目标总体特征面临着潜在的偏差,如涵盖偏差、自我选择偏差等。近年来,对融合概率调查和非概率调查的数据资源,以估计有限总体特征问题的讨论较多,但依然存在较多问题。在已有研究的基础上,对非概率样本和概率样本均测量了辅助变量,但只有非概率样本测量了研究变量的背景下,介绍基于倾向得分框架的权数构造方法;在倾向得分核匹配方法的基础上,提出了基于融合概率和非概率样本协变量平衡的核函数带宽选择方法,为非概率样本构造倾向得分核匹配权数。模拟结果显示基于倾向得分核匹配的方法能够显著降低非概率样本的偏差,提出的融合样本协变量平衡的带宽方法能够有效减少估计量的相对偏差、绝对相对偏差和标准差。 展开更多
关键词 非概率样本 融合数据 带宽选择 统计推断 核匹配
下载PDF
大数据背景下概率-非概率样本的数据整合推断——从误差校正的视角出发 被引量:2
4
作者 刘晓宇 金勇进 倪成 《统计研究》 CSSCI 北大核心 2023年第8期149-160,共12页
以互联网为媒介的调查数据采集具有成本低、速度快等优势,但这些样本通常属于非概率样本,存在覆盖误差和选择性偏差,不具有总体代表性,无法直接用于有限总体推断。基于概率-非概率样本的数据整合,可以综合两类样本的优势,处理这些非概... 以互联网为媒介的调查数据采集具有成本低、速度快等优势,但这些样本通常属于非概率样本,存在覆盖误差和选择性偏差,不具有总体代表性,无法直接用于有限总体推断。基于概率-非概率样本的数据整合,可以综合两类样本的优势,处理这些非概率样本偏差。本文将非概率样本看作有限总体的不完全覆盖,在假定概率样本和非概率样本有重合的前提下,构造数据整合事后分层与校准估计。该假定是校准的基础,在此框架下考虑测量误差的校正,在概率样本或非概率样本存在测量误差的情况下,提出基于无偏误真值的校准和基于有偏误测量值修正的校准两种思路。此外,本文还提出基于Bagging决策树的半监督分类法,用于识别非概率样本和概率样本的重合部分,这在实际工作中具有较强的指导意义。 展开更多
关键词 数据整合 非概率样本 测量误差 校准法 Bagging决策树
下载PDF
统计学习理论基础研究新进展 被引量:2
5
作者 杜二玲 范毅君 李海军 《现代工业经济和信息化》 2016年第18期27-28,共2页
统计学习理论是研究小样本情况下机器学习的理论。在该理论基础上发展起来的支持向量机在许多方面都有应用。系统地整理分析了统计学习理论基础研究的文献,将其主要划分为概率空间的扩展,随机样本的变化,以及两者相结合三个方面介绍了... 统计学习理论是研究小样本情况下机器学习的理论。在该理论基础上发展起来的支持向量机在许多方面都有应用。系统地整理分析了统计学习理论基础研究的文献,将其主要划分为概率空间的扩展,随机样本的变化,以及两者相结合三个方面介绍了统计学习理论基础研究的新进展,并对未来的发展进行了展望。 展开更多
关键词 统计学习理论 非概率空间 非随机样本
下载PDF
基于校准的伪权数构造与混合样本推断 被引量:1
6
作者 侯兰宝 邓严林 《统计与决策》 CSSCI 北大核心 2021年第12期5-9,共5页
无论是大数据时代下的抽样,还是目前流行的网络调查,产生的样本大多为非概率样本,而非概率样本入样概率未知,无法根据传统的抽样推断理论来估计总体,成为大数据背景下网络调查中需要解决的一个问题。针对该问题,文章提出将非概率样本与... 无论是大数据时代下的抽样,还是目前流行的网络调查,产生的样本大多为非概率样本,而非概率样本入样概率未知,无法根据传统的抽样推断理论来估计总体,成为大数据背景下网络调查中需要解决的一个问题。针对该问题,文章提出将非概率样本与概率样本结合为一个混合样本,从同时构造权数与分别构造权数两条思路出发,利用校准对非概率样本构造伪权数,并利用混合样本数据推断总体。模拟与实证研究结果表明:基于校准的伪权数构造与混合样本推断方法效果较好,且基于校准同时构造权数的总体估计方法优于基于校准分别构造权数的总体估计方法。 展开更多
关键词 校准 伪权数 非概率样本 混合样本
下载PDF
高维非概率样本数据的神经网络推断方法研究
7
作者 刘展 李若菡 潘莹丽 《湖北大学学报(自然科学版)》 CAS 2023年第5期684-694,共11页
大数据与网络调查的发展促进了非概率抽样的发展,大多数网络调查样本属于非概率样本,同时可能出现协变量较多,甚至是高维的数据,在这种情况下如何基于非概率样本对总体进行推断,成为当下的一个热点问题.针对该问题,考虑到神经网络的降... 大数据与网络调查的发展促进了非概率抽样的发展,大多数网络调查样本属于非概率样本,同时可能出现协变量较多,甚至是高维的数据,在这种情况下如何基于非概率样本对总体进行推断,成为当下的一个热点问题.针对该问题,考虑到神经网络的降维特点,提出根据非概率样本构建BP神经网络来推断总体的方法.结合非概率样本与参考样本,考虑BP神经网络所具有的正向传播和反向传播相结合的特点,通过训练神经网络调节内部参数,构建BP神经网络模型,估计倾向得分,从而得到总体的估计.模拟与实证分析结果表明基于神经网络的总体估计的偏差、方差、均方误差均小于基于Logistic倾向得分模型的总体估计,提出的方法估计效果较好. 展开更多
关键词 高维数据 非概率样本 BP神经网络 倾向得分
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部