期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
缺失数据下联合均值与方差模型的参数估计 被引量:11
1
作者 邱贻涛 吴刘仓 马婷 《数理统计与管理》 CSSCI 北大核心 2015年第4期621-627,共7页
基于正态分布提出了缺失数据下联合均值与方差模型,在响应变量随机缺失下研究了该模型均值插补、回归插补和随机回归插补三种插补方法的参数估计,通过数据模拟和实例研究结果比较表明,随机回归插补方法是三种插补方法中最有用和有效的。
关键词 缺失数据 联合均值与方差模型 均值插补 回归插补 随机回归插补
原文传递
改进的均值插补不完备数据聚类算法 被引量:9
2
作者 施虹 杨鑫 王平心 《江苏科技大学学报(自然科学版)》 CAS 2020年第4期51-56,共6页
在许多实际场景中,由于数据获取困难、数据误读、数据丢失以及随机噪音等因素导致大量的数据缺失.针对传统的聚类算法无法直接处理不完备数据集的问题,提出了一种基于传统聚类算法的均值插补不完备数据的聚类方法,首先将不完备数据集划... 在许多实际场景中,由于数据获取困难、数据误读、数据丢失以及随机噪音等因素导致大量的数据缺失.针对传统的聚类算法无法直接处理不完备数据集的问题,提出了一种基于传统聚类算法的均值插补不完备数据的聚类方法,首先将不完备数据集划分为两个互不相交的子集,使用传统的聚类算法处理无缺失数据的数据对象获得初始聚类结果;然后使用各类中数据对象的属性均值填充不完备数据对象的缺失数据,观察各类中心值的变化确定最终的插补值.实验通过有效性指标评估该算法在UCI数据集上的聚类结果,可以验证算法的有效性. 展开更多
关键词 不完备数据 均值插补 传统聚类算法 有效性指标
下载PDF
A Study of EM Algorithm as an Imputation Method: A Model-Based Simulation Study with Application to a Synthetic Compositional Data
3
作者 Yisa Adeniyi Abolade Yichuan Zhao 《Open Journal of Modelling and Simulation》 2024年第2期33-42,共10页
Compositional data, such as relative information, is a crucial aspect of machine learning and other related fields. It is typically recorded as closed data or sums to a constant, like 100%. The statistical linear mode... Compositional data, such as relative information, is a crucial aspect of machine learning and other related fields. It is typically recorded as closed data or sums to a constant, like 100%. The statistical linear model is the most used technique for identifying hidden relationships between underlying random variables of interest. However, data quality is a significant challenge in machine learning, especially when missing data is present. The linear regression model is a commonly used statistical modeling technique used in various applications to find relationships between variables of interest. When estimating linear regression parameters which are useful for things like future prediction and partial effects analysis of independent variables, maximum likelihood estimation (MLE) is the method of choice. However, many datasets contain missing observations, which can lead to costly and time-consuming data recovery. To address this issue, the expectation-maximization (EM) algorithm has been suggested as a solution for situations including missing data. The EM algorithm repeatedly finds the best estimates of parameters in statistical models that depend on variables or data that have not been observed. This is called maximum likelihood or maximum a posteriori (MAP). Using the present estimate as input, the expectation (E) step constructs a log-likelihood function. Finding the parameters that maximize the anticipated log-likelihood, as determined in the E step, is the job of the maximization (M) phase. This study looked at how well the EM algorithm worked on a made-up compositional dataset with missing observations. It used both the robust least square version and ordinary least square regression techniques. The efficacy of the EM algorithm was compared with two alternative imputation techniques, k-Nearest Neighbor (k-NN) and mean imputation (), in terms of Aitchison distances and covariance. 展开更多
关键词 Compositional Data Linear Regression Model Least Square Method Robust Least Square Method Synthetic Data Aitchison Distance Maximum Likelihood Estimation Expectation-Maximization Algorithm k-Nearest Neighbor and mean imputation
下载PDF
随机试验设计中缺失值插补方法研究 被引量:3
4
作者 李杰 张晓玲 《大理学院学报(综合版)》 CAS 2013年第10期1-5,共5页
随机化区组设计中经常会碰到缺失数据,处理此类缺失数据目前有4种方法:删除缺失数据法、均值插补法、公式插补法和Yate’s插补法。4种方法的优劣是值得研究的一个问题,拟用模拟研究的方法对此4种方法进行比较。首先随机产生一个4×... 随机化区组设计中经常会碰到缺失数据,处理此类缺失数据目前有4种方法:删除缺失数据法、均值插补法、公式插补法和Yate’s插补法。4种方法的优劣是值得研究的一个问题,拟用模拟研究的方法对此4种方法进行比较。首先随机产生一个4×5的随机区组设计,令缺失值的个数m=1,…,6;其次对每个n遍历所有缺失值位置可能的组合,在每一个缺失值位置的组合下,分别研究4种方法线性回归的标准误差、可决系数和复可决系数。最后模拟研究的结果证实Yate’s插补方法是这4种方法中表现最好的一个,实例研究的结果也证实了模拟研究的结论。 展开更多
关键词 缺失数据 均值插补 公式插补 Yate’s插补
下载PDF
基于加速失效模型的子群分析方法
5
作者 许赵辉 郑泽敏 吴捷 《应用概率统计》 CSCD 北大核心 2023年第5期765-780,共16页
精准医疗强调了正确识别异质性子群的重要性,以发展可针对每个子群的个性化治疗方案.尽管近来在子群分析的方法上取得了一些进展,在数据存在删失时,如何有效识别子群仍然缺乏探索.在本文中,我们提出了一种基于加速失效模型的新的子群分... 精准医疗强调了正确识别异质性子群的重要性,以发展可针对每个子群的个性化治疗方案.尽管近来在子群分析的方法上取得了一些进展,在数据存在删失时,如何有效识别子群仍然缺乏探索.在本文中,我们提出了一种基于加速失效模型的新的子群分析方法,其中由潜在因素导致的异质性可以用特定于个体的截距项来表示.我们考虑最常见的右删失情况,并利用平均插补法对删失数据进行处理.硬阈值惩罚函数被应用于配对截距项的成对差值,可以自动地将观察个体划分为不同的子群.我们也建立了所提出的估计量的理论性质.模拟研究和威斯康辛乳腺癌数据集分析进一步验证了所提方法的有效性. 展开更多
关键词 异质性加速失效模型 精确医疗 子群识别 删失数据 平均插补 硬阈值惩罚
下载PDF
卫生项目评价指标缺失值均值填补的效果评价 被引量:3
6
作者 李伟栋 刘慧燕 +4 位作者 肖晚晴 尹敏娜 郭勇 杨丽 邱琇 《中国妇幼保健》 CAS 北大核心 2014年第24期3871-3874,共4页
目的:探索均值填补方法在卫生项目评价指标值缺失中的应用并评价其填补效果。方法:通过秩和比评价法和Spearman相关系数比较评价均值填补法对实例卫生项目评价指标缺失值处理后填补结果的合理性。结果:3种方法的秩和比评价结果差异均有... 目的:探索均值填补方法在卫生项目评价指标值缺失中的应用并评价其填补效果。方法:通过秩和比评价法和Spearman相关系数比较评价均值填补法对实例卫生项目评价指标缺失值处理后填补结果的合理性。结果:3种方法的秩和比评价结果差异均有统计学意义(P<0.05),但评价指标缺失值数据的评价排序与2012年对应区卫生绩效排序结果差异较大,项目平均进度替代法的参与区评价排序与对应区卫生绩效排序结果一致(γs=0.761,P<0.05)。结论:卫生项目中指标值缺失会对秩和比评价的结果产生偏性,均值填补是一种简单有效的处理秩和比分析方法中指标值缺失的方法。 展开更多
关键词 卫生项目 秩和比 均值填补
原文传递
基于线性回归新模型的插补方法实证研究
7
作者 曾梅 《科技创新导报》 2020年第30期94-100,共7页
在实际生活中搜集数据时,数据缺失的情况是很常见的。在通常的情况下,当辅助变量和缺失变量之间有着较强的线性关系时,如果我们利用回归插补方法对缺失数据进行插补是合理的。在很多研究中,对于回归插补法一般是使用最小二乘法,在本文... 在实际生活中搜集数据时,数据缺失的情况是很常见的。在通常的情况下,当辅助变量和缺失变量之间有着较强的线性关系时,如果我们利用回归插补方法对缺失数据进行插补是合理的。在很多研究中,对于回归插补法一般是使用最小二乘法,在本文中将根据研究者提出来的一种新线性回归估计方法,运用到回归插补中,并和普通最小二乘回归插补及均值插补进行比较,运用R语言进行数据缺失的模拟分析,最后得出前者所得效果更好,丰富了缺失数据插补方法,并且为实际运用中选取处理缺失数据的插补方法时,提供了较多的选择范围。 展开更多
关键词 缺失数据 回归插补 均值插补 R语言
下载PDF
Rayleigh分布总体参数的均值填补估计和检验 被引量:1
8
作者 赵志文 何静花 杨慧超 《佳木斯大学学报(自然科学版)》 CAS 2016年第2期285-288,共4页
基于均值填补缺失数据方法,研究Rayleigh分布总体参数的极大似然估计问题及两个Rayleigh分布总体参数相等的假设检验问题,证明了基于均值填补数据的极大似然估计的强相合性以及渐近正态性,给出了检验两总体参数相等的检验统计量以及检... 基于均值填补缺失数据方法,研究Rayleigh分布总体参数的极大似然估计问题及两个Rayleigh分布总体参数相等的假设检验问题,证明了基于均值填补数据的极大似然估计的强相合性以及渐近正态性,给出了检验两总体参数相等的检验统计量以及检验统计量的极限分布. 展开更多
关键词 数据缺失 均值填补 极大似然估计 假设检验
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部