期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
HD-SIS超高维数据稳健变量筛选 被引量:6
1
作者 张景肖 李向杰 郭海明 《统计与信息论坛》 CSSCI 北大核心 2016年第4期9-12,共4页
超高维变量筛选是统计研究的重要问题。提出一种新的变量筛选方法 HD-SIS,该方法不需要模型假设,并且对异常值有很强的抵抗能力,具有很好的稳健性。在Monte Carlo模拟中,对5种方法进行了比较,即确保独立筛选法、确保独立秩筛选法、稳健... 超高维变量筛选是统计研究的重要问题。提出一种新的变量筛选方法 HD-SIS,该方法不需要模型假设,并且对异常值有很强的抵抗能力,具有很好的稳健性。在Monte Carlo模拟中,对5种方法进行了比较,即确保独立筛选法、确保独立秩筛选法、稳健秩相关系数筛选法、距离确保独立筛选法和鞅差相关系数确保独立筛选法。模拟结果显示HD-SIS有更优良的表现。 展开更多
关键词 超高维数据 稳健性 模型释放 变量筛选
下载PDF
基于一种距离相关的超高维生存数据Model-Free特征筛选
2
作者 潘莹丽 王昊宇 +1 位作者 喻佳丽 刘展 《湖北大学学报(自然科学版)》 CAS 2024年第1期122-132,共11页
随着大数据时代的来临,数据维度爆炸式增长,超高维数据的降维问题逐渐成为众多研究领域的热点话题。由于响应变量通常存在右删失,处理超高维完全数据的降维方法在右删失数据中将不再适用。本研究提出一种新的基于距离相关能有效处理超... 随着大数据时代的来临,数据维度爆炸式增长,超高维数据的降维问题逐渐成为众多研究领域的热点话题。由于响应变量通常存在右删失,处理超高维完全数据的降维方法在右删失数据中将不再适用。本研究提出一种新的基于距离相关能有效处理超高维右删失数据的特征筛选方法。首先利用距离相关系数计算每个协变量对响应变量的边际效应,建立与该系数有关的筛选指标,然后再根据事先确立的筛选准则进行特征筛选。提出的特征筛选方法不依赖任何模型结构假定,因此可以有效避免模型指定错误带来的不良后果。此外,该方法采用的距离协方差估计量是总体距离协方差的一个无偏估计,统计准确性和计算精度高。模拟和实证研究表明,提出的方法能在保留所有重要变量的前提下快速剔除与响应变量相关程度较弱的协变量,从而达到降低参数维数的目的。 展开更多
关键词 超高维数据 生存数据 距离相关 Model-Free特征筛选
下载PDF
超高维数据下部分线性可加分位数回归模型的变量选择
3
作者 白永昕 钱曼玲 田茂再 《统计与决策》 CSSCI 北大核心 2024年第9期43-48,共6页
在超高维数据中,一方面,协变量的维数可能远远大于样本量,甚至随着样本量以指数级的速度增长;另一方面,超高维数据通常是异质的,协变量对条件分布中心的影响可能与他们对尾部的影响大不相同,甚至会出现重尾以及异常点的复杂情况。文章... 在超高维数据中,一方面,协变量的维数可能远远大于样本量,甚至随着样本量以指数级的速度增长;另一方面,超高维数据通常是异质的,协变量对条件分布中心的影响可能与他们对尾部的影响大不相同,甚至会出现重尾以及异常点的复杂情况。文章在协变量维度发散且为超高维的情况下研究了部分线性可加分位数回归模型的变量选择和稳健估计问题。首先,为了实现模型的稀疏性和非参数光滑性,引入了一种非凸Atan双惩罚,并采用分位迭代坐标下降算法来解决所提方法的优化问题。在选择适当正则化参数的情况下,证明了所提双惩罚估计量的理论性质。其次,通过模拟研究对所提方法的性能进行验证。模拟结果表明,所提方法比其他惩罚方法具有更好的表现,尤其是在数据存在重尾的情况下。最后,通过基于癌症筛查病人血液样本数据的实证来验证所提方法的实用性。 展开更多
关键词 超高维数据 分位数回归 部分线性可加 变量选择 Atan双惩罚
下载PDF
基于模型平均的超高维数据特征筛选方法 被引量:2
4
作者 高羽飞 来鹏 +1 位作者 何孟霜 夏文俊 《扬州大学学报(自然科学版)》 CAS 北大核心 2020年第3期7-14,共8页
结合模型平均技术和条件分位数方法,提出一种基于变量间相关度量的模型平均特征筛选方法.该方法具有无模型假设、对异常值或重尾分布稳健以及计算简单快捷等优点,并通过理论证明和蒙特卡洛数值模拟验证了该方法满足确定性筛选性质和有... 结合模型平均技术和条件分位数方法,提出一种基于变量间相关度量的模型平均特征筛选方法.该方法具有无模型假设、对异常值或重尾分布稳健以及计算简单快捷等优点,并通过理论证明和蒙特卡洛数值模拟验证了该方法满足确定性筛选性质和有限样本性质.实例分析结果表明,本文所提出的方法具有优良的表现. 展开更多
关键词 超高维数据 条件分位数 模型平均 确定性筛选性质
下载PDF
基于纵向数据的超高维特征筛选 被引量:1
5
作者 来鹏 王昉健 《福建师范大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第3期8-13,51,共7页
实际问题研究中常常面临复杂数据,其中超高维数据和纵向数据常见于医学、经济学等大数据领域.基于超高维纵向数据的结构特征,推广确定独立筛选SIS(Sure Independence Screening)方法,构造了基于纵向数据组内相关结构的边际特征筛选方法... 实际问题研究中常常面临复杂数据,其中超高维数据和纵向数据常见于医学、经济学等大数据领域.基于超高维纵向数据的结构特征,推广确定独立筛选SIS(Sure Independence Screening)方法,构造了基于纵向数据组内相关结构的边际特征筛选方法,对超高维问题进行筛选降维,并从理论上证明了所提出降维筛选过程满足确定性筛选性质,从数值模拟上研究了其有限样本性质. 展开更多
关键词 超高维数据 纵向数据 特征筛选 确定性筛选性质
下载PDF
基于条件累积分布函数的条件变量筛选
6
作者 刘伟 曹智苗 陈晓林 《统计与决策》 CSSCI 北大核心 2021年第5期30-33,共4页
变量筛选是分析超高维数据的重要方法,现有边际筛选方法在某些情况下易导致高错误发现率。另外,在很多实际问题中,研究者事先知道某个(些)协变量对响应变量有重要影响,在变量筛选的过程中,应该考虑这个先验信息。文章提出了一种新的条... 变量筛选是分析超高维数据的重要方法,现有边际筛选方法在某些情况下易导致高错误发现率。另外,在很多实际问题中,研究者事先知道某个(些)协变量对响应变量有重要影响,在变量筛选的过程中,应该考虑这个先验信息。文章提出了一种新的条件变量筛选方法,并证明了该方法具有确定性筛选性质。数值模拟结果验证了所提方法在有限样本下具有良好表现。最后,通过实际数据分析验证了该方法的有效性。 展开更多
关键词 超高维数据 变量筛选 条件变量筛选 条件累积分布函数
下载PDF
Nonparametric Feature Screening via the Variance of the Regression Function
7
作者 Won Chul Song Michael G. Akritas 《Open Journal of Statistics》 2024年第4期413-438,共26页
This article develops a procedure for screening variables, in ultra high-di- mensional settings, based on their predictive significance. This is achieved by ranking the variables according to the variance of their res... This article develops a procedure for screening variables, in ultra high-di- mensional settings, based on their predictive significance. This is achieved by ranking the variables according to the variance of their respective marginal regression functions (RV-SIS). We show that, under some mild technical conditions, the RV-SIS possesses a sure screening property, which is defined by Fan and Lv (2008). Numerical comparisons suggest that RV-SIS has competitive performance compared to other screening procedures, and outperforms them in many different model settings. 展开更多
关键词 Sure Independence Screening Nonparametric Regression ultrahigh-dimensional data Variable Selection
下载PDF
超高维删失数据的联合特征筛选方法研究 被引量:3
8
作者 潘婧 柴洪峰 +1 位作者 孙权 周勇 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2023年第1期169-190,共22页
针对超高维删失数据,通过降维技术可以进行特征选取,去除大数据中的噪声数据,以便挖掘高维大数据的重要信息,进行大数据的相关分析和应用.本文提出了一种稳健的偏相关系数来进行特征筛选,并引入逆概率加权方法来处理删失,发展出一种新... 针对超高维删失数据,通过降维技术可以进行特征选取,去除大数据中的噪声数据,以便挖掘高维大数据的重要信息,进行大数据的相关分析和应用.本文提出了一种稳健的偏相关系数来进行特征筛选,并引入逆概率加权方法来处理删失,发展出一种新的联合特征筛选方法.本文利用响应变量的条件分布函数来构造偏相关性度量,可以全面地刻画其与协变量间的相关性,且相较于传统的皮尔逊偏相关系数,该度量对于响应存在异常值,厚尾分布以及异方差结构时具有稳健性.其次,基于该度量所提出的联合特征筛选方法通过投影作用来消除由协变量之间的相关关系产生的干扰作用,故能够较好地改善假阴性错误、假阳性错误及协变量的共线性问题.我们推导了该方法的理论性质,给出了快速的迭代算法,并进一步通过模拟和实例分析来考察该算法在有限样本下的数值表现. 展开更多
关键词 超高维删失数据 特征筛选 偏相关系数 逆概率加权估计 稳健性
原文传递
超高维生存数据中交互效应的非参数变量筛选法
9
作者 张婧 刘妍岩 《数学学报(中文版)》 CSCD 北大核心 2024年第3期582-598,共17页
在医学、遗传学、经济学等领域的研究中,线性回归模型常被用来研究变量间的回归关系,以进行分析和预测.而在很多实际问题中,仅仅考虑主效应的影响是远远不够的,变量之间的交互效应也会对因变量产生重要影响,同时考虑主效应和交互效应的... 在医学、遗传学、经济学等领域的研究中,线性回归模型常被用来研究变量间的回归关系,以进行分析和预测.而在很多实际问题中,仅仅考虑主效应的影响是远远不够的,变量之间的交互效应也会对因变量产生重要影响,同时考虑主效应和交互效应的交互模型能更全面地刻画变量之间的关系.在高维数据中,变量的个数p比较大,二阶交互项的个数(p(p+1))/2更大,此时对交互模型的统计分析存在很大的困难和挑战.如何从众多交互效应中挑选出对感兴趣事件有显著影响的重要交互效应是一个非常重要的问题.目前对此问题的研究主要集中在线性模型框架下的完全数据,本文将研究超高维右删失生存数据中重要交互效应的选取.基于距离相关系数和两步分析法的原理,本文提出了一种不依赖于任何模型假设的交互效应变量筛选方法.此方法可以同时实现重要主效应和重要交互效应的选取,且可以处理p很大的超高维数据.本文通过大量的数值模拟试验评估了该方法在有限样本下的表现,结果显示此方法能有效地处理超高维右删失数据中交互效应的选取问题.最后本文把它应用到弥漫性大b细胞淋巴瘤(DLBCL)数据的实例分析中. 展开更多
关键词 交互效应 超高维生存数据 距离相关系数 两步分析法 变量筛选
原文传递
Ultra-High Dimensional Feature Selection and Mean Estimation under Missing at Random
10
作者 Wanhui Li Guangming Deng Dong Pan 《Open Journal of Statistics》 2023年第6期850-871,共22页
Next Generation Sequencing (NGS) provides an effective basis for estimating the survival time of cancer patients, but it also poses the problem of high data dimensionality, in addition to the fact that some patients d... Next Generation Sequencing (NGS) provides an effective basis for estimating the survival time of cancer patients, but it also poses the problem of high data dimensionality, in addition to the fact that some patients drop out of the study, making the data missing, so a method for estimating the mean of the response variable with missing values for the ultra-high dimensional datasets is needed. In this paper, we propose a two-stage ultra-high dimensional variable screening method, RF-SIS, based on random forest regression, which effectively solves the problem of estimating missing values due to excessive data dimension. After the dimension reduction process by applying RF-SIS, mean interpolation is executed on the missing responses. The results of the simulated data show that compared with the estimation method of directly deleting missing observations, the estimation results of RF-SIS-MI have significant advantages in terms of the proportion of intervals covered, the average length of intervals, and the average absolute deviation. 展开更多
关键词 ultrahigh-dimensional data Missing data Sure Independent Screening Mean Estimation
下载PDF
超高维Ⅱ型区间删失数据的非参数变量筛选法 被引量:2
11
作者 张婧 靳韶佳 陈丹丹 《应用数学学报》 CSCD 北大核心 2021年第5期690-702,共13页
在定期随访的医学研究或临床实验中,人们经常会收集到高维区间删失数据,如何对这类数据进行降维是一个非常有意义的问题.本文基于Kolmogorov-Smirnov检验统计量,利用分割和融合的技巧,把独立特征筛选方法推广到区间删失数据中,提出了一... 在定期随访的医学研究或临床实验中,人们经常会收集到高维区间删失数据,如何对这类数据进行降维是一个非常有意义的问题.本文基于Kolmogorov-Smirnov检验统计量,利用分割和融合的技巧,把独立特征筛选方法推广到区间删失数据中,提出了一种可以处理超高维Ⅱ型区间删失数据且不依赖于任何模型假设的变量筛选方法.此方法的适用范围很广,可以有效地处理各种生存模型下的超高维Ⅱ型区间删失数据,而且可以处理离散型,连续型等多种类型的协变量.在估计生存函数时,本文采用EM-ICM算法,极大地提高了计算效率.大量的数值模拟实验验证了此方法在有限样本下的有效性. 展开更多
关键词 区间删失数据 超高维数据 变量筛选 EM-ICM算法
原文传递
超高维生存数据中基于相关性秩排序的变量筛选法和FDR控制 被引量:1
12
作者 潘莹丽 赵晓洛 +1 位作者 张淑莹 刘展 《统计与决策》 CSSCI 北大核心 2023年第19期47-52,共6页
由于超高维生存数据存在删失,因此处理超高维完全数据的变量筛选法大多不再适用。大多数变量筛选法虽能以较大的概率保留所有重要变量,即具有确定筛选性,但却未能很好地控制错误发现率(FDR),所以寻找一种可以平衡模型的可解释性和稳定... 由于超高维生存数据存在删失,因此处理超高维完全数据的变量筛选法大多不再适用。大多数变量筛选法虽能以较大的概率保留所有重要变量,即具有确定筛选性,但却未能很好地控制错误发现率(FDR),所以寻找一种可以平衡模型的可解释性和稳定性的降维方法显得尤为重要。文章探讨了超高维生存数据中基于相关性秩排序且不依赖于模型的变量筛选法和FDR控制,提出了一种使用Knockoff协变量指定变量筛选阈值的两步过程,可以将FDR控制在预先指定的水平α下。数值模拟和实证分析的结果表明,在FDR水平α大于或等于1 s(s是重要变量数量)的情况下,提出的两步CR-Knockoff过程同时具有确定筛选和FDR控制的性能。 展开更多
关键词 相关性秩 无模型筛选 Fixed-X Knockoff过滤器 超高维生存数据 CR-Knockoff
下载PDF
超高维异方差数据下基于边际经验似然的分位数特征筛选
13
作者 刘漫雨 黄彬 刘佳乐 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期112-118,共7页
针对超高维异方差数据,基于边际经验似然提出一种分位数特征筛选方法,该方法不依赖于模型假定,且计算简单快捷,无须进行复杂的参数估计和迭代计算。同时,沿袭经验似然方法的优点,该方法对分布的假设较宽松。在一定的正则条件下,理论上... 针对超高维异方差数据,基于边际经验似然提出一种分位数特征筛选方法,该方法不依赖于模型假定,且计算简单快捷,无须进行复杂的参数估计和迭代计算。同时,沿袭经验似然方法的优点,该方法对分布的假设较宽松。在一定的正则条件下,理论上证明了所提方法满足确定筛选性质。此外,为了筛选出对响应变量有影响的所有协变量,将上述方法进行推广,得到一种基于边际经验似然的分布函数特征筛选方法。最后,通过数值模拟和实例分析验证了所提出的两种方法具有良好的有限样本性质。 展开更多
关键词 超高维数据 异方差 边际经验似然 分位数筛选 确定筛选性质
下载PDF
超高维数据的稳健秩条件特征筛选
14
作者 李向杰 张景肖 《统计与信息论坛》 CSSCI 北大核心 2018年第4期6-12,共7页
针对超高维变量筛选问题,提出一种新的稳健秩条件特征筛选方法,简称为RRCSIS。该方法不依赖于模型设定,并且可以同时处理条件特征筛选和特征筛选。数值模拟表明,RRCSIS在因变量或者自变量含有厚尾分布或者含有异常值时表现都很稳健,并... 针对超高维变量筛选问题,提出一种新的稳健秩条件特征筛选方法,简称为RRCSIS。该方法不依赖于模型设定,并且可以同时处理条件特征筛选和特征筛选。数值模拟表明,RRCSIS在因变量或者自变量含有厚尾分布或者含有异常值时表现都很稳健,并且明显优于其他筛选方法。此外,为了识别出联合相关而边际不相关的变量,还提出了一种迭代的筛选过程,即IRRCSIS。最后,通过一个实例分析说明了该方法的有效性。 展开更多
关键词 条件特征筛选 超高维数据 稳健秩 模型自由
下载PDF
SEVIS方法的局部线性估计及其在超高维数据下的应用
15
作者 连亦旻 陈钊 舒明良 《应用数学学报》 CSCD 北大核心 2018年第1期1-13,共13页
在大数据时代的背景下,如何从超高维数据中筛选出真正重要的特征成为许多相关行业的研究者们广泛关注的一个问题.特征筛选的核心思想就在于排除那些明显与因变量不相关的特征以达到这一目的.基于核估计的SEVIS(Sure Explained Varia... 在大数据时代的背景下,如何从超高维数据中筛选出真正重要的特征成为许多相关行业的研究者们广泛关注的一个问题.特征筛选的核心思想就在于排除那些明显与因变量不相关的特征以达到这一目的.基于核估计的SEVIS(Sure Explained Variability and Independence Screening)特征筛选方法在处理非对称,非线性数据下要在一定程度上优于之前的特征筛选模型,但其采用核估计的方式对非参数部分进行估计的方法仍存在进一步改进的空间.本文就从这个角度出发,将其核估计的算法修改为局部线性估计,并考虑部分特殊情况下的变量选择过程.结果显示,基于局部线性估计的SEVIS方法在准确性,运行效率上都要优于基于核估计的SEVIS的方法. 展开更多
关键词 特征筛选 局部线性估计 SEVIS 超高维数据
原文传递
基于互信息的变量选择方法 被引量:2
16
作者 周生彬 黄叶金 《统计与决策》 CSSCI 北大核心 2020年第1期20-23,共4页
文章基于解释变量与被解释变量之间的互信息提出一种新的变量选择方法:MI-SIS。该方法可以处理解释变量数目p远大于观测样本量n的超高维问题,即p=O(exp(nε))ε>0。另外,该方法是一种不依赖于模型假设的变量选择方法。数值模拟和... 文章基于解释变量与被解释变量之间的互信息提出一种新的变量选择方法:MI-SIS。该方法可以处理解释变量数目p远大于观测样本量n的超高维问题,即p=O(exp(nε))ε>0。另外,该方法是一种不依赖于模型假设的变量选择方法。数值模拟和实证研究表明,MI-SIS方法在小样本情形下能够有效地发现微弱信号。 展开更多
关键词 变量选择 互信息 非参数密度估计 超高维数据分析
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部