期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
不平衡数据挖掘方法综述 被引量:53
1
作者 向鸿鑫 杨云 《计算机工程与应用》 CSCD 北大核心 2019年第4期1-16,共16页
近些年,分类算法取得了长足的发展。但是随着数据来源的不断扩大,人们获得的数据绝大部分是不平衡数据。而这些分类算法通常对不平衡数据敏感,因此对不平衡数据的分类变得十分困难。目前对不平衡数据挖掘方法主要分为两大方面,分别是针... 近些年,分类算法取得了长足的发展。但是随着数据来源的不断扩大,人们获得的数据绝大部分是不平衡数据。而这些分类算法通常对不平衡数据敏感,因此对不平衡数据的分类变得十分困难。目前对不平衡数据挖掘方法主要分为两大方面,分别是针对不平衡数据的预处理方法和挖掘算法。就这两大方面对近些年出现的方法进行总结,并从数据预处理、算法和性能评估方法等方面进行多维度梳理。从不同的应用领域入手,讲述了存在的各种不平衡问题,以及不同学者在其领域中的研究和解决方法。最后分析了不平衡数据挖掘领域目前存在的问题,并对未来研究方向进行展望。 展开更多
关键词 不平衡数据 采样 聚类方法 集成方法 代价敏感 性能评估
下载PDF
不平衡数据集分类方法综述 被引量:33
2
作者 王乐 韩萌 +2 位作者 李小娟 张妮 程浩东 《计算机工程与应用》 CSCD 北大核心 2021年第22期42-52,共11页
不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于K近邻、Bagging和Boosting三种方... 不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于K近邻、Bagging和Boosting三种方法;在过采样方法中从合成少数过采样技术(SyntheticMinorityOver-sampling Technology,SMOTE)、支持向量机(SupportVectorMachine,SVM)两个角度来分析不平衡数据集的分类方法;对这两类采样方法的优缺点进行了比较,在相同数据集下比较算法的性能并进行分析与总结。从深度学习、极限学习机、代价敏感和特征选择四方面对不平衡数据集的分类方法进行了归纳。最后对下一步工作方向进行了展望。 展开更多
关键词 不平衡数据集 分类 采样方法 K近邻(KNN) 合成少数过采样技术(SMOTE) 深度学习
下载PDF
基于形态数据的大白菜核心种质构建方法的研究 被引量:32
3
作者 李国强 李锡香 +3 位作者 沈镝 王海平 宋江萍 邱杨 《园艺学报》 CAS CSCD 北大核心 2008年第12期1759-1766,共8页
以国家蔬菜种质资源中期库收集保存的1651份大白菜种质为试材,按照大白菜分类系统和生态型,采用分层分组法,将所有种质分为6组。基于43个形态性状的数据,比较了4种组内取样比例法、6种总体取样规模和2种取样方法在构建大白菜核心种质中... 以国家蔬菜种质资源中期库收集保存的1651份大白菜种质为试材,按照大白菜分类系统和生态型,采用分层分组法,将所有种质分为6组。基于43个形态性状的数据,比较了4种组内取样比例法、6种总体取样规模和2种取样方法在构建大白菜核心种质中的作用和效果。结果表明:组内以多样性比例法更能使各组的取样份数或比例趋于平衡,并较好地保持原始收集品的变异度。当总体取样规模为15%时,多样性比例法所构建的核心种质的遗传多样性指数达到最大,表型保留比例亦能达到98%左右;而当总体取样规模增加到20%以上时,虽然表型保留比例接近100%,但核心种质遗传多样性指数迅速降低。因此,认为15%总体取样规模较为合适。在一定的组内取样比例法和总体取样规模下,聚类取样构建的核心种质的遗传多样性指数(I)、表型保留比例(RPR)和变异系数(CV)均比随机取样的高。根据获得的优化方案最终在表型水平建立了包含248份种质的中国大白菜核心种质。 展开更多
关键词 大白菜 形态数据 核心种质 取样规模 取样方法
原文传递
大数据统计方法综述 被引量:22
4
作者 叶小青 汪政红 吴浩 《中南民族大学学报(自然科学版)》 CAS 2018年第4期151-156,共6页
回顾大数据统计分析方法的现状,重点分析线性及非线性模型的分治算法,详细阐述3种抽样法,并比较其差异,归纳总结在线更新算法和基于变量选择的在线更新算法,最后展望大数据统计分析的未来.
关键词 大数据 分治算法 抽样法 在线更新算法
下载PDF
混凝土强度统计数据的分析与应用 被引量:20
5
作者 王华琪 赵鸣 +1 位作者 李杰 丁洁民 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第7期861-865,共5页
对大量混凝土抗压强度数据进行统计和分析,获取了混凝土强度质量特性;对混凝土强度进行正态分布检验,证明采用正态分布的可行性;对混凝土强度进行同分布检验,提出目前混凝土生产质量水平不稳定.批不合格率是确定抽样检验方案的关键参数... 对大量混凝土抗压强度数据进行统计和分析,获取了混凝土强度质量特性;对混凝土强度进行正态分布检验,证明采用正态分布的可行性;对混凝土强度进行同分布检验,提出目前混凝土生产质量水平不稳定.批不合格率是确定抽样检验方案的关键参数,通过对统计数据的分析,提出检验批不合格率p的分布,为制定合理的抽样检验方案提供依据. 展开更多
关键词 混凝土强度 统计数据 批不合格率分布 抽样检验方案
下载PDF
基于表型数据的辣椒核心种质构建研究 被引量:17
6
作者 雷刚 周坤华 +2 位作者 方荣 吴茵 陈学军 《西北植物学报》 CAS CSCD 北大核心 2016年第4期804-810,共7页
以收集保存的603份辣椒种质为材料,根据果形指数大小将其分成5组。基于28个性状的表型数据,采用简单比例、平方根比例、对数比例及遗传多样性指数比例法计算各组内取样份数,比较4种组内取样比例法、6种总体取样规模和2种取样方法在构建... 以收集保存的603份辣椒种质为材料,根据果形指数大小将其分成5组。基于28个性状的表型数据,采用简单比例、平方根比例、对数比例及遗传多样性指数比例法计算各组内取样份数,比较4种组内取样比例法、6种总体取样规模和2种取样方法在构建辣椒核心种质中的作用和效果。结果表明:(1)简单比例、平方根比例、对数比例、遗传多样性指数比例法入选的材料份数占预选核心种质份数依次为24.2%、22.2%、21.1%、17.8%,说明遗传多样性指数比例法对各组取样数量的修正能力最强,使取样更加均衡。(2)当总体取样规模为15%时,遗传多样性指数比例法构建的预选核心种质遗传多样性指数(I)达到最大,表型保留比例(RPR)超过98%;当总体取样规模超过20%时,RPR值、变异系数(CV)和极差符合率(CR)虽然平缓增加,但I值反而减小;说明15%为合适的总体取样规模。(3)利用对数比例法和多样性比例法,在15%的总体取样规模下,聚类取样构建的核心种质I值、RPR值、CV值及CR值均高于随机取样。(4)该研究根据所获得的优化方案最终在表型水平建立了包含91份种质的辣椒核心种质。 展开更多
关键词 辣椒 表型数据 核心种质 取样规模 取样方法
下载PDF
Parker公式的一系列推广及其在石油重力勘探中的应用前景 被引量:15
7
作者 柴玉璞 贾继军 《石油地球物理勘探》 EI CSCD 北大核心 1990年第3期321-332,378,共13页
本文采用一种比较简捷的方法,对Parker公式作了一系列推广,导出了Parker公式的各种具体形式,并且最终导出了任意变密度Parker公式公式揭示了密度函数、界面函数和重力效应函数之间的关系。它的各种具体形式(如指数型变化的密度模式的Par... 本文采用一种比较简捷的方法,对Parker公式作了一系列推广,导出了Parker公式的各种具体形式,并且最终导出了任意变密度Parker公式公式揭示了密度函数、界面函数和重力效应函数之间的关系。它的各种具体形式(如指数型变化的密度模式的Parker公式、多项式密度模式的Parker公式等)在石油重力勘探中有广阔的应用前景。在数值计算方面,采用了乘子法和移样法两项新技术,保证了任意复杂密度模型的正演精度与空间域常密度正演精度相当。理论模型和应用实例表明方法有良好的效果。 展开更多
关键词 重力资料解释 任意变密度Parkef公式 乘子法 移样法
下载PDF
扎根理论及其在新闻传播学中的应用 被引量:13
8
作者 张婵 《西南交通大学学报(社会科学版)》 2019年第2期55-64,共10页
扎根理论是一种质性研究方法,它强调原始数据的基础性作用,要求研究者时刻保持理论敏感度,并通过不断比较的方法与数据持续互动,最终产生实质性理论。扎根理论的操作程序包括收集丰富的数据、编码、发展概念类属、理论抽样、撰写备忘录... 扎根理论是一种质性研究方法,它强调原始数据的基础性作用,要求研究者时刻保持理论敏感度,并通过不断比较的方法与数据持续互动,最终产生实质性理论。扎根理论的操作程序包括收集丰富的数据、编码、发展概念类属、理论抽样、撰写备忘录等,理论饱和是数据收集终止的标志。这一方法"填平了理论研究与经验研究之间尴尬的鸿沟",并逐渐被引入新闻传播学科。国外的新闻传播学研究主要将该理论应用在健康传播领域,以考察患者与他人对疾病的沟通问题。国内学者则主要将其用于新媒体用户的使用行为、群体性事件与网络舆情以及新闻传播理论的本土化创新等问题研究,虽大部分属于探索性研究,但其方法、步骤已十分规范。 展开更多
关键词 扎根理论 数据编码 理论抽样 不断比较法 新闻传播学
下载PDF
数据主权安全能力成熟度评估应用研究——以DSSCMM模型应用于中国的评估为例 被引量:12
9
作者 文禹衡 戴文怡 《图书与情报》 CSSCI 北大核心 2021年第4期39-51,共13页
基于DSSCMM提出数据主权安全能力成熟度的评估方法和过程,评估后针对我国数据主权安全能力成熟度薄弱环节提出改进建议。构建并运用边际取样法确定有效样本,运用专家调查法确定关键过程域的能力维度权重,构建并运用样本赋分法计算能力... 基于DSSCMM提出数据主权安全能力成熟度的评估方法和过程,评估后针对我国数据主权安全能力成熟度薄弱环节提出改进建议。构建并运用边际取样法确定有效样本,运用专家调查法确定关键过程域的能力维度权重,构建并运用样本赋分法计算能力维度分,进而确定关键过程域分和数据主权安全能力分。数据本地存储、数据跨境流动、数据域外管辖的能力成熟度都达到充分级,但数据域外管辖的能力成熟度实际上靠近必要级,我国数据主权安全能力成熟度达到充分级。进一步提升我国数据主权安全能力成熟度,宜从数据域外管辖的"文化教育"和数据本地存储、数据跨境流动的"技术工具"展开,尤其要重视在域外司法活动之中及时运用《数据安全法》的长臂管辖,以及引导和推广在国内网络生态系统中应用自主技术产品。 展开更多
关键词 DSSCMM 数据主权安全 能力成熟度 边际取样法 样本赋分法
下载PDF
一种基于样本空间的类别不平衡数据采样方法 被引量:10
10
作者 张永清 卢荣钊 +3 位作者 乔少杰 韩楠 GUTIERREZ Louis Alberto 周激流 《自动化学报》 EI CAS CSCD 北大核心 2022年第10期2549-2563,共15页
不平衡数据是机器学习中普遍存在的问题并得到广泛研究,即少数类的样本数量远远小于多数类样本的数量.传统基于最小化错误率方法的不足在于:分类结果会倾向于多数类,造成少数类的精度降低,通常还存在时间复杂度较高的问题.为解决上述问... 不平衡数据是机器学习中普遍存在的问题并得到广泛研究,即少数类的样本数量远远小于多数类样本的数量.传统基于最小化错误率方法的不足在于:分类结果会倾向于多数类,造成少数类的精度降低,通常还存在时间复杂度较高的问题.为解决上述问题,提出一种基于样本空间分布的数据采样方法,伪负样本采样方法.伪负样本指被标记为负样本(多数类)但与正样本(少数类)有很大相关性的样本.算法主要包括3个关键步骤:1)计算正样本的空间分布中心并得到每个正样本到空间中心的平均距离;2)以同样的距离计算方法计算每个负样本到空间分布中心的距离,并与平均距离进行比较,将其距离小于平均距离的负样本标记为伪负样本;3)将伪负样本从负样本集中删除并加入到正样本集中.算法的优势在于不改变原始数据集的数量,因此不会引入噪声样本或导致潜在信息丢失;在不降低整体分类精度的情况下,提高少数类的精确度.此外,其时间复杂度较低.经过13个数据进行多角度实验,表明伪负样本采样方法具有较高的预测准确性. 展开更多
关键词 不平衡数据 样本空间 机器学习 采样方法 空间中心
下载PDF
基于正序阻抗幅值比的风电场送出线路纵联保护 被引量:2
11
作者 牛伟民 樊艳芳 +2 位作者 侯俊杰 张鑫宇 马健 《电力系统保护与控制》 EI CSCD 北大核心 2023年第16期179-187,共9页
针对风电场送出线路纵联保护在数据延时传输及异常采样数据下保护性能不佳的问题,提出了基于正序阻抗幅值比的纵联保护。通过分析风电系统送出线路发生区内外故障时正序阻抗幅值特征,得出区内外故障下双端正序阻抗幅值差异比特征不同。... 针对风电场送出线路纵联保护在数据延时传输及异常采样数据下保护性能不佳的问题,提出了基于正序阻抗幅值比的纵联保护。通过分析风电系统送出线路发生区内外故障时正序阻抗幅值特征,得出区内外故障下双端正序阻抗幅值差异比特征不同。引入综合层次聚类(balanced iterative reducing and clustering using hierarchies,BIRCH)方法剔除正序阻抗幅值序列中异常采样数据,形成不含异常采样数据的故障时间序列聚类特征,并结合双端正序阻抗幅值差异比特征,构造不受数据延时传输影响的纵联保护判据。仿真结果表明,所提出的纵联保护不受系统运行工况、故障类型、数据延时传输及异常采样数据的影响。在过渡电阻达到150Ω时,所提出的纵联保护仍能正确判别故障方向,具有较强的抗噪性能,适用于含风电接入的弱馈型电力系统。 展开更多
关键词 风电场 纵联保护 数据延时 异常采样数据 BIRCH方法
下载PDF
核数据引起的研究堆有效增殖因子计算不确定度量化
12
作者 孙静宇 马纪敏 《强激光与粒子束》 CAS CSCD 北大核心 2024年第9期120-126,共7页
为了深入研究核数据不确定度对JRR-3M研究堆有效增殖因子计算的影响,建立了一套基于蒙特卡罗法的核数据不确定度量化流程。具体方法为:使用核数据扰动软件SANDY扰动目标核素的重要反应道生成扰动文件,再通过核数据加工软件NJOY对扰动文... 为了深入研究核数据不确定度对JRR-3M研究堆有效增殖因子计算的影响,建立了一套基于蒙特卡罗法的核数据不确定度量化流程。具体方法为:使用核数据扰动软件SANDY扰动目标核素的重要反应道生成扰动文件,再通过核数据加工软件NJOY对扰动文件进行处理,最终利用核反应堆物理模拟软件OpenMC进行蒙特卡罗模拟。针对JRR-3M研究堆的控制棒全插、反应堆临界、控制棒全拔三种运行工况,对多个关键核素(如^(235)U、^(238)U、Hf等)的核数据不确定度给有效增殖因子计算带来的影响进行了详细分析。研究结果表明,^(177)Hf、^(235)U、^(1)H、^(27)Al的核数据不确定度对JRR-3M有效增殖因子具有显著影响。临界、控制棒全插和控制棒全提这3种工况下,核数据不确定引起的有效增殖因子总不确定度分别为660.8×10^(-5)、588.5×10^(-5)、708.4×10^(-5)。在各个工况下,^(235)U的次级粒子能量分布的影响都是最大的。研究发现,对以铪为主要组成材料的控制棒内,只有177Hf的核数据不确定度起主要影响。 展开更多
关键词 核数据 不确定度量化 有效增殖因子 抽样法 研究堆
下载PDF
基于多典型场景采样的微网可靠性计算方法 被引量:5
13
作者 徐明忻 石勇 +3 位作者 邢敬舒 王姣 金国锋 刘自发 《电力科学与技术学报》 CAS 北大核心 2022年第3期41-49,共9页
随着微电网系统在海岛区域的广泛应用,微电网系统的可靠性评估难度也有所提升。基于此,提出了基于多典型场景采样的微网可靠性计算方法。首先采用k-means聚类算法对电网运行大数据进行典型场景提取,将体现时间关联性的“出力—负荷”作... 随着微电网系统在海岛区域的广泛应用,微电网系统的可靠性评估难度也有所提升。基于此,提出了基于多典型场景采样的微网可靠性计算方法。首先采用k-means聚类算法对电网运行大数据进行典型场景提取,将体现时间关联性的“出力—负荷”作为提取特征量进行处理;其次,提出基于场景概率分布的拉丁超立方抽样方法,使得采样频率与场景出现概率一致;然后,根据各场景中各元件的状态时间序列进行抽样并计算各场景的可靠性指标,再利用全概率公式得出微电网综合可靠性指标。最后采用某微电网系统进行算例分析,结果表明所提模型方法能够快速准确地进行微电网可靠性评估。 展开更多
关键词 微电网 大数据 可靠性计算 拉丁超立方采样 典型场景生成 场景分析法
下载PDF
基于经验数据的机械零件模糊可靠性分析随机抽样法 被引量:2
14
作者 高亮 董玉革 刘建峰 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第10期1196-1200,共5页
文章讨论了根据专家经验获取模糊变量隶属函数,再对机械零件进行可靠性分析的方法。首先对专家提问,请专家按要求对变量可能的取值做出描述,给出相应的区间和隶属度,从而把他们对变量取值的定性认识转化为定量信息,再通过对这些定量信... 文章讨论了根据专家经验获取模糊变量隶属函数,再对机械零件进行可靠性分析的方法。首先对专家提问,请专家按要求对变量可能的取值做出描述,给出相应的区间和隶属度,从而把他们对变量取值的定性认识转化为定量信息,再通过对这些定量信息进行数学处理建立变量的隶属函数;然后把模糊变量转化为当量随机变量,用传统可靠性理论中的随机抽样法模拟零件的可靠度;最后通过算例验证了方法的可行性和有效性。 展开更多
关键词 模糊变量 当量随机变量 经验数据 随机抽样法
下载PDF
数据采集系统通道采集速率的精确评价方法 被引量:1
15
作者 梁志国 朱济杰 《华北工学院测试技术学报》 2000年第3期148-153,共6页
目的 介绍数据采集系统采集速率的一种简单实用的精确评价方法 ,即正弦波拟合评价法 .方法 核心技术除了采用最小二乘波形拟合手段外 ,还采用了一种性能独特的单频数字滤波器技术 ,该滤波器仅对噪声和谐波有滤除作用 ,从原理上说 ,对... 目的 介绍数据采集系统采集速率的一种简单实用的精确评价方法 ,即正弦波拟合评价法 .方法 核心技术除了采用最小二乘波形拟合手段外 ,还采用了一种性能独特的单频数字滤波器技术 ,该滤波器仅对噪声和谐波有滤除作用 ,从原理上说 ,对于正弦信号的幅度、相位、频率和直流分量 4个参数均无影响 .讨论了评价过程的误差来源 ,以及减小其评价误差的几种对策 ;并阐述了滤波方法及过程 ,同时 ,以滤波前后效果对比的方式给出了评价过程的计算机仿真结果 .结果 使用该方法评价采集速率 ,结果不确定度可达到 1 0 - 6量级 ,加上数字滤波器后 ,不确定度可降低一半以上 . 展开更多
关键词 数据采集系统 采集速率 通道 评价
下载PDF
基于DSP的电力能源数据多通道同步交流采样方法设计 被引量:3
16
作者 张述杰 《电子设计工程》 2022年第13期137-141,共5页
目前设计的电力能源数据同步交流采样方法的采样能力较弱、调配信号处理能力较差,导致采样误差过大。为了解决上述问题,该研究基于DSP设计了一种新的电力能源数据多通道同步交流采样方法,分析了直流采样和交流采样两种方式,并确定了理... 目前设计的电力能源数据同步交流采样方法的采样能力较弱、调配信号处理能力较差,导致采样误差过大。为了解决上述问题,该研究基于DSP设计了一种新的电力能源数据多通道同步交流采样方法,分析了直流采样和交流采样两种方式,并确定了理想同步条件,利用DSP定时器实现跟踪评论交流采样,减少了采样误差。基于此,选定电网周期的采集变化量,再利用A/D变换和D/A变换确定脉冲个数,实现同步交流采样。实验结果表明,基于DSP的电力能源数据多通道同步交流采样方法能够有效提高调配信号处理能力,降低采样误差率。 展开更多
关键词 数字信号处理器 电力能源数据 多通道 同步交流 采样方法
下载PDF
Visualization of big data security: a case study on the KDD99 cup data set 被引量:3
17
作者 Zichan Ruan Yuantian Miao +2 位作者 Lei Pan Nicholas Patterson Jun Zhang 《Digital Communications and Networks》 SCIE 2017年第4期250-259,共10页
Cyber security has been thrust into the limelight in the modern technological era because of an array of attacks often bypassing tmtrained intrusion detection systems (IDSs). Therefore, greater attention has been di... Cyber security has been thrust into the limelight in the modern technological era because of an array of attacks often bypassing tmtrained intrusion detection systems (IDSs). Therefore, greater attention has been directed on being able deciphering better methods for identifying attack types to train IDSs more effectively. Keycyber-attack insights exist in big data; however, an efficient approach is required to determine strong attack types to train IDSs to become more effective in key areas. Despite the rising growth in IDS research, there is a lack of studies involving big data visualization, which is key. The KDD99 data set has served as a strong benchmark since 1999; therefore, we utilized this data set in our experiment. In this study, we utilized hash algorithm, a weight table, and sampling method to deal with the inherent problems caused by analyzing big data; volume, variety, and velocity. By utilizing a visualization algorithm, we were able to gain insights into the KDD99 data set with a clear iden- tification of "normal" clusters and described distinct clusters of effective attacks. 展开更多
关键词 Big data visualization sampling method MDS PCA
下载PDF
立式同轴度测量仪的研制 被引量:2
18
作者 崔绍良 崔勇 钟家桢 《北京科技大学学报》 EI CAS CSCD 北大核心 1996年第2期154-157,共4页
介绍立式同轴度测量仪的系统构成。该测量仪采用立式回转轴结构,优点是避免产生挠度变形,提高了测量精度,该仪器采用数据自动采集装置,采样位置准确,速度快。提出了同轴度误差的数学模型,其中给出一种高效的优化方法一余弦移位相... 介绍立式同轴度测量仪的系统构成。该测量仪采用立式回转轴结构,优点是避免产生挠度变形,提高了测量精度,该仪器采用数据自动采集装置,采样位置准确,速度快。提出了同轴度误差的数学模型,其中给出一种高效的优化方法一余弦移位相加法。同时建立了基准轴线的公式。 展开更多
关键词 立式 同轴度测量仪 数据采集 同轴度 数学模型
下载PDF
大规模数据下子抽样模型平均估计理论 被引量:2
19
作者 宗先鹏 王彤彤 《系统科学与数学》 CSCD 北大核心 2022年第1期109-132,共24页
随着信息时代的来临,如何从海量数据中快速、有效地挖掘有用信息是目前面临的新挑战.子抽样方法作为大规模数据分析的有效工具,已经受到国内外学者的广泛关注.不过,传统的子抽样方法通常没有考虑到模型的不确定性.当模型假设不正确时,... 随着信息时代的来临,如何从海量数据中快速、有效地挖掘有用信息是目前面临的新挑战.子抽样方法作为大规模数据分析的有效工具,已经受到国内外学者的广泛关注.不过,传统的子抽样方法通常没有考虑到模型的不确定性.当模型假设不正确时,后面的统计推断将会出现偏差,甚至导致错误的结论.为了解决该问题,文章利用频率模型平均的方法构建了子抽样模型平均估计(简称SSMA估计).理论上,文章证明了SSMA估计是全部数据下模型平均估计的一个渐近无偏且相合的估计.另外,我们基于Hansen (2007)的Mallows模型平均方法提出了SSMA估计的权重选择准则,并证明了方差已知和未知时权重估计的渐近最优性.在这些理论性质的研究中,文章同时考虑了模型和抽样设计带来的双重随机性.最后,数值分析进一步说明了所提出方法的有效性. 展开更多
关键词 大数据分析 子抽样方法 模型平均 Mallows准则 渐近最优性
原文传递
基于最大最小距离的多中心数据综合增强方法 被引量:2
20
作者 曹瑞阳 郭佑民 牛满宇 《计算机工程》 CAS CSCD 北大核心 2022年第6期174-181,共8页
数据增强是解决数据集不平衡的有效方法,针对现有的数据增强方法存在生成样本越界和随机性差的问题,提出一种基于最大最小距离的多中心数据增强方法MCA。通过计算所有样本的加权密度,减少离群点对最终分类结果的影响,同时将抽样方法与... 数据增强是解决数据集不平衡的有效方法,针对现有的数据增强方法存在生成样本越界和随机性差的问题,提出一种基于最大最小距离的多中心数据增强方法MCA。通过计算所有样本的加权密度,减少离群点对最终分类结果的影响,同时将抽样方法与最大最小距离算法相结合选择最优的数据,生成多中心点集,避免生成结果出现样本类别越界的情况,从而拓展样本数据的多样性,并且降低时间复杂度。在此基础上,根据样本的相似性构建权重函数,计算加权平均生成新的样本,解决原有数据集不平衡的问题。在SwedishLeaf数据集和实测数据集上进行实验,结果表明,相比SMOTE、Easy Ensemble、RR等方法,该方法的精确率和召回率均提高了1.17%以上,F1值提高了2%以上,能够有效提高泛化能力,在少数类和多数类样本不平衡率较高的情况下具有较优的分类性能。 展开更多
关键词 数据增强 最大最小距离 加权密度 抽样方法 样本容量 深度残差网络
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部