期刊文献+
共找到110篇文章
< 1 2 6 >
每页显示 20 50 100
基于非均衡数据集的代价敏感学习算法比较研究 被引量:30
1
作者 谷琼 袁磊 +2 位作者 熊启军 宁彬 李文新 《微电子学与计算机》 CSCD 北大核心 2011年第8期146-149,153,共5页
大多数非均衡数据集的研究集中于重构数据集或者代价敏感学习,针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,在简要回顾代价敏感学习理论和现有学习算法的基础上,将所提出的自适应混合重取样算法,与基于最小误分类代... 大多数非均衡数据集的研究集中于重构数据集或者代价敏感学习,针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,在简要回顾代价敏感学习理论和现有学习算法的基础上,将所提出的自适应混合重取样算法,与基于最小误分类代价的MetaCost算法分别进行实验比较,实验表明所提出算法在代价敏感学习中具有一定的优势,实验结果显示非均衡类对代价敏感学习算法性能产生较大影响,当样本类别差异较大时,用样本类空间重构的方法可以得到较好的分类效果. 展开更多
关键词 分类 非均衡数据集 混合重取样 代价敏感学习
下载PDF
不平衡分类的数据采样方法综述 被引量:28
2
作者 刘定祥 乔少杰 +4 位作者 张永清 韩楠 魏军林 张榕珂 黄萍 《重庆理工大学学报(自然科学)》 CAS 北大核心 2019年第7期102-112,共11页
如何获得更加精确的分类效果一直是机器学习领域的重要研究内容,现有大多数分类器都是针对平衡的数据集来设计的。虽然平衡的数据训练出来的分类模型能取得较好的正负样本分类正确率,但现实生活中的数据往往是不平衡的,不平衡的数据使... 如何获得更加精确的分类效果一直是机器学习领域的重要研究内容,现有大多数分类器都是针对平衡的数据集来设计的。虽然平衡的数据训练出来的分类模型能取得较好的正负样本分类正确率,但现实生活中的数据往往是不平衡的,不平衡的数据使得正样本分类正确率急剧下降,不能满足机器学习对分类效果的要求。针对这种情况,综述了当前主流不平衡分类的数据采样方法。首先,阐述了欠采样方法,包括基于聚类和基于整合的欠采样方法;其次,对过采样方法进行了总结,包括基于k近邻、基于聚类、基于半监督、基于深度神经网络和基于进化算法的过采样方法;再次,对混合采样方法进行了总结;最后,总结了不平衡分类问题研究的发展趋势。 展开更多
关键词 机器学习 不平衡数据 过采样 欠采样 混合采样
下载PDF
基于混合采样和支持向量机的变压器故障诊断 被引量:24
3
作者 李亮 范瑾 +4 位作者 闫林 张宓 王鹏飞 赵小军 肖海滨 《中国电力》 CSCD 北大核心 2021年第12期150-155,共6页
针对变压器不平衡数据集对变压器故障诊断模型产生的影响,提出了基于混合采样和支持向量机(support vector machines, SVM)的变压器故障诊断方法,利用合成少数类过采样技术(synthetic minority oversampling technique, SMOTE)和基于最... 针对变压器不平衡数据集对变压器故障诊断模型产生的影响,提出了基于混合采样和支持向量机(support vector machines, SVM)的变压器故障诊断方法,利用合成少数类过采样技术(synthetic minority oversampling technique, SMOTE)和基于最近邻规则的欠采样方法,分别对变压器故障数据和正常数据进行采样,再利用混合采样得到的平衡数据训练基于支持向量机变压器故障诊断模型。通过测试集对比不平衡数据和平衡数据下基于SVM的变压器故障诊断模型的性能。最后分析了采样率对于变压器故障诊断模型诊断准确率的影响。实验结果表明,该方法可以有效降低不平衡数据对诊断模型的影响,提高变压器故障诊断模型的准确率。 展开更多
关键词 变压器 不平衡数据 混合采样 支持向量机
下载PDF
基于混合采样的非平衡数据分类算法 被引量:20
4
作者 吴艺凡 梁吉业 王俊红 《计算机科学与探索》 CSCD 北大核心 2019年第2期342-349,共8页
过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector mac... 过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector machine),旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。该算法首先利用SVM算法得到分类超平面。然后迭代进行混合采样,主要包括:(1)删除离分类超平面较远的一些多数类样本;(2)对靠近真实类边界的少数类样本用SMOTE(synthetic minority oversampling technique)过采样,使分类超平面向着真实类边界方向偏移。实验结果表明相比其他相关算法,该算法的F-value值和G-mean值均有较大提高。 展开更多
关键词 非平衡 支持向量机(SVM) 少数类样本过采样技术(SMOTE) 分类超平面 混合采样
下载PDF
基于混合采样和特征选择的改进随机森林算法研究 被引量:16
5
作者 汪力纯 刘水生 《南京邮电大学学报(自然科学版)》 北大核心 2022年第1期81-89,共9页
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算... 随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制。为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest,HF_RF)。该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能。实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法。 展开更多
关键词 随机森林 混合采样 特征选择 高维不平衡数据 HF_RF算法
下载PDF
一种基于混合采样的雷达作用范围三维建模方法 被引量:12
6
作者 邱航 陈雷霆 Jim X.Chen 《电子测量与仪器学报》 CSCD 2010年第1期10-16,共7页
针对雷达作用范围二维表现方式的不足,提出了一种基于混合采样的雷达作用范围三维建模方法。以雷达方程为基础,通过地形分辨率网格确定雷达方位角方向的采样步长,使雷达模型对不同精度地形具有自适应性。以雷达的3dB特征点为基准,对雷... 针对雷达作用范围二维表现方式的不足,提出了一种基于混合采样的雷达作用范围三维建模方法。以雷达方程为基础,通过地形分辨率网格确定雷达方位角方向的采样步长,使雷达模型对不同精度地形具有自适应性。以雷达的3dB特征点为基准,对雷达俯仰角进行分区域采样,在保证模型外形与雷达特征属性一致的同时有效减少了绘制点的数目。实验结果表明,基于混合采样的三维建模方法不仅能快速、准确完成雷达三维建模,而且能更加直观地展现雷达探测范围。 展开更多
关键词 电磁信息表现 雷达作用范围 混合采样
下载PDF
甘蔗杂交品种初级核心种质取样策略 被引量:11
7
作者 刘新龙 蔡青 +4 位作者 马丽 吴才文 陆鑫 应雄美 范源洪 《作物学报》 CAS CSCD 北大核心 2009年第7期1209-1216,共8页
以国家甘蔗种质资源圃中1202份甘蔗杂交品种为材料,根据23个数量和质量性状,从分组原则、组内取样比例、组内取样方法3个层次探讨构建甘蔗杂交品种初级核心种质的最佳取样策略,共形成26种取样策略;同时设10个总体取样量梯度,确定最佳的... 以国家甘蔗种质资源圃中1202份甘蔗杂交品种为材料,根据23个数量和质量性状,从分组原则、组内取样比例、组内取样方法3个层次探讨构建甘蔗杂交品种初级核心种质的最佳取样策略,共形成26种取样策略;同时设10个总体取样量梯度,确定最佳的总体取样量。分组原则以原产地、种植区域、总体聚类进行分组及不分组的大随机;组内取样比例按组内个体数量的简单比例(P)、平方根比例(S)、对数比例(L)和多样性比例(G)确定;组内取样方法采用聚类(C)和随机(R)2种方法;10个总体取样量梯度为5%、10%、15%、20%、25%、30%、35%、40%、45%和50%。应用变异系数、遗传多样性指数、表型保留比例、表型频率方差、表型方差等5个参数来检验各取样策略的优劣。结果表明,聚类取样优于随机取样;总体聚类分组优于其他分组;在聚类取样中,平方根比例最好,在随机取样中,多样性比例最好;根据取样策略及总体取样量的分析结果最终确认按10%总体取样量,以总体聚类分组、按对数比例在组内聚类取样为构建甘蔗杂交品种初级核心种质的最佳策略组合,其遗传多样性明显高于总资源库。在此初级核心种质的基础上,加入极值材料和取样极易丢失表型性状的材料共计136份组成最终初级核心种质,占总资源的11.31%。 展开更多
关键词 甘蔗杂交品种 初级核心种质 取样策略
下载PDF
一维卷积神经网络特征提取下微震能级时序预测 被引量:11
8
作者 裴艳宇 杨小彬 +3 位作者 传金平 吴学松 程虹铭 吕祥锋 《工程科学学报》 EI CSCD 北大核心 2021年第7期1003-1009,共7页
微震能级随时间发生变化,高能级微震事件与冲击地压有良好的对应关系,为预测矿山微震能量时序变化,基于一维卷积神经网络(Convolutional neural networks,CNN),建立微震能级时间序列预测模型;通过模型训练,实现以前十次微震事件的能量... 微震能级随时间发生变化,高能级微震事件与冲击地压有良好的对应关系,为预测矿山微震能量时序变化,基于一维卷积神经网络(Convolutional neural networks,CNN),建立微震能级时间序列预测模型;通过模型训练,实现以前十次微震事件的能量级别作为输入来预测下一次微震事件的能量级别.由于微震样本数据类间不平衡问题,导致模型测试时将106能量级别的微震事件全部判断为105能量级别的微震事件,为进一步提高模型对106能级微震事件预测的准确率,对模型进行改进并使用混合采样方法训练改进后的模型;利用砚北煤矿250202工作面微震能级实测部分数据,改进后模型的总体测试正确率达到98.4%,其中106能量级别的微震事件测试正确率提升到99%.将模型应用于砚北煤矿250202工作面进行微震能级时序预测,模型的预测正确率整体达到93.5%,且对高能级微震事件的预测正确率接近100%. 展开更多
关键词 微震能级时序预测 一维卷积神经网络 类间不平衡 混合采样 冲击地压
下载PDF
基于混合采样的压缩感知重构算法 被引量:9
9
作者 张淑清 胡永涛 +2 位作者 王世豪 籍冰朔 姜万录 《计量学报》 CSCD 北大核心 2017年第1期69-72,共4页
为了提高图像的重构质量和缩短重构时间,同时保持较高的压缩比,提出了一种基于混合采样的压缩感知重构算法。将图像划分为感兴趣区域和非感兴趣区域,对感兴趣区域采用恢复质量较好的正交匹配追踪算法,对非感兴趣区域采用恢复时间较短的... 为了提高图像的重构质量和缩短重构时间,同时保持较高的压缩比,提出了一种基于混合采样的压缩感知重构算法。将图像划分为感兴趣区域和非感兴趣区域,对感兴趣区域采用恢复质量较好的正交匹配追踪算法,对非感兴趣区域采用恢复时间较短的分段正交匹配追踪算法。感兴趣区域图像中除感兴趣区域外,其他部分灰度置零以增加采样率和图像稀疏度。实验表明,该方法可以较好恢复图像感兴趣的区域,并保持较高压缩比。 展开更多
关键词 计量学 图像重构 混合采样 压缩感知 感兴趣区域 压缩比
下载PDF
基于深度学习的复杂储层流体性质测井识别——以车排子油田某井区为例 被引量:9
10
作者 蓝茜茜 张逸伦 康志宏 《科学技术与工程》 北大核心 2020年第29期11923-11930,共8页
测井资料人工解释是目前主流的储层流体性质识别手段,但其应用于复杂储层时存在识别率低、非智能化的缺陷;而近年来发展起来的深度学习方法可以从海量数据中自动提取数据特征,非线性预测能力强。基于目标区块已有大量测井资料和试油结... 测井资料人工解释是目前主流的储层流体性质识别手段,但其应用于复杂储层时存在识别率低、非智能化的缺陷;而近年来发展起来的深度学习方法可以从海量数据中自动提取数据特征,非线性预测能力强。基于目标区块已有大量测井资料和试油结果数据,在应用常规深度神经网络的基础上,提出一种采用混合采样技术、ReLU-Softmax激活函数和Dropout正则化的组合优化新方法。优化后的网络模型对流体识别问题适应性强,且有效避免了样本不均衡、过拟合等问题。将该方法应用于车排子油田低渗油藏某井区,对12口井的水层、干层、油水同层、油层4种流体进行识别,结果显示总体识别准确率达82.7%,单一流体识别率也均较高。且组合优化方法的识别效果明显优于其他方法,尤其使得小样本类——油层和油水同层的识别率得到显著提高。展现了深度学习在复杂储层流体性质识别中良好的应用效果。 展开更多
关键词 流体性质识别 深度学习 混合采样 ReLU-Softmax Dropout正则化 车排子油田
下载PDF
基于邻域混合抽样和动态集成的不平衡数据分类方法 被引量:9
11
作者 高锋 黄海燕 《计算机科学》 CSCD 北大核心 2017年第8期225-229,共5页
不平衡数据严重影响了传统分类算法的性能,导致少数类的识别率降低。提出一种基于邻域特征的混合抽样技术,该技术根据样本邻域中的类别分布特征来确定采样权重,进而采用混合抽样的方法来获得平衡的数据集;然后采用一种基于局部置信度的... 不平衡数据严重影响了传统分类算法的性能,导致少数类的识别率降低。提出一种基于邻域特征的混合抽样技术,该技术根据样本邻域中的类别分布特征来确定采样权重,进而采用混合抽样的方法来获得平衡的数据集;然后采用一种基于局部置信度的动态集成方法,通过分类学习生成基分类器,对于每个检验的样本,根据局部分类精度动态地选择最优的基分类器进行组合。通过UCI标准数据集上的实验表明,该方法能够同时提高不平衡数据中少数类和多数类的分类精度。 展开更多
关键词 数据挖掘 不平衡数据 K-近邻 混合抽样 集成学习
下载PDF
Use of models in large-area forest surveys: comparing model-assisted, model-based and hybrid estimation 被引量:7
12
作者 Goran Stahl Svetlana Saarela +8 位作者 Sebastian Schnell Soren Holm Johannes Breidenbach Sean P. Healey Paul L. Patterson Steen Magnussen Erik Naesset Ronald E. McRoberts Timothy G. Gregoire 《Forest Ecosystems》 SCIE CSCD 2016年第2期153-163,共11页
This paper focuses on the use of models for increasing the precision of estimators in large-area forest surveys. It is motivated by the increasing availability of remotely sensed data, which facilitates the developmen... This paper focuses on the use of models for increasing the precision of estimators in large-area forest surveys. It is motivated by the increasing availability of remotely sensed data, which facilitates the development of models predicting the variables of interest in forest surveys. We present, review and compare three different estimation frameworks where models play a core role: model-assisted, model-based, and hybrid estimation. The first two are well known, whereas the third has only recently been introduced in forest surveys. Hybrid inference mixes design- based and model-based inference, since it relies on a probability sample of auxiliary data and a model predicting the target variable from the auxiliary data.We review studies on large-area forest surveys based on model-assisted, model- based, and hybrid estimation, and discuss advantages and disadvantages of the approaches. We conclude that no general recommendations can be made about whether model-assisted, model-based, or hybrid estimation should be preferred. The choice depends on the objective of the survey and the possibilities to acquire appropriate field and remotely sensed data. We also conclude that modelling approaches can only be successfully applied for estimating target variables such as growing stock volume or biomass, which are adequately related to commonly available remotely sensed data, and thus purely field based surveys remain important for several important forest parameters. 展开更多
关键词 Design-based inference Model-assisted estimation Model-based inference hybrid inference Nationalforest inventory Remote sensing sampling
下载PDF
基于混合采样与IHBA-SVM的变压器故障辨识方法 被引量:7
13
作者 谢国民 王嘉良 《电子测量与仪器学报》 CSCD 北大核心 2022年第12期77-85,共9页
针对变压器故障数据的不平衡性弱化故障分类能力的问题,提出混合采样与改进蜜獾算法(IHBA)优化支持向量机(SVM)的变压器故障诊断方法。首先采用K近邻去噪、K均值聚类(K-means)与合成少数类过采样(SMOTE)对数据进行混合采样处理,以缓解... 针对变压器故障数据的不平衡性弱化故障分类能力的问题,提出混合采样与改进蜜獾算法(IHBA)优化支持向量机(SVM)的变压器故障诊断方法。首先采用K近邻去噪、K均值聚类(K-means)与合成少数类过采样(SMOTE)对数据进行混合采样处理,以缓解诊断结果向多数类的偏移;然后使用Tent映射、轮盘赌随机搜索机制和最优个体扰动策略对传统蜜獾算法(HBA)进行改进,并使用IHBA优化SVM参数,以进一步提升变压器故障辨识能力;最后对所提方法进行算例仿真,结果显示,相较于传统的变压器故障辨识方法,采用K近邻去噪、K-means、SMOTE混合采样与IHBA-SVM相结合的故障诊断模型获得了最高的宏F1和微F1值,分别达到0.877和0.886,表明提出模型不仅具有更高的整体分类能力,且更能兼顾对少数类故障的辨识。 展开更多
关键词 变压器 故障诊断 改进蜜獾算法 平衡数据集 混合采样
下载PDF
适用于智能变电站混合数据源接入的保护同步采样方法 被引量:8
14
作者 刘益青 高伟聪 +1 位作者 高厚磊 王林先 《电力自动化设备》 EI CSCD 北大核心 2015年第11期158-164,共7页
现阶段变压器差动保护、备自投、母线保护等装置都需要适应电磁式互感器、电子式互感器(含合并单元)同时接入的情况,为此设计了一种适用于混合数据源接入保护装置的数据同步采样方法。以保护装置内部的采样脉冲时刻为同步基准,对多路采... 现阶段变压器差动保护、备自投、母线保护等装置都需要适应电磁式互感器、电子式互感器(含合并单元)同时接入的情况,为此设计了一种适用于混合数据源接入保护装置的数据同步采样方法。以保护装置内部的采样脉冲时刻为同步基准,对多路采样值(SV)输入进行插值同步,并同时启动模拟量输入的AD转换;通过实时测频和实时调整采样间隔对不同类型数据源输入信号的频率进行跟踪,以实现同步采样。该方法提高了智能变电站二次设备的适应性,在保护装置和模拟量输入的级联合并单元中均可采用。采用现场可编程门阵列(FPGA)实现了设计方案,在智能化保护装置中的应用和测试结果验证了该方案的有效性。 展开更多
关键词 智能变电站 保护 混合数据源 插值 同步 采样 合并单元 电磁式互感器
下载PDF
一种贝叶斯网络结构学习的混合随机抽样算法 被引量:6
15
作者 胡春玲 胡学钢 吕刚 《计算机工程》 CAS CSCD 2014年第5期238-242,共5页
贝叶斯网络结构学习的随机抽样算法存在收敛速度慢的问题,为此,结合均匀抽样和独立抽样,从初始样本、抽样方式和建议分布3个方面对抽样过程进行改进,提出一种混合型马尔可夫链蒙特卡罗抽样算法(HSMHS)。基于节点之间的互信息生成网络结... 贝叶斯网络结构学习的随机抽样算法存在收敛速度慢的问题,为此,结合均匀抽样和独立抽样,从初始样本、抽样方式和建议分布3个方面对抽样过程进行改进,提出一种混合型马尔可夫链蒙特卡罗抽样算法(HSMHS)。基于节点之间的互信息生成网络结构的初始样本,在迭代抽样阶段,按一定的概率随机选择均匀抽样和独立抽样,并根据当前抽样的样本总体计算独立抽样的建议分布,以改善抽样过程的融合性,加快收敛速度。对算法进行正确性分析,证明其抽样过程收敛于网络结构的后验概率分布,可保持较高的学习精度。在标准数据集上的实验结果表明,HSMHS算法的学习效率和精度均高于同类算法MHS、PopMCMC和Order-MCMC。 展开更多
关键词 贝叶斯网络 结构学习 随机抽样 混合抽样 子结构抽样 建议分布
下载PDF
基于边界强化混合采样的两阶段电力系统暂态稳定评估 被引量:1
16
作者 周生存 罗毅 +3 位作者 易煊承 吴亚宁 李丁 雷成 《电力自动化设备》 EI CSCD 北大核心 2024年第4期143-150,共8页
受制于样本固有的不平衡性,基于数据挖掘的暂态稳定预测方法不易用于工程实践,为此,提出一种基于边界强化混合采样的两阶段暂态稳定评估模型。在第1阶段,利用预训练的级联卷积神经网络模型确定边界和非边界样本集,利用条件生成对抗网络... 受制于样本固有的不平衡性,基于数据挖掘的暂态稳定预测方法不易用于工程实践,为此,提出一种基于边界强化混合采样的两阶段暂态稳定评估模型。在第1阶段,利用预训练的级联卷积神经网络模型确定边界和非边界样本集,利用条件生成对抗网络合成边界集失稳样本,并对非边界集稳定样本进行欠采样,以实现边界强化;在第2阶段,利用混合采样后的重构样本集再训练卷积神经网络模型,以更好地挖掘失稳样本的隐含特征,并采用改进后的焦点损失函数加强模型对边界集样本的学习能力。新英格兰39节点系统与南方某省级电网的仿真结果表明,所建模型有效降低了对失稳样本的漏判率,提高了整体预测精度,在样本极不平衡的情况下仍有良好的评估性能。 展开更多
关键词 边界强化 混合采样 暂态稳定 不平衡分类 卷积神经网络
下载PDF
一种新型可靠性抽样设计方法——基于经济优化视角
17
作者 孙小素 尚书钰 《统计学报》 2024年第3期76-94,共19页
混合截尾可以看作是一型截尾及二型截尾的拓展,常用于可靠性试验。然而,在规定时间上限内,当产品失效数远小于截尾数时,现有的可靠性抽样方案可能存在推断偏误。因此,结合已有研究,立足混合截尾,基于经济视角设计出混合截尾下一种新型... 混合截尾可以看作是一型截尾及二型截尾的拓展,常用于可靠性试验。然而,在规定时间上限内,当产品失效数远小于截尾数时,现有的可靠性抽样方案可能存在推断偏误。因此,结合已有研究,立足混合截尾,基于经济视角设计出混合截尾下一种新型可靠性抽样方案。通过一系列对比分析,发现新方案可在保留原方案小样本量优点的同时增强判定的可靠性。从缩减企业检验成本的角度出发,应在试验前使检验时间上限尽可能小、截尾度尽可能大。从科学性及实用性角度综合考虑,该方案展现出较优的性质,值得推广使用。 展开更多
关键词 可靠性抽样检验 混合截尾 经济性 抽样成本
下载PDF
基于自适应邻域与聚类的非平衡数据特征选择
18
作者 孙林 梁娜 王欣雅 《计算机工程与应用》 CSCD 北大核心 2024年第14期74-85,共12页
为了解决传统邻域粗糙集未考虑不平衡数据的类分布,多数邻域系统通过人工调试难以找到最佳邻域半径,以及聚类时指定簇的数目等问题,提出一种基于自适应邻域与聚类的非平衡数据特征选择方法。根据样本在各个特征下与其他样本距离的平均... 为了解决传统邻域粗糙集未考虑不平衡数据的类分布,多数邻域系统通过人工调试难以找到最佳邻域半径,以及聚类时指定簇的数目等问题,提出一种基于自适应邻域与聚类的非平衡数据特征选择方法。根据样本在各个特征下与其他样本距离的平均值来确定样本的自适应k近邻和共享近邻,定义自适应邻域密度并设计混合采样模型,构建平衡决策系统。基于特征分布定义新的邻域半径,使用高斯核函数研究邻域内样本之间的模糊相似关系,使用模糊邻域互信息度量特征间的相关性,基于此对特征进行聚类。基于模糊邻域互信息构造粒子群初始化策略,并引入动态位掩码策略与适合整数编码的差异性扰动算子,改进整型粒子群优化算法,实现从特征簇中选出代表性特征构成最终的特征子集。在19个非平衡数据集的实验结果表明所设计的算法有效地提高了非平衡数据的分类性能。 展开更多
关键词 自适应邻域 混合采样 模糊邻域互信息 特征聚类 特征选择
下载PDF
基于混合指标自适应采样代理模型的多目标优化设计方法
19
作者 赵峰 胡伟飞 +4 位作者 李光 邓晓豫 刘振宇 郭云飞 谭建荣 《机械工程学报》 EI CAS CSCD 北大核心 2024年第13期81-91,共11页
随着现有工程问题高非线性、高计算复杂度、高维度等特征的凸显和对低成本高保真度仿真模型的要求,基于多学科耦合的工程结构多目标优化设计求解难度显著提高,且计算量大,这一问题引起了广泛的研究。针对这一挑战,本文提出了一种基于混... 随着现有工程问题高非线性、高计算复杂度、高维度等特征的凸显和对低成本高保真度仿真模型的要求,基于多学科耦合的工程结构多目标优化设计求解难度显著提高,且计算量大,这一问题引起了广泛的研究。针对这一挑战,本文提出了一种基于混合指标自适应采样代理模型实现工程结构多目标优化设计的方法。为降低优化设计成本,综合考虑了优化设计空间的全局探索与局部开发特征,提出了一种基于Voronoi区域划分的混合指标自适应采样方法,用于全局代理模型构建,经与不同案例及方法对比测试,在保证精度的前提下显著降低了样本数量;为实现工程结构多目标优化问题的求解,提出了一种基于优势面旋转投影和区域划分新型拥挤度算子的多目标优化设计NSGA-Ⅱ-RD(Improvednon-dominatedsortinggenetic algorithmⅡbased on a rotation and density operator,NSGA-Ⅱ-RD)算法,经与不同算法对比测试,该方法求解收敛速度更快且计算结果准确。最后,将提出的混合指标采样代理模型构建方法与NSGA-Ⅱ-RD算法结合,在绝缘栅双极晶体管母排的结构设计上进行应用,针对母排的质量、电路压降与疲劳损伤进行多目标优化设计。结果表明,该方法不仅保证了母排的轻量化与良好导电性能,还使其具备了更好的抗超声焊接疲劳性能。同时,验证了该方法在保证低成本与高精度仿真模型的前提下,能够有效解决实际工程中的多目标优化设计问题。 展开更多
关键词 混合指标 自适应采样 代理模型 NSGA-Ⅱ-RD 多目标优化设计
原文传递
类别不均衡学习中的抽样策略研究 被引量:6
20
作者 刘树栋 张可 《计算机工程与应用》 CSCD 北大核心 2019年第21期1-17,共17页
类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方... 类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方法:数据级解决方法、算法级解决方法和集成解决方法。侧重于对近年来类别不均衡学习中的抽样策略研究进展进行综述,介绍类别不均衡学习的基本框架,对类别不均衡学习中三种主要的抽样策略(过抽样、欠抽样和混合抽样)相关研究进展进行前沿概括、比较和分析,对类别不均衡学习的抽样策略中有待研究的难点、热点及发展趋势进行展望。 展开更多
关键词 不均衡学习 集成学习 欠抽样 特征选择 支持向量机 合成少数类过抽样技术 混合抽样
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部