期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
基于不平衡数据样本特性的新型过采样SVM分类算法 被引量:26
1
作者 黄海松 魏建安 康佩栋 《控制与决策》 EI CSCD 北大核心 2018年第9期1549-1558,共10页
针对传统采样方式准确率与鲁棒性不够明显,欠采样容易丢失重要的样本信息,而过采样容易引入冗杂信息等问题,以UCI公共数据集中的不平衡数据集Pima-Indians为例,综合考虑数据集正负类样本的类间距离、类内距离与不平衡度之间的关系,提出... 针对传统采样方式准确率与鲁棒性不够明显,欠采样容易丢失重要的样本信息,而过采样容易引入冗杂信息等问题,以UCI公共数据集中的不平衡数据集Pima-Indians为例,综合考虑数据集正负类样本的类间距离、类内距离与不平衡度之间的关系,提出一种基于样本特性的新型过采样方式.首先对原始数据集进行距离带的划分,然后提出一种改进的基于样本特性的自适应变邻域Smote算法,在每个距离带的少数类样本中进行新样本的合成,并将此方式推广到UCI数据集中其他5种不平衡数据集.最后利用SVM分类器进行实验验证的结果表明:在6类不平衡数据集中,应用新型过采样SVM算法,相比已有的采样方式,少(多)数类样本的分类准确率均有明显提高,且算法具有更强的鲁棒性. 展开更多
关键词 数据集不平衡 样本距离 ANBSC-Smote过采样 数据集重构 支持向量机
原文传递
基于精简集支持向量机的变压器故障检测方法 被引量:21
2
作者 陶新民 李震 +1 位作者 刘福荣 张越 《高电压技术》 EI CAS CSCD 北大核心 2016年第10期3199-3206,共8页
为解决变压器故障样本不易收集导致的数据不均衡问题,提出一种基于精简集约简上取样不均衡支持向量机(SVM)变压器故障检测方法。该方法首先利用广义自回归条件异方差(GARCH)模型生成变压器特征向量,然后利用精简集约简算法对少数类... 为解决变压器故障样本不易收集导致的数据不均衡问题,提出一种基于精简集约简上取样不均衡支持向量机(SVM)变压器故障检测方法。该方法首先利用广义自回归条件异方差(GARCH)模型生成变压器特征向量,然后利用精简集约简算法对少数类边界样本进行上取样,生成人工少数类样本从而实现训练样本均衡;并将该算法同其他不均衡数据取样方法进行比较。结果表明,在不同故障样本及不同不均衡比例下,该算法的检测率提高了6%~9%;此外,该算法生成后的样本不仅能代表整体结构信息,同时又兼顾不同样本组合的局部空间结构信息;因此该算法能有效提高SVM算法在不均衡数据情况下变压器的故障检测性能。 展开更多
关键词 变压器 广义自回归条件异方差 故障检测 支持向量机 不均衡数据 精简集约简
下载PDF
不平衡数据集上的Relief特征选择算法 被引量:15
3
作者 菅小艳 韩素青 崔彩霞 《数据采集与处理》 CSCD 北大核心 2016年第4期838-844,共7页
Relief算法为系列特征选择方法,包括最早提出的Relief算法和后来拓展的ReliefF算法,核心思想是对分类贡献大的特征赋予较大的权值;特点是算法简单,运行效率高,因此有着广泛的应用。但直接将Relief算法应用于有干扰的数据集或不平衡数据... Relief算法为系列特征选择方法,包括最早提出的Relief算法和后来拓展的ReliefF算法,核心思想是对分类贡献大的特征赋予较大的权值;特点是算法简单,运行效率高,因此有着广泛的应用。但直接将Relief算法应用于有干扰的数据集或不平衡数据集,效果并不理想。基于Relief算法,提出一种干扰数据特征选择算法,称为阈值-Relief算法,有效消除了干扰数据对分类结果的影响。结合K-means算法,提出两种不平衡数据集特征选择算法,分别称为K-means-ReliefF算法和K-means-Relief抽样算法,有效弥补了Relief算法在不平衡数据集上表现出的不足。实验证明了本文算法的有效性。 展开更多
关键词 特征选择 RELIEF算法 RELIEFF算法 不平衡数据集
下载PDF
最大化ROC曲线下面积的不平衡基因数据集差异表达基因选择算法 被引量:14
4
作者 谢娟英 王明钊 胡秋锋 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第1期13-22,共10页
针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数... 针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数度量特征冗余性,并归一化特征相关性和冗余性度量范围,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同时,针对实现多类特征选择的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法没有考虑特征冗余,且MDFS易选择到局部最优特征子集的问题,提出适于多类问题的改进Pearson相关系数度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN为分类工具,构造基于所选特征子集的相应分类器,以其AUC(MAUC)值度量相应特征子集的性能。7个二类和3个多类不平衡基因数据集的实验结果表明:提出的APCO、MAUCP和MDFSP算法分别优于ARCO、MAUCD和MDFS算法,也优于其他经典基因选择算法。 展开更多
关键词 基因选择 差异表达基因 AUC mRMR 不平衡数据
下载PDF
非平衡基因数据的差异表达基因选择算法研究 被引量:11
5
作者 谢娟英 王明钊 +2 位作者 周颖 高红超 许升全 《计算机学报》 EI CSCD 北大核心 2019年第6期1232-1251,共20页
针对准确率不适于评价不平衡数据特征子集性能的缺陷,提出了 F2 -measure(简称 F2 )准则.为避免mRMR(minimal Redundancy-Maximal Relevance)的互信息方法倾向于选择多值特征,提出了归一化互信息 SU (Symmetrical Uncertainty).针对最大... 针对准确率不适于评价不平衡数据特征子集性能的缺陷,提出了 F2 -measure(简称 F2 )准则.为避免mRMR(minimal Redundancy-Maximal Relevance)的互信息方法倾向于选择多值特征,提出了归一化互信息 SU (Symmetrical Uncertainty).针对最大化 AUC (Area Under an ROC Curve)框架下,特征选择算法的特征与类标相关性、特征间相关性的取值范围(量纲)不一致问题,提出了归一化的特征权重.为加快特征选择过程,提出了结合 SU和AUC 的特征预选择,缩小特征搜索空间.提出动态加权顺序前向搜索DWSFS(Dynamic Weighted Sequential Forward Search)和动态加权顺序前向浮动搜索DWSFFS(Dynamic Weighted Sequential Forward Floating Search),以期得到分类性能更好的特征子集.基于最大化 AUC 和mRMR框架,结合上述创新点,设计出16种特征选择算法.7个经典二类不平衡基因数据集、3个多类不平衡(或近似平衡)基因数据集的50次重复实验表明:所提算法选择的基因子集具有非常好的分类识别能力;提出的 F2、SU、归一化基因权重、基因预选择,以及DWSFS和DWSFFS对选择非平衡基因数据集的差异表达基因非常有效.提出的 SU 在度量基因冗余性时优于斯皮尔曼等级相关系数 RCC (Rank Correlation Coefficient);基因选择过程中的权值度量采用基因与类标相关性减去基因间冗余性优于采用基因与类标相关性除以基因冗余性方案.与现有经典基因选择算法的实验比较表明:提出的基因选择算法的性能优于现有基因选择算法. 展开更多
关键词 基因选择 AUC 互信息 mRMR 不平衡数据
下载PDF
基于类别加权和方差统计的特征选择方法 被引量:11
6
作者 冀俊忠 吴金源 +1 位作者 吴晨生 杜芳华 《北京工业大学学报》 CAS CSCD 北大核心 2014年第10期1593-1602,共10页
为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征;其次,在探究特征类别区分能力的基础上,设计了类别... 为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征;其次,在探究特征类别区分能力的基础上,设计了类别方差统计策略来凸显含有丰富类别信息的特征;最后,将2种策略相融合,实现了一种联合特征选择的新算法.在Reuters-21578和复旦大学语料这2个不均衡语料上的实验都表明:该算法有效,特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法. 展开更多
关键词 文本分类 不均衡数据集 特征选择方法 类别加权 方差统计
下载PDF
基于样本扩充和特征优选的IGWO优化SVM的变压器故障诊断技术 被引量:5
7
作者 欧阳鑫 李志斌 《电力系统保护与控制》 EI CSCD 北大核心 2023年第18期11-20,共10页
为了增强变压器故障诊断模型对不平衡样本的学习能力从而提高少数类故障样本的识别精度,提出了一种基于样本扩充和特征优选的融合多策略改进灰狼算法(improved grey wolf optimizer with multi-strategy,IGWO)优化支持向量机(support ve... 为了增强变压器故障诊断模型对不平衡样本的学习能力从而提高少数类故障样本的识别精度,提出了一种基于样本扩充和特征优选的融合多策略改进灰狼算法(improved grey wolf optimizer with multi-strategy,IGWO)优化支持向量机(support vector machine,SVM)的变压器故障诊断技术。首先,使用基于K最近邻过采样方法及核密度估计自适应样本合成算法的混合过采样技术对少数类样本进行扩充得到均衡数据集,并在此基础上采用方差分析对变压器候选比值征兆进行特征优选。然后,通过改进灰狼优化算法(grey wolf optimizer,GWO)初始化策略、参数及位置更新公式,并引入差分进化策略调整种群,提出了融合多策略的改进灰狼算法。最后,构建了一种基于混合过采样技术的IGWO优化SVM的变压器故障诊断模型,并通过多组对比实验验证了所提方法能够有效增强模型对少数类故障样本的识别能力,并提升模型的整体分类性能。 展开更多
关键词 变压器故障诊断 不平衡数据集 混合过采样 特征优选 改进灰狼算法 支持向量机
下载PDF
不均衡最大软间隔SVDD轴承故障检测模型 被引量:7
8
作者 陶新民 李晨曦 +3 位作者 李青 任超 刘锐 邹俊荣 《振动工程学报》 EI CSCD 北大核心 2019年第4期718-729,共12页
针对不均衡数据下的轴承故障检测问题,提出一种最大软间隔支持向量域描述(Maximum Soft Margin Sup port Vector Domain Description, MSM-SVDD)故障检测模型.该模型通过引入最大软间隔正则项,将传统支持向量域描述(SVDD)算法的分类边... 针对不均衡数据下的轴承故障检测问题,提出一种最大软间隔支持向量域描述(Maximum Soft Margin Sup port Vector Domain Description, MSM-SVDD)故障检测模型.该模型通过引入最大软间隔正则项,将传统支持向量域描述(SVDD)算法的分类边界向故障类偏移,进而提高算法的故障检测性能,同时对正则化项系数的取值范围进行了理论分析.实验部分讨论了正则化项系数、高斯核参数以及正常类样本数目对模型故障检测性能的影响,并给出了正则化项系数与高斯核参数的取值建议.实验结果表明,新提出的MSM-SVDD模型非常适合处理小样本不均衡数据下的故障检测问题.最后通过实测数据的对比实验,表明MSM-SVDD模型在不均衡数据下的故障检测性能较其他方法有较大幅度提升. 展开更多
关键词 故障检测 轴承 不均衡数据 最大软间隔 支持向量域描述
下载PDF
基于密度敏感最大软间隔SVDD不均衡数据分类算法 被引量:6
9
作者 陶新民 李晨曦 +3 位作者 沈微 常瑞 王若彤 刘艳超 《电子学报》 EI CAS CSCD 北大核心 2018年第11期2725-2732,共8页
为了提高传统支持向量域描述(C-SVDD)算法处理不均衡数据集的分类能力,提出一种基于密度敏感最大软间隔支持向量域描述(DSMSM-SVDD)算法.该算法通过对多数类样本引入相对密度来体现训练样本原始空间分布对求解最优分类界面的影响,通过... 为了提高传统支持向量域描述(C-SVDD)算法处理不均衡数据集的分类能力,提出一种基于密度敏感最大软间隔支持向量域描述(DSMSM-SVDD)算法.该算法通过对多数类样本引入相对密度来体现训练样本原始空间分布对求解最优分类界面的影响,通过在目标函数中增加最大软间隔正则项,使C-SVDD的分类边界向少数类偏移,进而提高算法分类性能.算法首先对每个多数类样本计算相对密度来反映样本的重要性,然后将训练样本输入到DSMSM-SVDD中实现数据分类.实验部分,讨论了算法参数间的关系及其对算法分类性能的影响,给出算法参数取值建议.最后通过与C-SVDD的对比实验,表明本文建议的算法在不均衡数据情况下的分类性能优于C-SVDD算法. 展开更多
关键词 支持向量域数据描述 不均衡数据 相对密度
下载PDF
一种基于MetaCost和RF的网络入侵检测方法分析
10
作者 王雄伟 张鑫楠 《电子技术(上海)》 2024年第1期39-41,共3页
阐述一种基于MetaCost-RF的网络入侵检测算法,该算法在RF训练过程中通过引入代价矩阵来减小不平衡数据集给RF带来的负面影响。在NSL-KDD上对训练好的模型进行测试验证,结果表明,MetaCost-RF对比RF在准确率上提高5.16个百分点,在三个少... 阐述一种基于MetaCost-RF的网络入侵检测算法,该算法在RF训练过程中通过引入代价矩阵来减小不平衡数据集给RF带来的负面影响。在NSL-KDD上对训练好的模型进行测试验证,结果表明,MetaCost-RF对比RF在准确率上提高5.16个百分点,在三个少数类的召回率上分别提高了10.82、20.00和21.17个百分点,说明该模型有效提高了准确率和对少数类样本的召回率。 展开更多
关键词 不平衡数据集 MetaCost 随机森林 网络入侵检测 代价矩阵
原文传递
改进CEEMD-SVM的轴承故障识别方法及其应用 被引量:1
11
作者 谢素超 李雅鑫 谭鸿创 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第8期3192-3202,共11页
由于现场条件限制,用于列车轴承故障诊断的故障数据样本量较少且多为不平衡数据集,为了及时准确地识别轴承故障,提出一种基于互补经验模态分解-支持向量机(Complementary ensemble empirical modal decomposition-support vector machin... 由于现场条件限制,用于列车轴承故障诊断的故障数据样本量较少且多为不平衡数据集,为了及时准确地识别轴承故障,提出一种基于互补经验模态分解-支持向量机(Complementary ensemble empirical modal decomposition-support vector machine,CEEMD-SVM)的故障识别方法并将其用于轴承不平衡数据集识别。采用CCEMD分解信号,得到不同频率的本征模态函数(Intrinsic mode function,IMF),对IMF分量进行相关性筛选处理后再重构,实现降噪处理。计算降噪后信号的时频域特征值以及能量,选取贡献度较大的特征值作为特征向量构成训练集和测试集,输入改进后的支持向量机分类器及AFSA-SVM分类器中进行学习和测试,分别在2个数据集中构造了小样本平衡和不平衡数据组进行了3组实验,用于测试该方法的鲁棒性和泛化性能。研究结果表明:在只含有单种类型故障时,CEEMD-AFSA-SVM的识别准确率能够达到100%。当有复合故障时,识别准确率达到99.8%,且在训练样本仅占10%时也能达到99%以上的识别精度,识别精度超过了深度学习网络。对不平衡样本集的平均识别精度达到99.3%,优于其他模型。研究成果为列车轴承故障识别提供一种简单有效的方法,可应用于列车故障智能诊断。 展开更多
关键词 滚动轴承 故障诊断 互补集合经验模态分解 不平衡数据集 支持向量机
下载PDF
基于改进的SVM方法的异常检测研究 被引量:3
12
作者 张辉 刘成 《网络与信息安全学报》 2016年第8期68-73,共6页
利用非参数检验的方法提取出对分类结果影响显著的特征变量,提出一种改进的SVM多分类方法(D-SVM),其融合了判别分析,可以解决样本不均衡导致的分类不准确和误报率高的问题。将多分类问题处理成一个个二分类问题,D-SVM既可以保持SVM较好... 利用非参数检验的方法提取出对分类结果影响显著的特征变量,提出一种改进的SVM多分类方法(D-SVM),其融合了判别分析,可以解决样本不均衡导致的分类不准确和误报率高的问题。将多分类问题处理成一个个二分类问题,D-SVM既可以保持SVM较好的分类准确性,同时又可以不受样本不均衡的影响,具有较低的误报率。将D-SVM应用到KDD99数据集,结果表明,该方法具有较高的分类准确性和较低的误报率。 展开更多
关键词 异常检测 非参数检验 SVM分类 样本不均衡 判别分析
下载PDF
基于改进信息增益的特征选择方法研究 被引量:2
13
作者 董露露 马宁 《萍乡学院学报》 2019年第3期84-90,共7页
信息增益是最有效的特征选择方法之一,但在处理不平衡数据集时其分类性能却急剧下降。针对这一不足,文章从三个方面对传统信息增益进行改进,提出一种改进的信息增益特征选择方法。首先,去除特征项不出现因子以降低对分类的干扰;其次,引... 信息增益是最有效的特征选择方法之一,但在处理不平衡数据集时其分类性能却急剧下降。针对这一不足,文章从三个方面对传统信息增益进行改进,提出一种改进的信息增益特征选择方法。首先,去除特征项不出现因子以降低对分类的干扰;其次,引入最大词频比因子以抑制低频词的干扰;最后,融入类内词频分布差异离散度和类间分布差异加权离散度因子以衡量特征项在类内和类间的分布差异。在不平衡数据集上的实验结果表明,改进的信息增益不仅可以从很大程度上改善少数类的分类性能,也使总体分类性能得到了明显提升。 展开更多
关键词 文本分类 特征选择 不平衡数据集 信息增益
下载PDF
基于不同惩罚系数的SMO改进算法
14
作者 田大东 邓伟 《计算机应用》 CSCD 北大核心 2008年第9期2369-2370,2374,共3页
为了解决Keerthi改进的序贯最小优化(SMO)算法在处理非平衡数据集时,整体分类性能较低、稳定性差等问题,对两个类别施加不同的惩罚系数的方法对算法作进一步改进,同时给出计算公式及算法步骤。实验结果表明,该算法不但提高了处理非平衡... 为了解决Keerthi改进的序贯最小优化(SMO)算法在处理非平衡数据集时,整体分类性能较低、稳定性差等问题,对两个类别施加不同的惩罚系数的方法对算法作进一步改进,同时给出计算公式及算法步骤。实验结果表明,该算法不但提高了处理非平衡数据集的能力,也进一步提高了其稳定性。 展开更多
关键词 非平衡数据集 惩罚系数 序贯最小优化
下载PDF
基于数据层面的不平衡数据集的分类方法
15
作者 王成强 《光盘技术》 2009年第11期28-29,共2页
本文针对提高不均衡数据集中的少数类文本的分类性能这一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在不平衡数据集上的泛化能力,笔者提出一种改进的过抽样方法,在少数类中提取该类若干文本中的任意锻... 本文针对提高不均衡数据集中的少数类文本的分类性能这一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在不平衡数据集上的泛化能力,笔者提出一种改进的过抽样方法,在少数类中提取该类若干文本中的任意锻炼,再将提取出的段落添加至此类原始文本末尾,产生新的合成少数类样本,提高了小类别文本分类的正确率。 展开更多
关键词 数据层 不平衡数据集 分类 抽样
下载PDF
考虑小波奇异信息与不平衡数据集的输电线路故障识别方法 被引量:45
16
作者 黄建明 李晓明 +1 位作者 瞿合祚 张礼得 《中国电机工程学报》 EI CSCD 北大核心 2017年第11期3099-3107,共9页
鉴于输电线路故障识别中数据集的非均衡性问题,提出一种基于小波奇异信息和改进合成少数类过采样(synthetic minority over-sampling technique,SMOTE)算法的输电线路故障识别方法。首先,通过PSCAD/EMTDC仿真构造输电线路故障不平衡数据... 鉴于输电线路故障识别中数据集的非均衡性问题,提出一种基于小波奇异信息和改进合成少数类过采样(synthetic minority over-sampling technique,SMOTE)算法的输电线路故障识别方法。首先,通过PSCAD/EMTDC仿真构造输电线路故障不平衡数据集,结合平稳小波变换(stationary wavelet transform,SWT)与奇异值分解(singular value decomposition,SVD)技术提取相电流及零序电流的故障分量的小波奇异值作为特征参数,然后采用改进SMOTE算法在少数类的样本中心邻域进行插值再抽样处理,调整数据集的不平衡度,利用优化后的数据集训练支持向量机(support vector machine,SVM)组合分类器,对不同故障工况下的10种输电线路故障类型进行分类识别。仿真结果表明,该文的方法能有效地提高分类算法在样本数据不平衡的情况下对少数类的识别能力和整体的识别准确率,具有较好的泛化性和较强的鲁棒性,并且对多种分类算法同样适用。 展开更多
关键词 输电线路 故障类型识别 平稳小波变换 奇异值分解 不平衡数据集 过采样 支持向量机
下载PDF
一种基于属性加权补集的朴素贝叶斯文本分类算法 被引量:14
17
作者 陈凯 黄英来 +1 位作者 高文韬 赵鹏 《哈尔滨理工大学学报》 CAS 北大核心 2018年第4期69-74,共6页
针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;... 针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及G-mean性能分别可达82.92%、84.6%、88.76%。 展开更多
关键词 属性加权 文本分类 朴素贝叶斯 不均衡数据集
下载PDF
基于卷积神经网络的柑橘溃疡病识别方法 被引量:13
18
作者 张敏 刘杰 蔡高勇 《计算机应用》 CSCD 北大核心 2018年第A01期48-52,76,共6页
柑橘溃疡病是柑橘类植物的一种重要的检疫性病害,感染性强、传播速度快。通过人工肉眼识别的方式效率低、模糊度高,使用图像识别技术检测柑橘溃疡病可以大量的节省人力物力。使用图像识别技术检测柑橘溃疡病中存在以下问题:1)样本很难获... 柑橘溃疡病是柑橘类植物的一种重要的检疫性病害,感染性强、传播速度快。通过人工肉眼识别的方式效率低、模糊度高,使用图像识别技术检测柑橘溃疡病可以大量的节省人力物力。使用图像识别技术检测柑橘溃疡病中存在以下问题:1)样本很难获取,而且采集的数据还存在不均衡的情况; 2)使用传统的机器学习方法进行识别的时候,特征是由人工设计的,它们对光照变化、背景比较敏感,因此识别率低; 3)卷积神经网络是目前使用较多的图像识别方法,但是模型通常比较复杂,消耗内存和计算时间。为此提出先使用卷积神经网络模型Alexnet对柑橘溃疡病进行识别的方法,然后在保证准确率基本不变的情况下,优化网络模型结构,减小网络参数。实验结果表明,使用卷积神经网络后,它对正样本、负样本的识别率达到了98%以上,超过了决策树、k最近邻(k NN)、支持向量机(SVM)、Adaboost等传统的机器学习方法。同时,在使用减少全连接层和减少卷积层两种优化网络模型的方法后,识别率基本不变,网络模型的参数得到了减少,使得识别速度分别提升为原来的1. 7倍和2. 2倍。 展开更多
关键词 柑橘溃疡病 卷积神经网络 不均衡数据集 识别率 识别速度
下载PDF
面向机器学习的训练数据集均衡化方法 被引量:12
19
作者 李国和 张腾 +2 位作者 吴卫江 洪云峰 周晓明 《计算机工程与设计》 北大核心 2019年第3期812-818,共7页
为提高机器学习算法对于不均衡数据的建模效果,提出一种均衡化预处理方法。采用iForest形成每个样本在样本空间中的分布特征评估值,基于负类(多数类)样本的分布特征评估值定义概率分布;根据样本的概率分布,通过轮盘转算法选取负类样本;... 为提高机器学习算法对于不均衡数据的建模效果,提出一种均衡化预处理方法。采用iForest形成每个样本在样本空间中的分布特征评估值,基于负类(多数类)样本的分布特征评估值定义概率分布;根据样本的概率分布,通过轮盘转算法选取负类样本;通过K-means方法形成若干负类样本聚类中心,以聚类中心为最终负类选取样本,实现正负类样本的均衡化。整个过程构成均衡化方法iForest-RM。iForest-RM与其它采样方法在Adaboost模型上的实验对比结果表明,iForest-RM具有更好的均衡化能力,更好获取样本空间分布特性,可有效应用于地震相识别。 展开更多
关键词 数据预处理 不均衡数据 隔离森林 均值聚类 轮盘转算法
下载PDF
基于ADASYN与改进残差网络的入侵流量检测识别 被引量:8
20
作者 唐玺博 张立民 钟兆根 《系统工程与电子技术》 EI CSCD 北大核心 2022年第12期3850-3862,共13页
针对现有入侵流量检测模型分类准确率低、小样本特征提取不足等问题,提出了一种基于自适应合成采样和Inception-Resnet模块的改进残差网络算法。该算法能够对不平衡数据集进行采样优化,有效提升模型的小样本特征提取能力。首先,通过对... 针对现有入侵流量检测模型分类准确率低、小样本特征提取不足等问题,提出了一种基于自适应合成采样和Inception-Resnet模块的改进残差网络算法。该算法能够对不平衡数据集进行采样优化,有效提升模型的小样本特征提取能力。首先,通过对不平衡的数据训练集进行过采样改善数据分布,然后对非数据部分进行独热编码处理并与数据部分整合,降低预处理复杂度,最后利用改进残差网络模型进行数据训练,并进行性能评估和算法效能对比。实验结果表明,改进残差网络模型对入侵流量的检测准确率在多分类和二分类情况下分别达到89.40%和91.88%。相比于经典深度学习算法,改进残差网络模型的准确率更高,误报率更低,具备较高的可靠性和工程应用价值。 展开更多
关键词 入侵流量检测 残差神经网络 自适应合成采样 不平衡数据集
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部