期刊文献+
共找到94篇文章
< 1 2 5 >
每页显示 20 50 100
kNN文本分类器类偏斜问题的一种处理对策 被引量:33
1
作者 郝秀兰 陶晓鹏 +1 位作者 徐和祥 胡运发 《计算机研究与发展》 EI CSCD 北大核心 2009年第1期52-61,共10页
类偏斜问题(class i mbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本... 类偏斜问题(class i mbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习. 展开更多
关键词 文本分类 KNN 类偏斜 文本训练集的临界点 权重调节 随机重取样
下载PDF
Real-time prediction of rock mass classification based on TBM operation big data and stacking technique of ensemble learning 被引量:19
2
作者 Shaokang Hou Yaoru Liu Qiang Yang 《Journal of Rock Mechanics and Geotechnical Engineering》 SCIE CSCD 2022年第1期123-143,共21页
Real-time prediction of the rock mass class in front of the tunnel face is essential for the adaptive adjustment of tunnel boring machines(TBMs).During the TBM tunnelling process,a large number of operation data are g... Real-time prediction of the rock mass class in front of the tunnel face is essential for the adaptive adjustment of tunnel boring machines(TBMs).During the TBM tunnelling process,a large number of operation data are generated,reflecting the interaction between the TBM system and surrounding rock,and these data can be used to evaluate the rock mass quality.This study proposed a stacking ensemble classifier for the real-time prediction of the rock mass classification using TBM operation data.Based on the Songhua River water conveyance project,a total of 7538 TBM tunnelling cycles and the corresponding rock mass classes are obtained after data preprocessing.Then,through the tree-based feature selection method,10 key TBM operation parameters are selected,and the mean values of the 10 selected features in the stable phase after removing outliers are calculated as the inputs of classifiers.The preprocessed data are randomly divided into the training set(90%)and test set(10%)using simple random sampling.Besides stacking ensemble classifier,seven individual classifiers are established as the comparison.These classifiers include support vector machine(SVM),k-nearest neighbors(KNN),random forest(RF),gradient boosting decision tree(GBDT),decision tree(DT),logistic regression(LR)and multilayer perceptron(MLP),where the hyper-parameters of each classifier are optimised using the grid search method.The prediction results show that the stacking ensemble classifier has a better performance than individual classifiers,and it shows a more powerful learning and generalisation ability for small and imbalanced samples.Additionally,a relative balance training set is obtained by the synthetic minority oversampling technique(SMOTE),and the influence of sample imbalance on the prediction performance is discussed. 展开更多
关键词 Tunnel boring machine(TBM)operation data Rock mass classification Stacking ensemble learning Sample imbalance Synthetic minority oversampling technique(SMOTE)
下载PDF
基于CNN的农作物病虫害图像识别模型 被引量:17
3
作者 史冰莹 李佳琦 +1 位作者 张磊 李健 《计算机系统应用》 2020年第6期89-96,共8页
中国是传统的农业大国,农业不仅是国民经济建设与发展的基础,也是社会正常稳定有序运行的保障.然而每年由于农作物病虫害造成的损失巨大,且传统的农作物病虫害识别方法效果并不理想.同时近年深度学习飞速发展,在图像分类与识别的方面取... 中国是传统的农业大国,农业不仅是国民经济建设与发展的基础,也是社会正常稳定有序运行的保障.然而每年由于农作物病虫害造成的损失巨大,且传统的农作物病虫害识别方法效果并不理想.同时近年深度学习飞速发展,在图像分类与识别的方面取得了巨大进展.因此本文通过基于深度学习的方法构建农作物病虫害图像识别模型,并针对样本不平衡问题改进卷积网络损失函数.实验证明该模型可以对农作物病虫害进行有效识别并且对损失函数进行优化后模型的准确率也进一步得到了提升. 展开更多
关键词 卷积神经网络 图像分类 迁移学习 样本不均衡
下载PDF
改进的多类不平衡数据关联分类算法 被引量:11
4
作者 黄再祥 周忠眉 +1 位作者 何田中 郑艺峰 《模式识别与人工智能》 EI CSCD 北大核心 2015年第10期922-929,共8页
由于多类不平衡数据中某些类别的样例数特别少,使得基于支持度-置信度的关联分类方法在这些类上产生的规则较少,甚至没有,从而导致这些类别的样例很难准确分类.针对此问题,文中提出改进的多类不平衡数据关联分类算法.为了提取更多小类... 由于多类不平衡数据中某些类别的样例数特别少,使得基于支持度-置信度的关联分类方法在这些类上产生的规则较少,甚至没有,从而导致这些类别的样例很难准确分类.针对此问题,文中提出改进的多类不平衡数据关联分类算法.为了提取更多小类的规则,根据项集与类别的正相关度提取规则.为了提高小类规则的优先级,提出利用项集类分布规则强度排序规则.此外,为解决规则冲突或无规则匹配问题,结合KNN分类新样例.实验表明,与基于支持度-置信度的关联分类方法相比,文中算法能提取更多的小类规则,且提高小类规则的优先级,在多类不平衡数据上取得较高的G-mean值和F-score值. 展开更多
关键词 数据挖掘 关联分类 不平衡数据 规则强度 相关度
下载PDF
改进的基于核密度估计的数据分类算法 被引量:9
5
作者 李俊林 符红光 《控制与决策》 EI CSCD 北大核心 2010年第4期507-514,共8页
目前,很多基于核密度估计的数据分类算法采用的判别规则忽视了不平衡类问题.对此,提出了改进的基于核密度估计的数据分类算法.该算法可处理不平衡类带来的影响,并在不平衡类问题严重时也能发挥好的效果,而且可以推广到多分类问题.实验... 目前,很多基于核密度估计的数据分类算法采用的判别规则忽视了不平衡类问题.对此,提出了改进的基于核密度估计的数据分类算法.该算法可处理不平衡类带来的影响,并在不平衡类问题严重时也能发挥好的效果,而且可以推广到多分类问题.实验结果表明了这种改进是非常有效的,它提高了基于核密度估计的分类算法对不平衡类的适应力. 展开更多
关键词 核密度估计 数据分类 不平衡类问题 判别式改进
原文传递
分类中的类重叠问题及其处理方法研究 被引量:9
6
作者 熊海涛 吴俊杰 +1 位作者 刘洪甫 刘鲁 《管理科学学报》 CSSCI 北大核心 2013年第4期8-21,共14页
类重叠问题是数据挖掘与机器学习领域的瓶颈问题之一.如果其中还存在类不均衡问题时,情况变得更加复杂.有鉴于此,本文在已有文献基础上归纳了三种类重叠学习算法及提出一种新的方法:分隔法,并首次将支持向量数据描述算法用于实际数据的... 类重叠问题是数据挖掘与机器学习领域的瓶颈问题之一.如果其中还存在类不均衡问题时,情况变得更加复杂.有鉴于此,本文在已有文献基础上归纳了三种类重叠学习算法及提出一种新的方法:分隔法,并首次将支持向量数据描述算法用于实际数据的重叠样本识别,对类重叠问题及其与类不均衡问题的相互影响进行了系统研究.在真实数据上采用五种分类器的实验结果表明:1)多数情况下"分隔法"是表现最佳的类重叠学习算法;2)分隔法通常对基于分界面而非规则的分类器更为有效;3)分隔法在类不均衡问题中表现很好,当基础分类器为支持向量机时尤为突出.最后针对支持向量机的实验结果给出了理论分析. 展开更多
关键词 数据挖掘 分类 类重叠 类不均衡 支持向量数据描述
下载PDF
基于改进的多层降噪自编码算法临床分类诊断研究 被引量:9
7
作者 胡帅 袁志勇 +2 位作者 肖玲 王惠玲 王高华 《计算机应用研究》 CSCD 北大核心 2015年第5期1417-1420,共4页
针对临床分类诊断中普遍存在的样本不均衡、错分代价不同、大量无标签样本和测量误差等特点,引入了机器学习中较新的研究成果——多层降噪自编码(stacked denoising autoencoders,SDA)神经网络,并与欠采样局部更新的元代价(metacost)算... 针对临床分类诊断中普遍存在的样本不均衡、错分代价不同、大量无标签样本和测量误差等特点,引入了机器学习中较新的研究成果——多层降噪自编码(stacked denoising autoencoders,SDA)神经网络,并与欠采样局部更新的元代价(metacost)算法相结合,对SDA神经网络进行了改进,使组合模型具有代价敏感、降低不均衡性、有效利用无标签样本、抗噪声的特性。实验中将改进的SDA神经网络与SOFTMAX回归、反向传播(back propagation,BP)神经网络、支持向量机(support vector machine,SVM)、传统多层自编码(stacked autoencoders,SAE)神经网络,以及传统SDA神经网络等作了比较。实验结果表明,改进的SDA神经网络的准确率、ROC曲线下面积等均优于其他模型,提高了分类模型的辅助诊断性能。 展开更多
关键词 深度学习 多层降噪自编码 元代价 分类诊断 代价敏感 不均衡
下载PDF
面向类不平衡流量数据的分类模型 被引量:7
8
作者 刘丹 姚立霜 +1 位作者 王云锋 裴作飞 《计算机应用》 CSCD 北大核心 2020年第8期2327-2333,共7页
针对网络流量分类过程中,传统模型在小类别上的分类性能较差和难以实现频繁、及时更新的问题,提出一种基于集成学习的网络流量分类模型(ELTCM)。首先,根据类别分布信息定义了偏向于小类别的特征度量,利用加权对称不确定性和近似马尔可夫... 针对网络流量分类过程中,传统模型在小类别上的分类性能较差和难以实现频繁、及时更新的问题,提出一种基于集成学习的网络流量分类模型(ELTCM)。首先,根据类别分布信息定义了偏向于小类别的特征度量,利用加权对称不确定性和近似马尔可夫毯(AMB)对网络流量特征进行降维,减小类不平衡问题带来的影响;然后,引入早期概念漂移检测增强模型应对流量特征随网络变化而变化的能力,并通过增量学习的方式提高模型更新训练的灵活性。利用真实流量数据集进行实验,仿真结果表明,与基于C4.5决策树的分类模型(DTITC)和基于错误率的概念漂移检测分类模型(ERCDD)相比,ELTCM的平均整体精确率分别提高了1.13%和0.26%,且各小类别的分类性能皆优于对比模型。ELTCM有较好的泛化能力,能在不牺牲整体分类精度的情况下有效提高小类别的分类性能。 展开更多
关键词 流量分类 类不平衡 特征选择 增量学习 集成学习
下载PDF
基于随机森林算法的CPTu土类识别模型研究及其在不同区域的应用 被引量:2
9
作者 伍圣超 王睿 张建民 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第11期4391-4402,共12页
探讨基于跨地区的“CPTu+钻孔”数据库建立多地区广泛适用的土类识别模型的可行性,阐明在砾石、砂土、粉土、黏土四大分类情况下,能够适用于多个不同地区的土类识别模型。基于跨新西兰、奥地利、德国3个地区的“CPTu+钻孔”数据库,以CPT... 探讨基于跨地区的“CPTu+钻孔”数据库建立多地区广泛适用的土类识别模型的可行性,阐明在砾石、砂土、粉土、黏土四大分类情况下,能够适用于多个不同地区的土类识别模型。基于跨新西兰、奥地利、德国3个地区的“CPTu+钻孔”数据库,以CPTu测试数据的8个统计特征为输入,以砾石、砂土、粉土、黏土4种土类为输出,应用随机森林算法建立分类模型,同时探讨RF、SVM、BPANN、KNN 4种机器学习算法对于该土类识别问题的性能差异。研究结果表明:模型在3个地区均具有良好的泛化性能,与工程中广泛接受的SBTn图表法相比,土类预测精度显著提升。结合该模型和相应的土层界面确定方法,可应用于完整的CPTu测试曲线以重构测点处的土层分布。重构土层分布和钻孔土层分布具有很好的一致性,一致性程度达95%左右。在4种机器学习算法中,RF算法具备最优的性能,能有效解决不平衡分类问题。 展开更多
关键词 CPTU 土类识别 随机森林 泛化性能 不平衡分类
下载PDF
基于ECOC平衡随机森林的雷达降水粒子分类
10
作者 李海 田众 钱君 《系统工程与电子技术》 EI CSCD 北大核心 2024年第5期1599-1606,共8页
针对数据不平衡情况下的降水粒子分类问题,提出了一种基于纠错输出码(error correcting output code,ECOC)平衡随机森林的双偏振气象雷达降水粒子分类方法。首先,将多类别降水粒子数据集编码为多个二分类数据集;然后,对二分类数据集进... 针对数据不平衡情况下的降水粒子分类问题,提出了一种基于纠错输出码(error correcting output code,ECOC)平衡随机森林的双偏振气象雷达降水粒子分类方法。首先,将多类别降水粒子数据集编码为多个二分类数据集;然后,对二分类数据集进行有放回的平衡重采样,构建多棵分类回归树;最后,利用所有的分类回归树联合进行降水粒子分类。对实测数据的处理结果表明,所提方法能够在保证总体准确率较高的情况下,大幅提高少数类的分类效果。 展开更多
关键词 双偏振气象雷达 降水粒子分类 数据不平衡 纠错输出码 平衡随机森林
下载PDF
基于K均值和k近邻的半监督流量分类算法 被引量:6
11
作者 李林林 张效义 +1 位作者 张霞 李青 《信息工程大学学报》 2015年第2期234-239,共6页
针对流量分类中样本标注瓶颈和类不均衡问题,提出一种基于K均值和k近邻的半监督流量分类算法。采用K均值聚类算法将混有少量标记样本和大量未标记样本的数据聚成若干个簇,然后采用k近邻算法利用簇中标记样本对未标记样本进行分类。在分... 针对流量分类中样本标注瓶颈和类不均衡问题,提出一种基于K均值和k近邻的半监督流量分类算法。采用K均值聚类算法将混有少量标记样本和大量未标记样本的数据聚成若干个簇,然后采用k近邻算法利用簇中标记样本对未标记样本进行分类。在分类过程中根据簇中标记样本分布调整参与分类的最近邻居数,从而克服了类不均衡对识别小类流的不利影响。理论分析和实验结果都表明,算法在面对非均衡协议流时提高了小类流的识别率。 展开更多
关键词 流量分类 非均衡 半监督 K均值 K近邻
下载PDF
基于元学习的不平衡少样本情况下的文本分类研究 被引量:5
12
作者 熊伟 宫禹 《中文信息学报》 CSCD 北大核心 2022年第1期104-116,共13页
针对文本信息语义、语境迁移难问题,该文提出一种基于元学习与注意力机制模型的动态卷积神经网络改进方法。首先利用文本的底层分布特征进行跨类别分类,使文本信息具有更好的迁移性;其次使用注意力机制对传统的卷积网络进行改进,以提高... 针对文本信息语义、语境迁移难问题,该文提出一种基于元学习与注意力机制模型的动态卷积神经网络改进方法。首先利用文本的底层分布特征进行跨类别分类,使文本信息具有更好的迁移性;其次使用注意力机制对传统的卷积网络进行改进,以提高网络的特征提取能力,并根据原始数据集信息进行编码,生成平衡变量,降低由于数据不平衡所带来的影响;最后使用双层优化的方法使模型自动优化其网络参数。在通用文本分类数据集THUCNews实验结果表明,该文所提出的方法,在1-shot、5-shot情况下,准确率分别提升2.27%、3.26%;在IMDb数据集上,模型准确率分别提升3.28%、3.01%。 展开更多
关键词 元学习 少样本学习 文本分类 动态卷积 数据不平衡
下载PDF
AI Fairness-From Machine Learning to Federated Learning
13
作者 Lalit Mohan Patnaik Wenfeng Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第5期1203-1215,共13页
This article reviews the theory of fairness in AI-frommachine learning to federated learning,where the constraints on precision AI fairness and perspective solutions are also discussed.For a reliable and quantitative ... This article reviews the theory of fairness in AI-frommachine learning to federated learning,where the constraints on precision AI fairness and perspective solutions are also discussed.For a reliable and quantitative evaluation of AI fairness,many associated concepts have been proposed,formulated and classified.However,the inexplicability of machine learning systems makes it almost impossible to include all necessary details in the modelling stage to ensure fairness.The privacy worries induce the data unfairness and hence,the biases in the datasets for evaluating AI fairness are unavoidable.The imbalance between algorithms’utility and humanization has further reinforced suchworries.Even for federated learning systems,these constraints on precision AI fairness still exist.Aperspective solution is to reconcile the federated learning processes and reduce biases and imbalances accordingly. 展开更多
关键词 FORMULATION evaluation classification CONSTRAINTS imbalance biases
下载PDF
Deep learning based classification of sheep behaviour from accelerometer data with imbalance 被引量:2
14
作者 Kirk E.Turner Andrew Thompson +2 位作者 Ian Harris Mark Ferguson Ferdous Sohel 《Information Processing in Agriculture》 EI CSCD 2023年第3期377-390,共14页
Classification of sheep behaviour from a sequence of tri-axial accelerometer data has the potential to enhance sheep management.Sheep behaviour is inherently imbalanced(e.g.,more ruminating than walking)resulting in u... Classification of sheep behaviour from a sequence of tri-axial accelerometer data has the potential to enhance sheep management.Sheep behaviour is inherently imbalanced(e.g.,more ruminating than walking)resulting in underperforming classification for the minority activities which hold importance.Existing works have not addressed class imbalance and use traditional machine learning techniques,e.g.,Random Forest(RF).We investigated Deep Learning(DL)models,namely,Long Short Term Memory(LSTM)and Bidirectional LSTM(BLSTM),appropriate for sequential data,from imbalanced data.Two data sets were collected in normal grazing conditions using jaw-mounted and earmounted sensors.Novel to this study,alongside typical single classes,e.g.,walking,depending on the behaviours,data samples were labelled with compound classes,e.g.,walking_-grazing.The number of steps a sheep performed in the observed 10 s time window was also recorded and incorporated in the models.We designed several multi-class classification studies with imbalance being addressed using synthetic data.DL models achieved superior performance to traditional ML models,especially with augmented data(e.g.,4-Class+Steps:LSTM 88.0%,RF 82.5%).DL methods showed superior generalisability on unseen sheep(i.e.,F1-score:BLSTM 0.84,LSTM 0.83,RF 0.65).LSTM,BLSTM and RF achieved sub-millisecond average inference time,making them suitable for real-time applications.The results demonstrate the effectiveness of DL models for sheep behaviour classification in grazing conditions.The results also demonstrate the DL techniques can generalise across different sheep.The study presents a strong foundation of the development of such models for real-time animal monitoring. 展开更多
关键词 Sheep behaviour classification Data synthesis Class imbalance Grazing sheep
原文传递
考虑样本类别不平衡的电网故障事件智能识别方法 被引量:6
15
作者 卫志农 石东明 +3 位作者 张明 孙国强 臧海祥 沈培锋 《电力自动化设备》 EI CSCD 北大核心 2021年第11期93-99,共7页
电网中不同设备的故障概率存在差异,影响智能诊断技术的准确性。为解决此问题,提出了一种基于代价敏感学习和模型自适应选择融合的电网故障事件智能识别方法。首先,利用Word2vec模型将预处理后的电网告警信息向量化,并搭建2个双向长短... 电网中不同设备的故障概率存在差异,影响智能诊断技术的准确性。为解决此问题,提出了一种基于代价敏感学习和模型自适应选择融合的电网故障事件智能识别方法。首先,利用Word2vec模型将预处理后的电网告警信息向量化,并搭建2个双向长短期记忆网络作为基础分类器;然后,设计代价敏感损失函数,将交叉熵损失函数与代价敏感损失函数分别应用于2个分类器中;最后,提出一种模型自适应选择融合法,融合上述分类器,得到故障事件识别结果。实际数据测试表明,所提方法能够有效降低故障事件识别中样本类别不平衡的影响。 展开更多
关键词 电网故障事件识别 深度学习 类别不平衡 代价敏感学习 模型融合
下载PDF
面向类不平衡网络流量的特征选择算法 被引量:5
16
作者 唐宏 刘丹 +2 位作者 姚立霜 王云锋 裴作飞 《电子与信息学报》 EI CSCD 北大核心 2021年第4期923-930,共8页
针对网络流量分类过程中出现的类不平衡问题,该文提出一种基于加权对称不确定性(WSU)和近似马尔科夫毯(AMB)的特征选择算法。首先,根据类别分布信息,定义了偏向于小类别的特征度量,使得与小类别具有强相关性的特征更容易被选择出来;其次... 针对网络流量分类过程中出现的类不平衡问题,该文提出一种基于加权对称不确定性(WSU)和近似马尔科夫毯(AMB)的特征选择算法。首先,根据类别分布信息,定义了偏向于小类别的特征度量,使得与小类别具有强相关性的特征更容易被选择出来;其次,充分考虑特征与类别间、特征与特征之间的相关性,利用加权对称不确定性和近似马尔科夫毯删除不相关特征及冗余特征;最后,利用基于相关性度量的特征评估函数以及序列搜索算法进一步降低特征维数,确定最优特征子集。实验表明,在保证算法整体分类精确率的前提下,算法能够有效提高小类别的分类性能。 展开更多
关键词 流量分类 特征选择 类不平衡 加权对称不确定性 近似马尔科夫毯
下载PDF
基于多分类及特征融合的静默活体检测算法 被引量:4
17
作者 黄新宇 游帆 +4 位作者 张沛 张昭 张柏礼 吕建华 徐立臻 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第2期263-270,共8页
现有的静默活体检测研究忽略不同非活体攻击方式之间的差异,以及不考虑活体和非活体样本类别不均衡对模型学习的不利影响.本研究将非活体攻击类别细分成打印攻击和展示攻击,将静默活体检测由传统的二分类问题转变为多分类问题,并提出采... 现有的静默活体检测研究忽略不同非活体攻击方式之间的差异,以及不考虑活体和非活体样本类别不均衡对模型学习的不利影响.本研究将非活体攻击类别细分成打印攻击和展示攻击,将静默活体检测由传统的二分类问题转变为多分类问题,并提出采取交叉熵作为损失函数对网络模型进行训练的方案,用以克服二分类和类别不均衡问题,使得模型训练中能更准确发现和抽象出非活体人脸样本共同的欺诈特征,提高网络模型对非活体识别的精准度.构建双流特征融合网络模型,采取注意力机制对从RGB和YCrCb这2种不同色彩空间提取到的特征向量进行自适应加权融合,以进一步提升网络模型的特征表示能力.在CASIA-FASD、 Replay-Attack、MSU-MFSD和OULU-NPU 4个公开数据集进行大量的对比实验,实验结果表明,采取多分类策略以及特征融合的静默活体检测模型能够有效降低分类错误率并提升泛化能力. 展开更多
关键词 人脸活体检测 多分类 类别不均衡 交叉熵损失 特征融合
下载PDF
考虑样本不平衡的X光安检图像违禁品分类方法 被引量:1
18
作者 冯霞 魏新坤 +1 位作者 刘才华 赫鑫宇 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第12期3215-3221,共7页
X光安检图像违禁品分类被广泛应用于协助维护航空和运输安全。针对X光安检图像中违禁品尺度不一、存在困难样本及旅客行李安检固有的正负样本不均衡等问题,提出一种端到端的考虑样本不平衡的X光安检图像违禁品分类方法。采用多尺度特征... X光安检图像违禁品分类被广泛应用于协助维护航空和运输安全。针对X光安检图像中违禁品尺度不一、存在困难样本及旅客行李安检固有的正负样本不均衡等问题,提出一种端到端的考虑样本不平衡的X光安检图像违禁品分类方法。采用多尺度特征提取网络捕获尺度不一的多类型违禁品特征,通过特征融合模块提升模型对图像边缘和纹理特征的表达能力,基于代价敏感思想设计损失函数,解决数据集不平衡问题,并提高困难样本分类精准度。在公开数据集SIXray上构建的子集实验结果表明:所提方法相较于端到端分类模型,平均AP指标值提升了4.5%,特别是对剪刀等难分类样本,AP指标值都有显著的提升效果。 展开更多
关键词 违禁品分类 样本不平衡 X光图像 多尺度 困难样本分类 代价敏感
下载PDF
Combined Effect of Concept Drift and Class Imbalance on Model Performance During Stream Classification
19
作者 Abdul Sattar Palli Jafreezal Jaafar +3 位作者 Manzoor Ahmed Hashmani Heitor Murilo Gomes Aeshah Alsughayyir Abdul Rehman Gilal 《Computers, Materials & Continua》 SCIE EI 2023年第4期1827-1845,共19页
Every application in a smart city environment like the smart grid,health monitoring, security, and surveillance generates non-stationary datastreams. Due to such nature, the statistical properties of data changes over... Every application in a smart city environment like the smart grid,health monitoring, security, and surveillance generates non-stationary datastreams. Due to such nature, the statistical properties of data changes overtime, leading to class imbalance and concept drift issues. Both these issuescause model performance degradation. Most of the current work has beenfocused on developing an ensemble strategy by training a new classifier on thelatest data to resolve the issue. These techniques suffer while training the newclassifier if the data is imbalanced. Also, the class imbalance ratio may changegreatly from one input stream to another, making the problem more complex.The existing solutions proposed for addressing the combined issue of classimbalance and concept drift are lacking in understating of correlation of oneproblem with the other. This work studies the association between conceptdrift and class imbalance ratio and then demonstrates how changes in classimbalance ratio along with concept drift affect the classifier’s performance.We analyzed the effect of both the issues on minority and majority classesindividually. To do this, we conducted experiments on benchmark datasetsusing state-of-the-art classifiers especially designed for data stream classification.Precision, recall, F1 score, and geometric mean were used to measure theperformance. Our findings show that when both class imbalance and conceptdrift problems occur together the performance can decrease up to 15%. Ourresults also show that the increase in the imbalance ratio can cause a 10% to15% decrease in the precision scores of both minority and majority classes.The study findings may help in designing intelligent and adaptive solutionsthat can cope with the challenges of non-stationary data streams like conceptdrift and class imbalance. 展开更多
关键词 classification data streams class imbalance concept drift class imbalance ratio
下载PDF
一种基于集成学习的流量分类算法 被引量:4
20
作者 李林林 张效义 +1 位作者 张霞 李青 《信息工程大学学报》 2015年第2期240-244,共5页
针对网络流量分类中类不均衡问题,提出一种基于K均值和k近邻的流量分类算法(traffic classification based on K-means and k nearest neighbor,KMk NN);以KMk NN为基础设计了一种集成分类器(ensemble classifier based on KMk NN,KKEC... 针对网络流量分类中类不均衡问题,提出一种基于K均值和k近邻的流量分类算法(traffic classification based on K-means and k nearest neighbor,KMk NN);以KMk NN为基础设计了一种集成分类器(ensemble classifier based on KMk NN,KKEC)。首先通过抽取不同的输入特征子集分别进行训练,获得不同的分类器,进而采取绝对多数与相对多数相结合的投票方式产生集成输出结果,最后采用非平衡数据集进行测试。理论分析和实验结果都表明,算法在面对非均衡协议流时提高了小类流的识别率。 展开更多
关键词 集成学习 流量分类 非均衡
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部