期刊文献+
共找到122篇文章
< 1 2 7 >
每页显示 20 50 100
基于类重叠度欠采样的不平衡模糊多类支持向量机 被引量:26
1
作者 吴园园 申立勇 《中国科学院大学学报(中英文)》 CSCD 北大核心 2018年第4期536-543,共8页
传统的欠采样方法容易丢失重要的样本信息,且其实验结果的稳定性较差。针对上述问题,提出一种基于类重叠度欠采样的不平衡数据模糊多类支持向量机算法。该算法首先采用LOF局部离群点因子和箱线图的方法清洗训练数据集中的噪声样本,然后... 传统的欠采样方法容易丢失重要的样本信息,且其实验结果的稳定性较差。针对上述问题,提出一种基于类重叠度欠采样的不平衡数据模糊多类支持向量机算法。该算法首先采用LOF局部离群点因子和箱线图的方法清洗训练数据集中的噪声样本,然后根据类重叠度抽取对分类起关键作用的支持向量,并且将代表每个样本点重要程度的类重叠度作为隶属度值,构造模糊多类支持向量机。实验结果表明,该算法克服了随机欠采样的支持向量机容易丢失重要样本信息和实验结果不稳定的缺点,且很好地提升了支持向量机在不平衡且含噪声的数据集上的分类精度,并保持较高的计算效率。 展开更多
关键词 支持向量机 模糊多类支持向量机 噪声 不平衡数据 类重叠度
下载PDF
面向不平衡数据分类的复合SVM算法研究 被引量:23
2
作者 刘东启 陈志坚 +1 位作者 徐银 李飞腾 《计算机应用研究》 CSCD 北大核心 2018年第4期1023-1027,共5页
为了改善传统支持向量机(SVM)对不平衡数据的分类效果,解决分类器对少类样本分类效果较差的问题,提出了一种复合SVM算法。该算法首先通过自适应合成采样(ADASYN)算法与不同错误代价(DEC)算法的结合,改善不平衡数据对超平面造成的偏移;... 为了改善传统支持向量机(SVM)对不平衡数据的分类效果,解决分类器对少类样本分类效果较差的问题,提出了一种复合SVM算法。该算法首先通过自适应合成采样(ADASYN)算法与不同错误代价(DEC)算法的结合,改善不平衡数据对超平面造成的偏移;然后引入一种新的修正算法对预测模型进行修正,提高预测模型对于不同数据特性的适应性。选择UCI数据库中的七组现实世界的不平衡数据集进行测试,实验表明在各个数据集上复合SVM算法性能均优于现有算法或与现有算法相当,分类性能平均提高了2.0%~20.9%,证明了该算法的有效性和鲁棒性。 展开更多
关键词 不平衡数据 支持向量机 自适应合成采样 不同错误代价 修正算法
下载PDF
改进SVM-KNN的不平衡数据分类 被引量:21
3
作者 王超学 张涛 马春森 《计算机工程与应用》 CSCD 北大核心 2016年第4期51-55,103,共6页
针对支持向量机(SVM)在超平面附近进行不平衡数据(imbalanced datasets)分类的不准确性,提出了一种改进SVM-KNN算法,该算法在分类阶段计算测试样本与最优超平面的距离,如果距离差大于给定阈值可直接应用支持向量机分类;如果距离差小于... 针对支持向量机(SVM)在超平面附近进行不平衡数据(imbalanced datasets)分类的不准确性,提出了一种改进SVM-KNN算法,该算法在分类阶段计算测试样本与最优超平面的距离,如果距离差大于给定阈值可直接应用支持向量机分类;如果距离差小于给定阈值,则将所有支持向量都作为测试样本的近邻样本,进行KNN分类。通过对UCI数据集的大量实验表明,该算法在少数类样本的识别率和分类器的整体性能上有明显改善。 展开更多
关键词 支持向量机 K近邻法 不平衡数据集
下载PDF
基于改进SMOTE的非平衡数据集分类研究 被引量:19
4
作者 王超学 潘正茂 +2 位作者 董丽丽 马春森 张星 《计算机工程与应用》 CSCD 2013年第2期184-187,245,共5页
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少... 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据集 分类 支持度 轮盘赌选择 合成少数过采样技术(SMOTE)
下载PDF
基于边界混合采样的非均衡数据处理算法 被引量:19
5
作者 冯宏伟 姚博 +2 位作者 高原 王惠亚 冯筠 《控制与决策》 EI CSCD 北大核心 2017年第10期1831-1836,共6页
针对非均衡数据分类效果差的问题,提出一种新的基于边界混合采样的非均衡数据处理方法(BMS).首先通过引进"变异系数"找出样本的边界域和非边界域;然后对边界域中的少数类样本进行过采样,对非边界域中的多数类样本进行随机欠采... 针对非均衡数据分类效果差的问题,提出一种新的基于边界混合采样的非均衡数据处理方法(BMS).首先通过引进"变异系数"找出样本的边界域和非边界域;然后对边界域中的少数类样本进行过采样,对非边界域中的多数类样本进行随机欠采样,以期达到训练数据基本平衡的目标.实验结果表明,BMS方法比其他3种流行的非均衡数据处理方法在对7个公开数据集的分类性能上平均提高了5%左右,因此,该方法可以广泛应用于非均衡数据的处理和分类中. 展开更多
关键词 非均衡数据 欠采样 变异系数 分类
原文传递
针对非平衡数据分类的新型模糊SVM模型 被引量:19
6
作者 蔡艳艳 宋晓东 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2015年第5期120-124,160,共6页
提出了一种新的模糊支持向量机模型——非平衡数据分类的支持向量机模型,通过改进惩罚函数,降低模型对于含有噪声点的非平衡样本数据的敏感性,并采用网格搜索算法来确定各个支持向量机模型中参数的优化取值.研究结果表明,非平衡数据分... 提出了一种新的模糊支持向量机模型——非平衡数据分类的支持向量机模型,通过改进惩罚函数,降低模型对于含有噪声点的非平衡样本数据的敏感性,并采用网格搜索算法来确定各个支持向量机模型中参数的优化取值.研究结果表明,非平衡数据分类的支持向量机模型对非平衡样本数据进行分类的效果优于其他方法,不仅总体判别精度较高,也提高了少数类样本的判别精度,取得了较好的改进效果. 展开更多
关键词 支持向量机 分类 非平衡数据集 噪声 惩罚函数
下载PDF
一种用于不平衡数据分类的改进AdaBoost算法 被引量:15
7
作者 郭乔进 李立斌 李宁 《计算机工程与应用》 CSCD 北大核心 2008年第21期217-221,共5页
真实世界中存在大量的类别不平衡分类问题,传统的机器学习算法如AdaBoost算法,关注的是分类器的整体性能,而没有给予小类更多的关注。因此针对类别不平衡学习算法的研究是机器学习的一个重要方向。AsymBoost作为AdaBoost的一种改进算法... 真实世界中存在大量的类别不平衡分类问题,传统的机器学习算法如AdaBoost算法,关注的是分类器的整体性能,而没有给予小类更多的关注。因此针对类别不平衡学习算法的研究是机器学习的一个重要方向。AsymBoost作为AdaBoost的一种改进算法,用于类别不平衡学习时,牺牲大类样本的识别精度来提高小类样本的分类性能。AsymBoost算法依然可能遭遇样本权重过大造成的过适应问题。据此提出了一种新型的AdaBoost改进算法。该方法通过对大类中分类困难样本的权重和标签进行处理,使分类器能够同时获得较好的查准率和查全率。实验结果表明,该方法可以有效提高在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据 类别不平衡学习 ADABOOST AsymBoost 阈值
下载PDF
融合过抽样和欠抽样的不平衡数据重抽样方法 被引量:15
8
作者 吴磊 房斌 +2 位作者 刁丽萍 陈静 谢娜娜 《计算机工程与应用》 CSCD 2013年第21期172-176,185,共6页
在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多... 在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多,只探讨利用重抽样方法对不平衡数据进行预处理来提高分类效果的方法。数据抽样算法有很多,但可以归为两大类:过抽样和欠抽样。针对二分类问题提出了四种融合过抽样和欠抽样算法的重抽样方法:BSM+Tomek、BSM+ENN、CBOS+Tomek和CBOS+ENN,并且与另外十种经典的重抽样算法做了大量的对比实验,实验证明提出的四种预处理算法在多种评价指标下提高了不平衡数据的分类效果。 展开更多
关键词 不平衡数据 重抽样 基于聚类的过抽样算法(CBOS) 基于边界值的虚拟少数类向上采样算法(BSM) 可选择最 近邻算法(ENN) Tomek LINKS 预处理
下载PDF
基于SMOTEBoost的非均衡数据集SVM分类器 被引量:14
9
作者 李正欣 赵林度 《系统工程》 CSCD 北大核心 2008年第5期116-119,共4页
在对实际问题进行数据挖掘时面临的多数是非均衡数据集,即各种类型的数据分布并不均匀,且关注的类型常是少数类。运用含有少量少数类型事例的数据集训练后的模型进行预测时,通常对多数类的预测精度很高,而少数类的预测精确性却很差。提... 在对实际问题进行数据挖掘时面临的多数是非均衡数据集,即各种类型的数据分布并不均匀,且关注的类型常是少数类。运用含有少量少数类型事例的数据集训练后的模型进行预测时,通常对多数类的预测精度很高,而少数类的预测精确性却很差。提出了一种集成方法SMOTEBoostSVM,通过SMOTE技术人工生成增加少数类样本量,以具有较强分类性能和泛化性能的SVM作为弱分类器,并以AdaBoost算法构建集成分类器。实验结果表明,SMOTEBoostSVM集成分类器比单纯运用SMOTE技术、AdaBoost算法以及SVM等的分类器,在非均衡数据集的分类预测中具有更好的效果。 展开更多
关键词 SMOTE ADABOOST 支持向量机 非平衡数据集
下载PDF
利用决策树建立慢性阻塞性肺病中医诊断模型 被引量:14
10
作者 苏翀 任曈 +1 位作者 王国品 殷杰 《计算机工程与应用》 CSCD 北大核心 2019年第3期225-230,共6页
慢性阻塞性肺病主要表现为呼吸困难,严重影响了患者的生存质量。肺活量测定法是目前的主要诊断方法。为了构建和谐医患关系,减少过度检查,从中医诊断的角度,根据已收集的病例资料,利用基于KL距离的决策树建立诊断模型,可实现对患者的初... 慢性阻塞性肺病主要表现为呼吸困难,严重影响了患者的生存质量。肺活量测定法是目前的主要诊断方法。为了构建和谐医患关系,减少过度检查,从中医诊断的角度,根据已收集的病例资料,利用基于KL距离的决策树建立诊断模型,可实现对患者的初步筛查。实验以F-Measure、G-Mean、ROC曲线下面积以及精度召回率曲线下面积作为评价指标,将提出的决策树分别与ID3、C4.5以及CART比较。结果表明,提出的决策树较传统决策树取得了更好的预测效果,对应的评价指标分别达到了0.92、0.894、0.907以及0.9。最后,当应用于临床时,以临床上常用的AUROC作为评价指标,提出的决策树模型达到了0.823,取得了预期效果。 展开更多
关键词 决策树 KL距离 非平衡数据集 慢性阻塞性肺病 中医
下载PDF
通过训练样本采样处理改善小宗作物遥感识别精度 被引量:11
11
作者 樊东东 李强子 +3 位作者 王红岩 张源 杜鑫 沈宇 《遥感学报》 EI CSCD 北大核心 2019年第4期730-742,共13页
训练样本质量是决定农作物遥感识别精度的关键因素,虽然高空间分辨率卫星的发展有效地解决了农作物遥感识别过程中的混合像元问题,但是当区域内不同作物种植面积差异较大时,训练集中不同类别样本数量往往相差较大,这样的不均衡数据集影... 训练样本质量是决定农作物遥感识别精度的关键因素,虽然高空间分辨率卫星的发展有效地解决了农作物遥感识别过程中的混合像元问题,但是当区域内不同作物种植面积差异较大时,训练集中不同类别样本数量往往相差较大,这样的不均衡数据集影响分类器的训练,导致少数类别的识别精度不理想。为研究作物遥感识别过程中的不均衡样本问题,本文基于GF-2号卫星数据,首先挖掘了地物的光谱信息、纹理信息,用特征递归消除RFE(Recursive Feature Elimination)方法进行特征优选,然后从数据处理的角度采用了5种采样算法对不均衡训练集进行处理,最后使用采样后的均衡数据集训练分类器,对比数据采样前后决策树与Adaboost(Adaptive Boosting)两种分类器的识别结果,发现:(1)经过采样处理后两种分类算法明显提升了小宗作物的分类精度;(2)经过ADASYS(Adaptive synthetic sampling)采样处理后,分类器性能提升最多,决策树的Kappa系数提高了14.32%,Adaboost的Kappa系数提高了10.23%,达到最高值0.9336;(3)过采样的处理效果优于欠采样,过采样对分类器的性能提升更多。综上所述,选择合适的采样方法和分类方法是提高不均衡数据集遥感分类精度的有效途径。 展开更多
关键词 作物识别 不均衡数据集 采样 遥感 小宗作物 (GF-2)高分二号
原文传递
面向不平衡数据集的SMOTE-SVM交通事件检测算法 被引量:10
12
作者 郑文昌 陈淑燕 王宣强 《武汉理工大学学报》 CAS CSCD 北大核心 2012年第11期58-62,123,共6页
针对现实中交通正常运行状态远多于事件状态这一事实,提出了面向不平衡数据集的交通事件检测算法。运用SMOTE(Synthetic Minority Over-sampling Technique)算法重构训练集,使之平衡,以支持向量机(Support VectorMachine,SVM)作为分类器... 针对现实中交通正常运行状态远多于事件状态这一事实,提出了面向不平衡数据集的交通事件检测算法。运用SMOTE(Synthetic Minority Over-sampling Technique)算法重构训练集,使之平衡,以支持向量机(Support VectorMachine,SVM)作为分类器,对交通事件进行检测。使用美国I-880高速公路获取的交通数据进行算法的训练和性能测试。结果表明,基于SMOTE-SVM的交通事件自动检测(Automatic Incident Detection,AID)算法可以提高检测率,减少平均检测时间。 展开更多
关键词 交通事件检测 不平衡数据集 SMOTE算法 支持向量机
原文传递
基于重采样技术在医学不平衡数据分类中的应用研究 被引量:10
13
作者 闫慈 田翔华 +2 位作者 阿拉依.阿汗 张伟文 曹明芹 《中国卫生统计》 CSCD 北大核心 2018年第2期177-180,185,共5页
目的以代谢综合征为例,探讨不平衡数据对分类算法的影响,并运用重采样技术对数据进行平衡化处理,比较神经网络、决策树的分类性能。方法采用随机过采样、随机欠采样、混合采样和人工合成数据四种重采样技术,比较数据重采样前后及四种数... 目的以代谢综合征为例,探讨不平衡数据对分类算法的影响,并运用重采样技术对数据进行平衡化处理,比较神经网络、决策树的分类性能。方法采用随机过采样、随机欠采样、混合采样和人工合成数据四种重采样技术,比较数据重采样前后及四种数据重采样间使用神经网络、决策树分类的性能,以F-Measure,G-mean和AUC作为模型评价指标。结果(1)分类算法性能随不平衡数据集不平衡比例的加剧而降低;(2)四种重采样技术中随机过采样后作用于BP神经网络、C4.5决策树分类性能最大。结论分类性能随数据集中患病率的降低而下降。采用随机过采样提高了算法的分类性能。建议在应用分类算法对医学不平衡数据分类前,采用随机过采样技术以提高分类性能。 展开更多
关键词 代谢综合征 不平衡数据集 重采样技术 神经网络 决策树
下载PDF
基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例 被引量:7
14
作者 桂州 陈建国 王成彬 《桂林理工大学学报》 CAS 北大核心 2017年第4期587-593,共7页
基于PCA改进SMOTE算法,能实现不平衡数据集的均衡化,并以随机森林作为分类器,应用于地质数据进行分类与预测。因原始数据集中的噪声数据可能会引起插值后的数据分布形态的改变,故提出结合PCA算法与SMOTE算法,先进行除噪降维再进行数据插... 基于PCA改进SMOTE算法,能实现不平衡数据集的均衡化,并以随机森林作为分类器,应用于地质数据进行分类与预测。因原始数据集中的噪声数据可能会引起插值后的数据分布形态的改变,故提出结合PCA算法与SMOTE算法,先进行除噪降维再进行数据插值,改善不平衡数据集的分类性能,并对东天山化探样本数据进行实验,结果表明,新算法能较好地提高分类精度,为地质不平衡数据的分类与预测提供新的思路。 展开更多
关键词 主成分分析 SMOTE 随机森林 不平衡数据集 地球化学数据 除噪
下载PDF
基于不平衡数据集的软件缺陷预测 被引量:7
15
作者 张晓风 张德平 《计算机应用研究》 CSCD 北大核心 2017年第7期2027-2031,共5页
为了解决数据的不平衡性这一问题,提出一种利用分布函数合成新样本的过抽样和随机向下抽样相结合的算法。算法对降维后的主成分进行分布函数拟合,然后利用分布函数生成随机数,并对生成的随机数进行筛选,最后与随机向下抽样相结合。实验... 为了解决数据的不平衡性这一问题,提出一种利用分布函数合成新样本的过抽样和随机向下抽样相结合的算法。算法对降维后的主成分进行分布函数拟合,然后利用分布函数生成随机数,并对生成的随机数进行筛选,最后与随机向下抽样相结合。实验所用数据取自NASA MDP数据集,并与经典的SMOTE+向下抽样方法进行对比,从G-mean和F-measure值可以看出,前者的预测结果明显优于后者,预测精度更高。 展开更多
关键词 软件失效预测 不平衡数据 主成分分析 分类回归树
下载PDF
基于改进SMOTE算法的网络入侵检测研究
16
作者 王震 佟志勇 +1 位作者 彭美华 杨自恒 《黑龙江大学自然科学学报》 CAS 2024年第4期470-476,共7页
为了解决入侵检测领域中网络异常样本难以捕捉所导致网络数据正负样本不平衡的问题,提出了一种改进的人工少数类过采样法(Synthetic minority oversampling technique,SMOTE)算法,该算法增加了更多具有边界信息的样本,以提升少数样本的... 为了解决入侵检测领域中网络异常样本难以捕捉所导致网络数据正负样本不平衡的问题,提出了一种改进的人工少数类过采样法(Synthetic minority oversampling technique,SMOTE)算法,该算法增加了更多具有边界信息的样本,以提升少数样本的数量。通过对预处理后的少量数据进行过采样,实现数据平衡,将平衡后的数据输入机器模型以提高分类结果。在网络安全实验室-知识发现数据库(Network security laboratory-knowledge discovery in databases,NSL-KDD)数据集中使用了多种机器学习模型进行实验。结果表明,改进的SMOTE算法能够有效解决数据样本不平衡问题,相比于不做处理和传统SMOTE算法,具有较高的准确率、精确率、召回率和F1值(F1-score),此模型具有更快的收敛速度。 展开更多
关键词 入侵检测 不平衡数据集 人工少数类过采样法 机器学习
下载PDF
基于加权GraphSAGE和生成对抗网络的医保欺诈识别方法
17
作者 陈妍 张小威 +2 位作者 金赞 周文慧 孙玉姣 《系统工程理论与实践》 EI CSCD 北大核心 2024年第2期732-751,共20页
医保欺诈行为分析与识别是医疗保险基金监管中最为重要的工作,对保障医保基金安全与可持续发展有着非常重要的意义.为保证医保欺诈行为识别的准确度,需充分挖掘医保数据中的患者信息.然而,对于缺乏欺诈样本的不平衡医保数据集,目前常用... 医保欺诈行为分析与识别是医疗保险基金监管中最为重要的工作,对保障医保基金安全与可持续发展有着非常重要的意义.为保证医保欺诈行为识别的准确度,需充分挖掘医保数据中的患者信息.然而,对于缺乏欺诈样本的不平衡医保数据集,目前常用的医保欺诈识别模型的泛化能力不佳且性能下降.因此,本文提出了一种基于加权GraphSAGE和生成对抗网络的医保欺诈识别方法.该方法融合了患者就诊关系特征表示与基于加权GraphSAGE算法的患者特征提取,并结合生成对抗网络构建识别模型.实验证明,本方法大大提升了模型的识别性能.同时,我们将所提方法与元路径向量、图卷积神经网络、图注意力网络、多层图注意力网络和超图自适应聚类网络等先进主流识别模型对比发现,本文提出的识别方法在召回率、精确率、F1值和准确率等指标下表现也更好;在不同数据规模和不同正负样本比例下,模型性能稳定,有较好的泛化性. 展开更多
关键词 医保欺诈识别 加权GraphSAGE 患者就诊关系网 生成对抗网络 不平衡数据集
原文传递
基于改进级联算法的不平衡数据集分类检测算法
18
作者 吕文官 薛峰 《保定学院学报》 2024年第2期98-103,共6页
以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部... 以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部密度特征,利用时间编码挖掘数据的时序性特征,采用Apriori算法的强关联规则提取数据集特征;利用模糊层次聚类算法对支持向量机进行优化,实现数据类型的划分;利用改进的级联算法联合布谷鸟算法实现不平衡数据集分类检测.实验结果表明本方法的分类协方差低于0.15,检测准确率高于95%,检测时间低于2.2 ms,有效提升了不平衡数据集分类检测效果. 展开更多
关键词 卡尔曼滤波 改进级联算法 不平衡数据集 分类检测
下载PDF
一种基于混合采样的非均衡数据集分类算法 被引量:6
19
作者 张明 胡晓辉 吴嘉昕 《小型微型计算机系统》 CSCD 北大核心 2019年第6期1174-1179,共6页
在非均衡数据集中,针对使用单一的过采样或欠采样方法可能造成少数类样本过拟合或者丢失含有重要信息样本的问题.提出了一种新的基于混合采样的随机森林算法(USI).首先通过引进"变异系数"检测出样本集的稀疏域和密集域,然后... 在非均衡数据集中,针对使用单一的过采样或欠采样方法可能造成少数类样本过拟合或者丢失含有重要信息样本的问题.提出了一种新的基于混合采样的随机森林算法(USI).首先通过引进"变异系数"检测出样本集的稀疏域和密集域,然后对稀疏域中的少数类样本,提出了一种改进的过采样方法(USMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS),最后将平衡后的数据集送入随机森林分类器中进行训练.通过实验表明,该算法与传统算法相比,取得了更高的Gmean值,F-value值,具有更高的综合分类准确率. 展开更多
关键词 非均衡数据集 随机森林 过采样 欠采样
下载PDF
基于数据集扩充的即时软件缺陷预测方法
20
作者 杨帆 夏鸿崚 《南通大学学报(自然科学版)》 CAS 2024年第1期58-65,共8页
即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时... 即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时软件缺陷预测的性能,提出一种基于数据集扩充的即时软件缺陷预测(prediction based on data augmentation,PDA)方法。PDA方法包括特征拼接、样本生成、样本过滤和采样处理4个部分。增强后的数据集样本数量充足、样本质量高且消除了类不平衡问题。将提出的PDA方法与最新的即时软件缺陷预测方法(JIT-Fine)作对比,结果表明:在JIT-Defects4J数据集上,F_(1)指标提升了18.33%;在LLTC4J数据集上,F_(1)指标仍有3.67%的提升,验证了PDA的泛化能力。消融实验证明了所提方法的性能提升主要来源于数据集扩充和筛选机制。 展开更多
关键词 数据增强 深度学习 即时软件缺陷预测 样本生成 类不平衡问题
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部