期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
核字典学习在软件缺陷预测中的应用 被引量:3
1
作者 王铁建 吴飞 荆晓远 《小型微型计算机系统》 CSCD 北大核心 2017年第7期1501-1505,共5页
提出一种基于核字典学习的软件缺陷预测方法,首先根据软件缺陷历史数据结构复杂、类不平衡的特点,利用核方法将软件缺陷历史数据映射到一个能代表原始数据分布的高维特征空间.然后在核空间中,通过学习得到一个核字典,利用这个核字典判... 提出一种基于核字典学习的软件缺陷预测方法,首先根据软件缺陷历史数据结构复杂、类不平衡的特点,利用核方法将软件缺陷历史数据映射到一个能代表原始数据分布的高维特征空间.然后在核空间中,通过学习得到一个核字典,利用这个核字典判定软件模块的属性,对软件模块进行缺陷预测.在核字典学习过程中,为了解决缺陷预测中的类不平衡问题,采用了一种核字典基选择策略,构造出一个类别平衡的核字典.在NASA数据集上的对比实验表明,核字典学习方法取得了较高的Fmeasure值和AUC值,有效地解决了缺陷预测中的类不平衡问题,取得了较好的预测效果. 展开更多
关键词 缺陷预测 核字典学习 类不平衡问题
下载PDF
基于Boosting算法的C5.0决策树不平衡数据分类算法 被引量:3
2
作者 王植 张珏 《河南科学》 2023年第1期7-12,共6页
为了改进不平衡数据的分类性能,提出一种可自动确定迭代参数trail值的集成C5.0决策树算法.首先,算法引入boosting集成框架到C5.0决策树算法中,从而生成新的集成分类器;其次,算法使用网格搜索法在一定范围内自动确定trail参数的值.实验... 为了改进不平衡数据的分类性能,提出一种可自动确定迭代参数trail值的集成C5.0决策树算法.首先,算法引入boosting集成框架到C5.0决策树算法中,从而生成新的集成分类器;其次,算法使用网格搜索法在一定范围内自动确定trail参数的值.实验结果表明,该算法在不平衡数据上的分类性能指标G-mean和MCC上具有优势. 展开更多
关键词 类不平衡问题 集成算法 C5.0决策树算法 网格搜索算法
下载PDF
基于簇内样本平均分类错误率的混合采样算法 被引量:3
3
作者 熊炫睿 陈高升 +3 位作者 熊炼 张媛 程占伟 付明凯 《小型微型计算机系统》 CSCD 北大核心 2021年第8期1683-1687,共5页
针对类别不平衡的数据分类效果差的问题,本文提出了一种基于簇内样本平均分类错误率的混合采样算法(SABER),该算法首先对少数类使用SM OTE算法增加样本数量,然后添加各类别的部分样本至平衡样本集中,并用平衡样本集训练一个初始的分类器... 针对类别不平衡的数据分类效果差的问题,本文提出了一种基于簇内样本平均分类错误率的混合采样算法(SABER),该算法首先对少数类使用SM OTE算法增加样本数量,然后添加各类别的部分样本至平衡样本集中,并用平衡样本集训练一个初始的分类器,然后进行多轮迭代,在每一轮迭代中执行:采用K-means算法对多数类剩余的还未用于训练分类器的样本进行聚类,根据分类器对各个簇的簇内样本平均分类错误率,提取出平均分类错误率最大的前几个簇各自的代表点,将其添加至平衡样本集中,同时不放回地随机提取与平衡样本集中新增的多数类样本数量基本相同的少数类样本,并将其添加至平衡样本集中,用平衡样本集重新训练分类器.实验结果表明,SABER算法可以提高对少数类样本的分类性能以及总体的分类性能. 展开更多
关键词 类别不平衡 混合采样 K-MEANS算法 SMOTE算法
下载PDF
基于鲁棒不平衡凸包分类的锥齿轮箱故障诊断方法 被引量:2
4
作者 李鑫 杨宇 +1 位作者 程健 程军圣 《机械工程学报》 EI CAS CSCD 北大核心 2023年第8期32-41,共10页
实际工况下,拾取的锥齿轮箱振动信号中不可避免会掺杂噪声及异常点。同时,考虑到故障样本获取困难,提出一种鲁棒不平衡凸包分类(Robustness imbalanced convex hull-based classification,RICHC)模型用于锥齿轮箱故障智能诊断。RICHC根... 实际工况下,拾取的锥齿轮箱振动信号中不可避免会掺杂噪声及异常点。同时,考虑到故障样本获取困难,提出一种鲁棒不平衡凸包分类(Robustness imbalanced convex hull-based classification,RICHC)模型用于锥齿轮箱故障智能诊断。RICHC根据不同样本在类别分布估计中的作用,确定各样本的置信函数,降低异常值和含噪样本的权重,使凸包模型边界更加紧致,以提高模型的鲁棒性。同时,构建自适应模型缩放策略,使RICHC根据多数类和少数类间的动态不平衡因子,调整不同类别间凸包的缩放比例,得到更加准确的分类超平面,从而提升模型的不平衡数据处理能力。采用锥齿轮箱故障数据验证所提方法的有效性及适用性,试验结果表明:相较于其他算法,所提方法对噪声和异常值具有更强的抗干扰能力,且该方法具有更优异的类不平衡分类性能。 展开更多
关键词 凸包分类 鲁棒性 类不平衡问题 故障诊断 锥齿轮箱
原文传递
一种基于深度学习目标检测的长时目标跟踪算法 被引量:2
5
作者 邵江南 葛洪伟 《智能系统学报》 CSCD 北大核心 2021年第3期433-441,共9页
针对长时目标跟踪所面临的目标被遮挡、出视野等常常会导致跟踪漂移或丢失的问题,基于MDNet提出一种深度长时目标跟踪算法(long-term object tracking based on MDNet,LT-MDNet)。首先,引入了一种改进的收缩损失函数,以解决模型训练时... 针对长时目标跟踪所面临的目标被遮挡、出视野等常常会导致跟踪漂移或丢失的问题,基于MDNet提出一种深度长时目标跟踪算法(long-term object tracking based on MDNet,LT-MDNet)。首先,引入了一种改进的收缩损失函数,以解决模型训练时正负样本不均衡的问题;其次,设计了一种高置信度保留样本池,对在线跟踪时的每一帧的有效并且置信度最高结果进行保留,并在池满时替换最低置信度的保留样本;最后,在模型检测到跟踪失败或连续跟踪帧数达到特定阈值时,利用保留样本池进行在线训练更新模型,从而使模型在应对长时跟踪时保持鲁棒和高效。实验结果表明,LT-MDNet在跟踪精度和成功率上都展现了极强的竞争力,并且在目标被遮挡、出视野等情况下保持了优越的跟踪性能和可靠性。 展开更多
关键词 目标跟踪 长时跟踪 神经网络 卷积特征 类不均衡问题 损失函数 特征提取 深度学习
下载PDF
一种基于混合策略的孤立点检测方法 被引量:1
6
作者 田江 顾宏 《系统工程与电子技术》 EI CSCD 北大核心 2010年第8期1775-1779,共5页
孤立点检测面临数据不平衡和代价敏感两个问题。利用改进的一类支持向量机对数据集进行重构,并结合代价敏感支持向量机提出了一种混合策略检测方法。首先在传统的一类支持向量机优化过程中设定不同权重,通过刻画超平面消除部分正常样本... 孤立点检测面临数据不平衡和代价敏感两个问题。利用改进的一类支持向量机对数据集进行重构,并结合代价敏感支持向量机提出了一种混合策略检测方法。首先在传统的一类支持向量机优化过程中设定不同权重,通过刻画超平面消除部分正常样本进而平衡数据集;重构过程保留了孤立点信息,同时能克服数据混叠现象。通过代价敏感支持向量机对样本进行训练,利用受试者工作特征分析作为评判依据搜索最优参数,进而调节阈值获得孤立点检测模型。仿真实验结果表明,本文方法能提高检测精度,同时有效降低总的误分类代价。 展开更多
关键词 代价敏感学习 孤立点检测 不平衡分类 支持向量机 接收机工作特性分析
下载PDF
半监督平衡化模糊C-means聚类 被引量:2
7
作者 朱乐为 胡恩良 《云南民族大学学报(自然科学版)》 CAS 2019年第3期278-284,共7页
传统模糊C-means聚类(FCM,fuzzy C-means)在处理非平衡数据集时,由于相异类中所含样本数量差异较大,导致类间权值不平衡和"均匀效应",从而易产生聚类错误.另外,FCM属于无监督方法,无法更好地利用已知的部分类标记信息引导聚类... 传统模糊C-means聚类(FCM,fuzzy C-means)在处理非平衡数据集时,由于相异类中所含样本数量差异较大,导致类间权值不平衡和"均匀效应",从而易产生聚类错误.另外,FCM属于无监督方法,无法更好地利用已知的部分类标记信息引导聚类.为解决这两方面问题,提出一种半监督的平衡化模糊C-means聚类(SBFCM,semi-supervised balanced fuzzy C-means)方法.SBFCM在FCM目标函数的基础上加入了对聚类模糊隶属度矩阵的近似正交约束和半监督约束,从而得到了新的聚类目标函数.实验结果表明,相比于FCM,SBFCM能有效缓解由"均匀效应"导致的聚类错误现象,并能有效地利用部分先验类标记信息,从而可获得更好的聚类效果. 展开更多
关键词 模糊C-means 类不平衡问题 正交约束 半监督信息 聚类纯度
下载PDF
一种新的平衡化谱聚类方法
8
作者 苏扬 胡恩良 《云南师范大学学报(自然科学版)》 2023年第1期21-25,共5页
针对传统谱聚类算法在非平衡数据集上聚类效果不理想的问题,提出了一种平衡化谱聚类算法,该算法在传统谱聚类目标函数的基础上加入了对聚类隶属度矩阵的近似正交约束,从而得到新的聚类目标函数.实验结果表明,新算法可以缓解传统谱聚类... 针对传统谱聚类算法在非平衡数据集上聚类效果不理想的问题,提出了一种平衡化谱聚类算法,该算法在传统谱聚类目标函数的基础上加入了对聚类隶属度矩阵的近似正交约束,从而得到新的聚类目标函数.实验结果表明,新算法可以缓解传统谱聚类产生的均匀效应,提升了在非平衡数据集上的聚类纯度. 展开更多
关键词 谱聚类 类不平衡问题 正交约束 高斯-牛顿法 聚类纯度
下载PDF
基于MHA-GAN的EEG增强改善睡眠分期中类不平衡问题
9
作者 尹贺然 《网络新媒体技术》 2023年第6期28-35,共8页
针对睡眠分期中类别不平衡的问题,提出了一种基于多头注意力机制的生成对抗网络(MHA-GAN)来合成数据中的少数类别。通过在多个经典睡眠分期模型中进行实验对比,结果表明基于MHA-GAN的脑电(EEG)增强方法可以显著提高睡眠分期中少数类别... 针对睡眠分期中类别不平衡的问题,提出了一种基于多头注意力机制的生成对抗网络(MHA-GAN)来合成数据中的少数类别。通过在多个经典睡眠分期模型中进行实验对比,结果表明基于MHA-GAN的脑电(EEG)增强方法可以显著提高睡眠分期中少数类别的分类性能,尤其是在非快速眼动1期(N1),分类准确率提升率高达30.8%。进一步通过可视化对MHA-GAN模型产生的合成EEG样本与真实EEG样本在特征空间中的分布情况进行分析,可以看出前者中各类数据的聚集程度更高,这证明了基于GAN的EEG增强在睡眠分期中的潜力。本文提出的方法为提高睡眠分期的准确性提供了参考,有助于推进相关模型在睡眠障碍疾病诊断中的应用,并有机会推广到其他领域的研究中。 展开更多
关键词 生成对抗网络 多头注意力机制 卷积神经网络 睡眠分期 类不平衡问题 数据增强
下载PDF
基于改进朴素贝叶斯法的手机垃圾短信过滤算法研究
10
作者 田建学 张珏 《河南科学》 2018年第1期17-21,共5页
在手机短信的使用中,垃圾短信的数量、特征及内容均在不断地变化.传统的基于固定模式的检测方法,比如:黑白名单和基于内容检测的方法都会出现因信息更新不及时而导致的性能降低的情况.因此提出一种基于改进的朴素贝叶斯的方法以提高垃... 在手机短信的使用中,垃圾短信的数量、特征及内容均在不断地变化.传统的基于固定模式的检测方法,比如:黑白名单和基于内容检测的方法都会出现因信息更新不及时而导致的性能降低的情况.因此提出一种基于改进的朴素贝叶斯的方法以提高垃圾短信分类的性能.首先利用频繁出现的单词创建数据特征,然后找出垃圾短信和非垃圾短信的差异特征词来构建分类关键词,最后应用改进的朴素贝叶斯算法进行分类.实验结果表明,新算法可以有效地提高分类精度. 展开更多
关键词 垃圾短信 数据不均衡 频繁项特征 朴素贝叶斯
下载PDF
基于网络社区结构的训练集非均衡程度度量方法
11
作者 岳训 迟忠先 +2 位作者 葛平俱 莫宏伟 郝艳友 《小型微型计算机系统》 CSCD 北大核心 2007年第8期1427-1433,共7页
在机器学习和数据挖掘实际应用中,针对分类训练集的选取,通常要求训练集中每一类所包含的数据在数量上要尽可能的"均衡".本文以非均衡训练集与分类学习效率关系研究为依据,给出了"均匀度"和"内聚度"两种... 在机器学习和数据挖掘实际应用中,针对分类训练集的选取,通常要求训练集中每一类所包含的数据在数量上要尽可能的"均衡".本文以非均衡训练集与分类学习效率关系研究为依据,给出了"均匀度"和"内聚度"两种类型的训练集非均衡程度因素的概念;"均匀度"是用来描述训练集类之间(between-class)的非均衡程度,其含义是指训练集不同类之间数据数量的非均衡程度;"内聚度"是用来描述训练集类内部(within-class)的非均衡程度,指训练集中不同类在空间分布上的线性相关程度,通过训练集数据之间的相关程度,构建出训练集的网络结构,运用一种能体现训练集内聚性的网络拓扑结构的指标-网络社区结构作为度量,提出了基于网络社区模块结构的非均衡训练集度量方法,并指出了高均匀度和高内聚度是选取"优良"分类训练集的关键因素.通过对UCI标准训练集的实验,结果验证本方法作为选取训练集标准的有效性. 展开更多
关键词 训练集非均衡问题 复杂网络 网络社区结构 均匀度 内聚度
下载PDF
基于近邻决策域内局部分布密度的改进KNN算法 被引量:2
12
作者 史佳 董昱 +2 位作者 魏宏杰 景晓春 史蕾 《科学技术与工程》 北大核心 2014年第30期57-61,共5页
经典KNN算法和以往的基于密度的改进KNN算法都缺乏对训练样本数据分布的有效性描述,因此会间接影响到分类结果。提出一种基于测试样本近邻决策域内局部密度的改进KNN算法,通过计算各不同类别在近邻决策域内的局部密度,并同时考虑到类间... 经典KNN算法和以往的基于密度的改进KNN算法都缺乏对训练样本数据分布的有效性描述,因此会间接影响到分类结果。提出一种基于测试样本近邻决策域内局部密度的改进KNN算法,通过计算各不同类别在近邻决策域内的局部密度,并同时考虑到类间偏斜度的存在,得到各类密度补偿系数和倾斜度平衡因子,从而达到削弱高数量、大密度类别,增强小数量、低密度类别的目的。在UCI数据集上的实验结果表明,该改进算法在保持经典KNN算法分类准确度的基础上,能够提高分类的召回率和F1-measure指标。 展开更多
关键词 KNN 局部密度 决策域 类偏斜
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部