期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于随机森林的产品垃圾评论识别 被引量:12
1
作者 何珑 《中文信息学报》 CSCD 北大核心 2015年第3期150-154,161,共6页
目前的产品垃圾评论识别方法只考虑评论特征的选取,忽略了评论数据集的不平衡性。因此该文提出基于随机森林的产品垃圾评论识别方法,即对样本中的大、小类有放回的重复抽取同样数量样本或者给大、小类总体样本赋予同样的权重以建立随机... 目前的产品垃圾评论识别方法只考虑评论特征的选取,忽略了评论数据集的不平衡性。因此该文提出基于随机森林的产品垃圾评论识别方法,即对样本中的大、小类有放回的重复抽取同样数量样本或者给大、小类总体样本赋予同样的权重以建立随机森林模型。通过对亚马逊数据集的实验结果表明,基于随机森林的产品评论识别方法优于其他基线方法。 展开更多
关键词 产品垃圾评论 不平衡问题 随机森林
下载PDF
不均衡问题中的特征选择新算法:Im-IG 被引量:9
2
作者 尤鸣宇 陈燕 李国正 《山东大学学报(工学版)》 CAS 北大核心 2010年第5期123-128,共6页
机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解... 机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalanced-information gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。 展开更多
关键词 Im-IG算法 不均衡问题 特征选择
原文传递
面向深度学习目标检测模型训练不平衡研究 被引量:4
3
作者 贺宇哲 何宁 +2 位作者 张人 梁煜博 刘晓晓 《计算机工程与应用》 CSCD 北大核心 2022年第5期172-178,共7页
目标检测作为计算机视觉的任务之一已经成为研究热点问题。目前,基于深度学习的目标检测算法层出不穷,但大多数情况下学者只关心它们的模型架构,而忽视了其训练过程。目标检测网络在训练过程中会存在明显的不平衡问题,导致模型检测性能... 目标检测作为计算机视觉的任务之一已经成为研究热点问题。目前,基于深度学习的目标检测算法层出不穷,但大多数情况下学者只关心它们的模型架构,而忽视了其训练过程。目标检测网络在训练过程中会存在明显的不平衡问题,导致模型检测性能降低,不能达到预期的最佳效果。不平衡问题主要包括两个层次,分别是特征图层次和目标函数层次。为了能够充分发挥目标检测模型架构的潜力,实现更好的训练过程,提出利用Balanced Feature Pyramid和Balanced L_(1) Loss两个模块,同时将它们加入到基于ResNet-50-FPN的Faster R-CNN中,目的是解决Faster R-CNN模型在训练过程中存在的特征图层次和目标函数层次的不平衡问题。通过在MSCOCO数据集上验证,实验结果表明平衡后的模型可达到AP是38.5%的结果,比原Faster R-CNN目标检测模型提高了1.1个百分点。 展开更多
关键词 目标检测 深度学习 不平衡问题 Faster R-CNN
下载PDF
机器学习在食品安全风险预警及抽检方案制订中的应用研究 被引量:3
4
作者 杨鸿雁 田英杰 《管理评论》 CSSCI 北大核心 2022年第11期315-323,共9页
“问题导向”的食品安全监督抽检方案对加强食品安全风险管理具有极重要作用。现有关于食品抽检数据的研究较少考虑到不合格样本极少的不均衡特性。本文基于新疆2015—2017年的食品监督抽检数据,将不均衡问题解决思路引入对食品安全风... “问题导向”的食品安全监督抽检方案对加强食品安全风险管理具有极重要作用。现有关于食品抽检数据的研究较少考虑到不合格样本极少的不均衡特性。本文基于新疆2015—2017年的食品监督抽检数据,将不均衡问题解决思路引入对食品安全风险预警模型的构建研究中,分别构建多种采样方法、代价敏感方法与SVM、随机森林的组合算法模型。经分析比较,在解决食品抽检不均衡数据的问题方面,采样方法逊于代价敏感方法。关于风险预警模型的构建,代价敏感+SVM的组合性能虽稍优于代价敏感+随机森林组合,但前者的运行时间远多于后者。实证结果表明,基于不均衡数据解决思路构建的组合算法模型能够有效提升食品安全风险预警效果,为制订科学合理的食品安全监督抽检方案、提升食品安全风险管理效能提供决策支持。 展开更多
关键词 监督抽检 不均衡问题 组合算法模型 风险预警
原文传递
基于代价敏感卷积神经网络的扣件缺陷检测算法 被引量:4
5
作者 侯云 范宏 +2 位作者 熊鹰 李立 李柏林 《中国铁道科学》 EI CAS CSCD 北大核心 2021年第1期26-31,共6页
为解决扣件数据集不平衡问题,引入代价敏感策略对卷积神经网络算法进行改进,并以此检测断裂、丢失的缺陷扣件。该算法借鉴AdaBoost算法的思路,在训练过程中对整体误差函数中每个样本分配不同的权重,并依据先前模型的错误率不断地加以调... 为解决扣件数据集不平衡问题,引入代价敏感策略对卷积神经网络算法进行改进,并以此检测断裂、丢失的缺陷扣件。该算法借鉴AdaBoost算法的思路,在训练过程中对整体误差函数中每个样本分配不同的权重,并依据先前模型的错误率不断地加以调整,使算法关注各个类别中的难学习样本,并对调整后的权重按类别进行归一化处理,以增大小类样本的关注度。分别在高速铁路无砟轨道和普速铁路有砟轨道2个扣件数据集上进行对照试验验证算法的有效性。引入G-mean作为评价指标平衡不同类别的召回率。结果表明:将改进后算法应用于高速铁路无砟和普速铁路有砟轨道的扣件数据集,改进后算法的G-mean值比原算法分别提高10%和25%以上;比传统的扣件识别方法分别提高13%和39%以上。 展开更多
关键词 扣件检测 卷积神经网络 代价敏感策略 不平衡问题
下载PDF
信息化背景下大学英语课堂生态系统的失衡与重构 被引量:2
6
作者 马莉 《黑河学院学报》 2019年第9期110-111,119,共3页
对信息化技术应用的优势与劣势进行分析,进一步研究信息化背景下大学英语课堂生态失衡问题,具体包括教学内容结构角度的失衡、教学内容呈现角度的失衡、教学评估角度的失衡及教学管理角度的失衡。提出高校英语教学生态系统的重构路径,... 对信息化技术应用的优势与劣势进行分析,进一步研究信息化背景下大学英语课堂生态失衡问题,具体包括教学内容结构角度的失衡、教学内容呈现角度的失衡、教学评估角度的失衡及教学管理角度的失衡。提出高校英语教学生态系统的重构路径,即引入适当的信息技术应用模式、引入信息技术充实教学资源、借助信息化平台提升教学评估的合理性及通过信息化技术的融入优化管理效果。 展开更多
关键词 信息化 大学英语 课堂生态系统 失衡问题 重构路径
下载PDF
恶意软件检测中解决样本不平衡问题的策略 被引量:1
7
作者 李瑞 李希敏 袁晓玲 《计算机系统应用》 2014年第6期17-21,共5页
互联网技术已经使人们的生活和工作发生了巨大的改变.然而,人们在享受互联网提供的便利的同时,也承受着恶意程序带来的威胁.在数字化时代的今天,与恶意程序的对抗已成为信息领域的焦点.由于恶意软件检测中的恶意软件样本难于获取,同时,... 互联网技术已经使人们的生活和工作发生了巨大的改变.然而,人们在享受互联网提供的便利的同时,也承受着恶意程序带来的威胁.在数字化时代的今天,与恶意程序的对抗已成为信息领域的焦点.由于恶意软件检测中的恶意软件样本难于获取,同时,标记大量的样本也需要花费大量的人力和物力,所获得的恶意软件样本远远少于正常软件样本,因此各类的训练样本之间存在分布不平衡的分类问题.为了解决该问题,本文提出采用SMOTE过采样方法,通过合理的增加少数类样本来解决样本不平衡问题. 展开更多
关键词 恶意软件 不平衡问题 SMOTE
下载PDF
基于逐步向前关联规则的产前CTG特征重要性与判读规则研究 被引量:1
8
作者 黄莉婷 蔡瑞初 +5 位作者 陈沁群 魏航 刘桂清 洪佳明 李丽 郝志峰 《中国数字医学》 2020年第3期66-69,共4页
目的:对产前胎儿监护中的胎心宫缩案例进行数据分析,验证和探究产前CTG特征对胎儿状态的重要性和判读规则。方法:数据可视化和斯皮尔曼等级相关系数分析产前胎心宫缩图数据案例及其特征重要性;针对病理状态类案例严重稀少问题,设计向前... 目的:对产前胎儿监护中的胎心宫缩案例进行数据分析,验证和探究产前CTG特征对胎儿状态的重要性和判读规则。方法:数据可视化和斯皮尔曼等级相关系数分析产前胎心宫缩图数据案例及其特征重要性;针对病理状态类案例严重稀少问题,设计向前逐步关联规则算法,对胎儿状态判读规则深入探索。结果:验证了胎儿监护指南中基线、加速、减速和变异在不同范围内胎儿状态判读的理论,补充了产前胎儿监护指南。结论:研究有利于临床循证医学研究和实现机器智能判读产前胎心宫缩图。 展开更多
关键词 产前胎儿监护 胎心宫缩图 向前逐步关联规则 不平衡类问题 斯皮尔曼等级相关分析
下载PDF
求解不平衡问题的单类凸包缩放技术研究
9
作者 刘雨晴 《信息与电脑》 2021年第1期27-29,共3页
基于尺度化凸包核化后的SK算法(KSK-S算法)具有运行效率快、分类精度高的优势,能够更加高效地处理非线性可分问题并且几何特征明显。因此本文将单类凸包缩放的SK算法运用在不平衡分类这一特定分类问题上。该算法只需要改变多数类凸包的... 基于尺度化凸包核化后的SK算法(KSK-S算法)具有运行效率快、分类精度高的优势,能够更加高效地处理非线性可分问题并且几何特征明显。因此本文将单类凸包缩放的SK算法运用在不平衡分类这一特定分类问题上。该算法只需要改变多数类凸包的尺度因子,就可以改变样本分布,达到正确分类的目的,并且该方法更加简单直观。 展开更多
关键词 SK算法 尺度化凸包 单类凸包缩放 不平衡分类问题
下载PDF
一种双重特征选择的不平衡复杂网络链接分类模型
10
作者 伍杰华 徐宏 《计算机应用研究》 CSCD 北大核心 2018年第1期88-92,共5页
基于有监督学习思想的链接分类是复杂网络分析领域的主要研究问题,该思想的核心在于把网络分成训练网络和目标网络,通过分类模型学习训练集合并对目标集合进行预测。然而在复杂网络链接分类这一场景中,正类别样本和负类别样本的分布是... 基于有监督学习思想的链接分类是复杂网络分析领域的主要研究问题,该思想的核心在于把网络分成训练网络和目标网络,通过分类模型学习训练集合并对目标集合进行预测。然而在复杂网络链接分类这一场景中,正类别样本和负类别样本的分布是不平衡的,特征之间会存在冗余信息,这一现象往往制约着分类性能的有效提升。针对该问题,提出了一种双重特征选择的分类模型。该方法借助Relief赋予特征权重并使用K-means聚类算法对不平衡样本进行采样,解决数据不平衡问题,然后引入极小冗余—极大相关(mRMR)衡量特征与特征之间和特征与类别之间的相关性,同时最大限度地减少冗余。在多个真实复杂网络数据集上的实验结果表明,相较于目前主流的链接分类模型,该方法能够明显地提升分类的性能。 展开更多
关键词 链接分类 RELIEF K-均值 特征选择 mRMR 不平衡问题
下载PDF
基于鲁棒不平衡凸包分类的锥齿轮箱故障诊断方法 被引量:2
11
作者 李鑫 杨宇 +1 位作者 程健 程军圣 《机械工程学报》 EI CAS CSCD 北大核心 2023年第8期32-41,共10页
实际工况下,拾取的锥齿轮箱振动信号中不可避免会掺杂噪声及异常点。同时,考虑到故障样本获取困难,提出一种鲁棒不平衡凸包分类(Robustness imbalanced convex hull-based classification,RICHC)模型用于锥齿轮箱故障智能诊断。RICHC根... 实际工况下,拾取的锥齿轮箱振动信号中不可避免会掺杂噪声及异常点。同时,考虑到故障样本获取困难,提出一种鲁棒不平衡凸包分类(Robustness imbalanced convex hull-based classification,RICHC)模型用于锥齿轮箱故障智能诊断。RICHC根据不同样本在类别分布估计中的作用,确定各样本的置信函数,降低异常值和含噪样本的权重,使凸包模型边界更加紧致,以提高模型的鲁棒性。同时,构建自适应模型缩放策略,使RICHC根据多数类和少数类间的动态不平衡因子,调整不同类别间凸包的缩放比例,得到更加准确的分类超平面,从而提升模型的不平衡数据处理能力。采用锥齿轮箱故障数据验证所提方法的有效性及适用性,试验结果表明:相较于其他算法,所提方法对噪声和异常值具有更强的抗干扰能力,且该方法具有更优异的类不平衡分类性能。 展开更多
关键词 凸包分类 鲁棒性 类不平衡问题 故障诊断 锥齿轮箱
原文传递
基于Boosting算法的C5.0决策树不平衡数据分类算法 被引量:2
12
作者 王植 张珏 《河南科学》 2023年第1期7-12,共6页
为了改进不平衡数据的分类性能,提出一种可自动确定迭代参数trail值的集成C5.0决策树算法.首先,算法引入boosting集成框架到C5.0决策树算法中,从而生成新的集成分类器;其次,算法使用网格搜索法在一定范围内自动确定trail参数的值.实验... 为了改进不平衡数据的分类性能,提出一种可自动确定迭代参数trail值的集成C5.0决策树算法.首先,算法引入boosting集成框架到C5.0决策树算法中,从而生成新的集成分类器;其次,算法使用网格搜索法在一定范围内自动确定trail参数的值.实验结果表明,该算法在不平衡数据上的分类性能指标G-mean和MCC上具有优势. 展开更多
关键词 类不平衡问题 集成算法 C5.0决策树算法 网格搜索算法
下载PDF
一种新的平衡化谱聚类方法
13
作者 苏扬 胡恩良 《云南师范大学学报(自然科学版)》 2023年第1期21-25,共5页
针对传统谱聚类算法在非平衡数据集上聚类效果不理想的问题,提出了一种平衡化谱聚类算法,该算法在传统谱聚类目标函数的基础上加入了对聚类隶属度矩阵的近似正交约束,从而得到新的聚类目标函数.实验结果表明,新算法可以缓解传统谱聚类... 针对传统谱聚类算法在非平衡数据集上聚类效果不理想的问题,提出了一种平衡化谱聚类算法,该算法在传统谱聚类目标函数的基础上加入了对聚类隶属度矩阵的近似正交约束,从而得到新的聚类目标函数.实验结果表明,新算法可以缓解传统谱聚类产生的均匀效应,提升了在非平衡数据集上的聚类纯度. 展开更多
关键词 谱聚类 类不平衡问题 正交约束 高斯-牛顿法 聚类纯度
下载PDF
基于一维卷积神经网络的蛋白质-ATP绑定位点预测 被引量:4
14
作者 张寓 於东军 《计算机应用》 CSCD 北大核心 2019年第11期3146-3150,共5页
为了提高预测腺嘌呤核苷三磷酸(ATP)绑定位点的准确率,提出了一种基于一维卷积神经网络(1D-CNN)的方法。首先,以蛋白质的序列信息为基础,融合位置特异性得分矩阵信息、二级结构信息和水溶性信息,使用随机下采样的方法消除数据不平衡的影... 为了提高预测腺嘌呤核苷三磷酸(ATP)绑定位点的准确率,提出了一种基于一维卷积神经网络(1D-CNN)的方法。首先,以蛋白质的序列信息为基础,融合位置特异性得分矩阵信息、二级结构信息和水溶性信息,使用随机下采样的方法消除数据不平衡的影响,再对缺失的特征进行再编码补齐,得到训练特征。训练一个1D-CNN来预测蛋白质-ATP绑定位点,优化网络结构,并且进行实验来对比所提方法和其他机器学习方法的优劣。实验结果展示了所提方法的有效性,并且该方法与传统支持向量机(SVM)相比在AUC指标上有部分的提升。 展开更多
关键词 蛋白质-ATP 卷积神经网络 数据不平衡问题 分类
下载PDF
基于MHA-GAN的EEG增强改善睡眠分期中类不平衡问题
15
作者 尹贺然 《网络新媒体技术》 2023年第6期28-35,共8页
针对睡眠分期中类别不平衡的问题,提出了一种基于多头注意力机制的生成对抗网络(MHA-GAN)来合成数据中的少数类别。通过在多个经典睡眠分期模型中进行实验对比,结果表明基于MHA-GAN的脑电(EEG)增强方法可以显著提高睡眠分期中少数类别... 针对睡眠分期中类别不平衡的问题,提出了一种基于多头注意力机制的生成对抗网络(MHA-GAN)来合成数据中的少数类别。通过在多个经典睡眠分期模型中进行实验对比,结果表明基于MHA-GAN的脑电(EEG)增强方法可以显著提高睡眠分期中少数类别的分类性能,尤其是在非快速眼动1期(N1),分类准确率提升率高达30.8%。进一步通过可视化对MHA-GAN模型产生的合成EEG样本与真实EEG样本在特征空间中的分布情况进行分析,可以看出前者中各类数据的聚集程度更高,这证明了基于GAN的EEG增强在睡眠分期中的潜力。本文提出的方法为提高睡眠分期的准确性提供了参考,有助于推进相关模型在睡眠障碍疾病诊断中的应用,并有机会推广到其他领域的研究中。 展开更多
关键词 生成对抗网络 多头注意力机制 卷积神经网络 睡眠分期 类不平衡问题 数据增强
下载PDF
基于簇内样本平均分类错误率的混合采样算法 被引量:3
16
作者 熊炫睿 陈高升 +3 位作者 熊炼 张媛 程占伟 付明凯 《小型微型计算机系统》 CSCD 北大核心 2021年第8期1683-1687,共5页
针对类别不平衡的数据分类效果差的问题,本文提出了一种基于簇内样本平均分类错误率的混合采样算法(SABER),该算法首先对少数类使用SM OTE算法增加样本数量,然后添加各类别的部分样本至平衡样本集中,并用平衡样本集训练一个初始的分类器... 针对类别不平衡的数据分类效果差的问题,本文提出了一种基于簇内样本平均分类错误率的混合采样算法(SABER),该算法首先对少数类使用SM OTE算法增加样本数量,然后添加各类别的部分样本至平衡样本集中,并用平衡样本集训练一个初始的分类器,然后进行多轮迭代,在每一轮迭代中执行:采用K-means算法对多数类剩余的还未用于训练分类器的样本进行聚类,根据分类器对各个簇的簇内样本平均分类错误率,提取出平均分类错误率最大的前几个簇各自的代表点,将其添加至平衡样本集中,同时不放回地随机提取与平衡样本集中新增的多数类样本数量基本相同的少数类样本,并将其添加至平衡样本集中,用平衡样本集重新训练分类器.实验结果表明,SABER算法可以提高对少数类样本的分类性能以及总体的分类性能. 展开更多
关键词 类别不平衡 混合采样 K-MEANS算法 SMOTE算法
下载PDF
核字典学习在软件缺陷预测中的应用 被引量:3
17
作者 王铁建 吴飞 荆晓远 《小型微型计算机系统》 CSCD 北大核心 2017年第7期1501-1505,共5页
提出一种基于核字典学习的软件缺陷预测方法,首先根据软件缺陷历史数据结构复杂、类不平衡的特点,利用核方法将软件缺陷历史数据映射到一个能代表原始数据分布的高维特征空间.然后在核空间中,通过学习得到一个核字典,利用这个核字典判... 提出一种基于核字典学习的软件缺陷预测方法,首先根据软件缺陷历史数据结构复杂、类不平衡的特点,利用核方法将软件缺陷历史数据映射到一个能代表原始数据分布的高维特征空间.然后在核空间中,通过学习得到一个核字典,利用这个核字典判定软件模块的属性,对软件模块进行缺陷预测.在核字典学习过程中,为了解决缺陷预测中的类不平衡问题,采用了一种核字典基选择策略,构造出一个类别平衡的核字典.在NASA数据集上的对比实验表明,核字典学习方法取得了较高的Fmeasure值和AUC值,有效地解决了缺陷预测中的类不平衡问题,取得了较好的预测效果. 展开更多
关键词 缺陷预测 核字典学习 类不平衡问题
下载PDF
配电三相负荷不平衡产生及影响线损的解决措施 被引量:3
18
作者 刘毅 《电子测试》 2018年第21期105-106,共2页
随着城市化进程的发展,各大城市都开始进行配电网络的建设以及改造,随着城镇农村电网改造的推进,低压电网的供电能力逐步得到增强,供给的电量稳定性和质量较以往有明显的进步和提升。而电网质量的提高也意味着线损率的下降,据统计,到目... 随着城市化进程的发展,各大城市都开始进行配电网络的建设以及改造,随着城镇农村电网改造的推进,低压电网的供电能力逐步得到增强,供给的电量稳定性和质量较以往有明显的进步和提升。而电网质量的提高也意味着线损率的下降,据统计,到目前为止,我国农村的线损率下降了百分之十三以上。虽然线损率有所下降,但是配电台区三相负荷不平衡问题仍然导致线损率居高不下。本文就当前配电三相负荷不平衡及线损的解决措施展开分析和讨论。 展开更多
关键词 配电网 负荷不平衡问题 线损 解决措施
下载PDF
离心-振动复合校准技术研究 被引量:2
19
作者 董雪明 王敏林 《计测技术》 2021年第4期49-58,共10页
复合校准技术是武器装备型号项目中使用的高精度惯性器件校准的核心技术,能够在实验室模拟惯性器件“真实”的使用环境。本文针对在离心-振动条件下的加速度计复合校准问题,从系统中存在的动不平衡问题出发,建立了离心-振动复合模型并... 复合校准技术是武器装备型号项目中使用的高精度惯性器件校准的核心技术,能够在实验室模拟惯性器件“真实”的使用环境。本文针对在离心-振动条件下的加速度计复合校准问题,从系统中存在的动不平衡问题出发,建立了离心-振动复合模型并讨论了在顺臂安装和垂直安装下受到的加速度大小,给出了整个校准系统的不确定度分析。最后基于离心-振动复合校准装置进行实验验证,证明了本文所设计的校准装置和校准方法能够模拟真实的校准环境,提高校准精度。 展开更多
关键词 振动台 离心-振动复合校准 不确定度分析 动不平衡问题
下载PDF
中韩贸易发展及其不平衡问题分析 被引量:1
20
作者 马小辉 《北方经贸》 2008年第1期27-29,共3页
自1992年中韩两国建立正式外交关系以来,两国的贸易关系进入快速发展轨道。双方贸易额迅速扩大,依赖程度提高。随着两国经贸往来的不断扩大,贸易不平衡问题在两国贸易关系中越来越突出,影响了中韩经贸交往的健康发展。为解决中韩经贸不... 自1992年中韩两国建立正式外交关系以来,两国的贸易关系进入快速发展轨道。双方贸易额迅速扩大,依赖程度提高。随着两国经贸往来的不断扩大,贸易不平衡问题在两国贸易关系中越来越突出,影响了中韩经贸交往的健康发展。为解决中韩经贸不平衡问题,韩方应取消降低对从中国进口产品的贸易壁垒式歧视性限制,加大对中国产品的进口;提高我国产品的质量,提高韩资企业对我国原材料和辅助材料的使用率;推动两国在投资领域全方位、多层次合作;加快双方进出口商品结构的调整,解决进出口统计的差异。 展开更多
关键词 中韩贸易 产业内贸易 贸易不平衡
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部