期刊文献+
共找到187篇文章
< 1 2 10 >
每页显示 20 50 100
基于K折交叉验证的选择性集成分类算法 被引量:54
1
作者 胡局新 张功杰 《科技通报》 北大核心 2013年第12期115-117,共3页
针对传统选择性集成方法确定个体分类器权重参数不准确、计算复杂度较高的不足,提出了一种基于K折交叉验证的选择性集成分类算法。该算法首先采用集成学习思想训练一定数目的分类器,然后对每一个分类器设定权重参数初值,并利用交叉验证... 针对传统选择性集成方法确定个体分类器权重参数不准确、计算复杂度较高的不足,提出了一种基于K折交叉验证的选择性集成分类算法。该算法首先采用集成学习思想训练一定数目的分类器,然后对每一个分类器设定权重参数初值,并利用交叉验证思想确定对应最大平均分类准确率的参数作为最终的个体分类器的权重因子,最后将权重小于某个预设阈值的分类器剔除,完成选择性集成学习。由于交叉验证方法可以较快并且较为精确地进行权重参数的确定,所以本算法可以有效地提高选择性集成方法的分类性能。在UCI标准数据集上的仿真实验充分证明了本算法的有效性。 展开更多
关键词 选择性集成 交叉验证 分类器 权重参数
下载PDF
用于电力系统暂态稳定预测的支持向量机组合分类器及其可信度评价 被引量:28
2
作者 周艳真 吴俊勇 +2 位作者 于之虹 冀鲁豫 郝亮亮 《电网技术》 EI CSCD 北大核心 2017年第4期1188-1196,共9页
目前,利用数据挖掘方法进行电力系统暂态稳定分析的研究,所用数据集普遍存在失稳样本少的样本不均衡问题,且挖掘模型的参数选择困难,缺乏对预测结果可信度进行评价。针对以上问题,文章提出用于暂稳预测的支持向量机(support vector mach... 目前,利用数据挖掘方法进行电力系统暂态稳定分析的研究,所用数据集普遍存在失稳样本少的样本不均衡问题,且挖掘模型的参数选择困难,缺乏对预测结果可信度进行评价。针对以上问题,文章提出用于暂稳预测的支持向量机(support vector machine,SVM)组合分类器及其可信度评价方法。首先采用改进bootstrap抽样得到多个类别均衡的数据集,利用随机特征子空间技术进一步压缩数据集;然后用压缩后的数据训练得到多个SVM分类器,各SVM的参数在经验范围内随机选取;最后,通过综合多个SVM的概率输出,得到组合分类器的预测结果,并对结果可信度进行评价。通过算例分析表明,改进Bootstrap算法能够明显减少对失稳样本的漏判,所提出的SVM组合分类器具有较高的预测准确度和可信度。 展开更多
关键词 暂态稳定预测 支持向量机 改进Bootstrap抽样 组合分类器 不均衡样本 可信度评价
下载PDF
基于随机化属性选择和邻域覆盖约简的集成学习 被引量:26
3
作者 朱鹏飞 胡清华 于达仁 《电子学报》 EI CAS CSCD 北大核心 2012年第2期273-279,共7页
提高分类模型的分类精度和可靠性是分类建模追求的目标.针对目前规则学习方法应用于分类时稳定性差以及分类精度低的问题,本文通过随机化邻域属性约简,搜索一组分类精度较高的属性子集,在不同的属性子集上采用邻域覆盖约简方法学习分类... 提高分类模型的分类精度和可靠性是分类建模追求的目标.针对目前规则学习方法应用于分类时稳定性差以及分类精度低的问题,本文通过随机化邻域属性约简,搜索一组分类精度较高的属性子集,在不同的属性子集上采用邻域覆盖约简方法学习分类规则,得到多个规则集.最后通过简单投票融合不同规则集上的分类结果获得对象的类别.实验表明,基于随机化邻域约简的集成学习方法分类性能优于或与其它相关的分类器相当,并且在噪声扰动下具有更强的鲁棒性. 展开更多
关键词 邻域 随机约简 集成学习 规则学习 分类器
下载PDF
基于深层特征和集成分类器的微博谣言检测研究 被引量:23
4
作者 毛二松 陈刚 +1 位作者 刘欣 王波 《计算机应用研究》 CSCD 北大核心 2016年第11期3369-3373,共5页
微博中存在着大量的虚假信息甚至谣言,微博谣言的广泛传播影响社会稳定,损害个人和国家利益。为有效检测微博谣言,提出了一种基于深层特征和集成分类器的微博谣言检测方法。首先对微博情感倾向性、微博传播过程和微博用户历史信息进行... 微博中存在着大量的虚假信息甚至谣言,微博谣言的广泛传播影响社会稳定,损害个人和国家利益。为有效检测微博谣言,提出了一种基于深层特征和集成分类器的微博谣言检测方法。首先对微博情感倾向性、微博传播过程和微博用户历史信息进行特征提取得到深层分类特征,然后利用分类特征训练集成分类器;最后利用集成分类器对微博谣言进行检测。实验结果表明,提出的基于深层特征和集成分类器的方法能够有效提高微博谣言检测的性能。 展开更多
关键词 微博 谣言检测 深层特征 集成分类器
下载PDF
基于半监督学习的数据流集成分类算法 被引量:18
5
作者 徐文华 覃征 常扬 《模式识别与人工智能》 EI CSCD 北大核心 2012年第2期292-299,共8页
已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性.针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集... 已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性.针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类.实验结果表明,使用同样数量的已标记训练数据,SEClass算法与最新的有监督集成分类算法相比,其准确率平均高5.33%.且运算时间随属性维度和类标签数量的增加呈线性增长,能够适用于高维、高速数据流分类问题. 展开更多
关键词 属性权值 概念漂移 集成分类器 同质性 K均值聚类 半监督学习 数据流分类
原文传递
基于信息熵差异性度量的数据流增量集成分类算法 被引量:17
6
作者 琚春华 邹江波 《电信科学》 北大核心 2015年第2期86-96,共11页
对分类器之间的差异性进行了研究,提出了一种基于信息熵差异性度量的增量集成分类算法,将信息熵差异性度量方法融入到基分类器选择过程中,通过对训练数据集的基分类结果的信息熵差异度计算,采用循环迭代优化的选择方法,以熵差异性最优... 对分类器之间的差异性进行了研究,提出了一种基于信息熵差异性度量的增量集成分类算法,将信息熵差异性度量方法融入到基分类器选择过程中,通过对训练数据集的基分类结果的信息熵差异度计算,采用循环迭代优化的选择方法,以熵差异性最优化为约束目标,动态调整基分类器个数,实现了分类准确稳定,减少了系统开销。通过实验比对,证明了算法在数据流处理时比其他算法具有更小的开销和较强的适应性。 展开更多
关键词 集成分类器 差异性度量 信息熵 增量集成 数据流
下载PDF
基于随机森林和欠采样集成的垃圾网页检测 被引量:17
7
作者 卢晓勇 陈木生 《计算机应用》 CSCD 北大核心 2016年第3期731-734,共4页
为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练... 为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK-2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、ROC曲线下面积(AUC)等指标提高至少14%,13%和11%。与Web spam challenge 2007优胜团队的竞赛结果相比,该集成分类器算法在F1测度上提高至少1%,在AUC上达到最优结果。 展开更多
关键词 垃圾网页检测 随机森林 欠采样 集成分类器 机器学习
下载PDF
基于集成学习的高压直流输电系统故障诊断 被引量:11
8
作者 李强 陈潜 +4 位作者 武霁阳 彭光强 黄雄辉 李子由 杨博 《电力系统保护与控制》 EI CSCD 北大核心 2023年第16期168-178,共11页
以某西南电网变电站出现的4种故障的实测数据作为数据集,针对高压直流输电(high voltage direct-current,HVDC)系统的故障诊断设计出一种基于集成学习(ensemble learning, EM)的故障诊断方法,显著提升了故障诊断的速度、精度和鲁棒性。... 以某西南电网变电站出现的4种故障的实测数据作为数据集,针对高压直流输电(high voltage direct-current,HVDC)系统的故障诊断设计出一种基于集成学习(ensemble learning, EM)的故障诊断方法,显著提升了故障诊断的速度、精度和鲁棒性。首先,对4类故障数据进行数据预处理,同时对故障数据的特征进行提取并完成训练,使用故障数据标签对故障数据集进行均分权重。然后,计算当前弱分类器对带权重数据集的分类误差,并计算当前分类器在强分类器中的权重。最后,更新训练样本权值的分布得到强分类器,根据训练好的模型对不同数据集下的故障类型进行辨识实验。通过与BP神经网络故障诊断模型对比,所提出的方法在多组测试中可以达到89%以上的诊断准确率,错误率较低并且鲁棒性强,有利于HVDC系统的故障识别和快速诊断。 展开更多
关键词 高压直流输电系统 故障诊断 集成学习 分类器
下载PDF
基于蚁群算法优化随机森林模型的汽车保险欺诈识别研究 被引量:14
9
作者 闫春 李亚琪 孙海棠 《保险研究》 CSSCI 北大核心 2017年第6期114-127,共14页
汽车保险欺诈在全球范围内逐步蔓延,车险欺诈识别越来越受到社会关注。本文针对实际汽车保险索赔数据中样本数量大且不平衡的特点,提出了平衡随机森林和蚁群结合的组合分类器。首先,对高维、不平衡的车险索赔数据集进行特征选择与分类,... 汽车保险欺诈在全球范围内逐步蔓延,车险欺诈识别越来越受到社会关注。本文针对实际汽车保险索赔数据中样本数量大且不平衡的特点,提出了平衡随机森林和蚁群结合的组合分类器。首先,对高维、不平衡的车险索赔数据集进行特征选择与分类,将随机森林的特征重要性评价得分和数据的统计检验得分作为启发式信息,利用蚁群算法进行智能搜索,把随机森林的分类精度反馈给蚁群进行信息素的实时更新,挖掘出判别车险欺诈的特征组合。然后将基于蚁群优化算法的平衡随机森林模型应用到汽车保险欺诈识别中。研究结果表明:基于蚁群优化随机森林算法的汽车保险欺诈识别模型能够更好地对车险索赔数据进行分类预测,挖掘车险欺诈规律,具有更好的精确度和稳健性。 展开更多
关键词 汽车保险欺诈 平衡随机森林 蚁群优化算法 启发式信息
原文传递
AdaBoost的多样性分析及改进 被引量:13
10
作者 王玲娣 徐华 《计算机应用》 CSCD 北大核心 2018年第3期650-654,660,共6页
针对AdaBoost算法下弱分类器间的多样性如何度量问题以及AdaBoost的过适应问题,在分析并研究了4种多样性度量与AdaBoost算法的分类精度关系的基础上,提出一种基于双误度量改进的AdaBoost方法。首先,选择Q统计、相关系数、不一致度量、... 针对AdaBoost算法下弱分类器间的多样性如何度量问题以及AdaBoost的过适应问题,在分析并研究了4种多样性度量与AdaBoost算法的分类精度关系的基础上,提出一种基于双误度量改进的AdaBoost方法。首先,选择Q统计、相关系数、不一致度量、双误度量在UCI数据集上进行实验。然后,利用皮尔逊相关系数定量计算多样性与测试误差的相关性,发现在迭代后期阶段,它们都趋于一个稳定的值;其中双误度量在不同数据集上的变化模式固定,它在前期阶段不断增加,在迭代后期基本上不变,趋于稳定。最后,利用双误度量改进AdaBoost的弱分类器的选择策略。实验结果表明,与其他常用集成方法相比,改进后的AdaBoost算法的测试误差平均降低1.5个百分点,最高可降低4.8个百分点。因此,该算法可以进一步提高分类性能。 展开更多
关键词 多样性 ADABOOST 集成学习 双误度量 弱分类器
下载PDF
一种面向不平衡数据分类的组合剪枝方法 被引量:12
11
作者 张银峰 郭华平 +1 位作者 职为梅 范明 《计算机工程》 CAS CSCD 2014年第6期157-161,165,共6页
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器... 传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。 展开更多
关键词 不平衡数据集 组合剪枝 剪枝集 评估指标 基分类器
下载PDF
一种改进的旋转森林分类算法 被引量:12
12
作者 韩敏 刘贲 《电子与信息学报》 EI CSCD 北大核心 2013年第12期2896-2900,共5页
随着信息技术的发展,人们获取的数据量越来越大,数据类型也趋于复杂,如何更好地处理这些数据,以取得好的分类结果,是一个挑战性的工作。该文提出一种将旋转森林(ROtation Forest,ROF)算法与极限学习机(Extreme Learning Machine,ELM)神... 随着信息技术的发展,人们获取的数据量越来越大,数据类型也趋于复杂,如何更好地处理这些数据,以取得好的分类结果,是一个挑战性的工作。该文提出一种将旋转森林(ROtation Forest,ROF)算法与极限学习机(Extreme Learning Machine,ELM)神经网络相结合的混合算法(ROF-ELM),在改善原始旋转森林算法中存在的过拟合现象的同时提高算法的分类精度。在基于UCI数据集以及实际遥感影像分类的实验仿真中,相比传统的集成分类算法,ROF-ELM提高了分类精度,同时具有更强的稳定性与泛化性能。 展开更多
关键词 特征提取 旋转森林 极限学习机 集成分类器
下载PDF
基于分组提升集成的跨领域文本情感分类 被引量:12
13
作者 赵传君 王素格 +1 位作者 李德玉 李欣 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期629-638,共10页
针对目标领域带标签数据偏少的问题,综合运用半监督学习、BootStrapping、数据分组、AdaBoost、集成学习等策略与技术,提出了一种基于分组提升集成的跨领域文本情感分类方法.该方法首先利用少量人工标注的目标领域数据,基于合成过抽样... 针对目标领域带标签数据偏少的问题,综合运用半监督学习、BootStrapping、数据分组、AdaBoost、集成学习等策略与技术,提出了一种基于分组提升集成的跨领域文本情感分类方法.该方法首先利用少量人工标注的目标领域数据,基于合成过抽样技术产生一定数量的虚拟数据.在此基础上,采用BootStrapping方法获得更多目标领域高可信度的带标签数据.在分类器的构建方面,首先将源领域的带标签数据等量分割,并分别与目标领域带标签数据组合,在每个组合数据块上运用AdaBoost方法提升地训练多个分类器,并将这些分类器线性地集成为一个分类器.在亚马逊购物网站4个领域的情感数据集上的实验表明,基于分组提升集成的跨领域文本情感分类方法一定程度上提高了跨领域文本情感分类的精度. 展开更多
关键词 情感分类 跨领域 合成过抽样技术 分组提升 集成分类器
下载PDF
基于信息熵的数据流自适应集成分类算法 被引量:10
14
作者 孙艳歌 王志海 +1 位作者 原继东 白洋 《中国科学技术大学学报》 CAS CSCD 北大核心 2017年第7期575-582,共8页
数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen... 数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen-Shannon散度度量相邻两个窗口间数据分布的距离,不仅能检测出不同类型的概念漂移,且能有效地发现重现的概念;采用分类器池机制来保存历史概念,从而实现对概念的重用.将所提出的算法与几种经典的学习算法在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明,所提出的算法在平均分类准确率上具有明显的优势,比其他集成算法消耗更少的时间,适合多种类型概念漂移的环境,并具有较高的抗噪性. 展开更多
关键词 数据流 概念漂移 集成分类器 信息熵 重复概念
下载PDF
基于集成学习和分层结构的多分类算法 被引量:9
15
作者 邹权 宋莉 +2 位作者 陈文强 曾建沧 林琛 《模式识别与人工智能》 EI CSCD 北大核心 2015年第9期781-787,共7页
分类是数据挖掘、模式识别等领域的重要研究内容.文中提出基于集成学习和分层结构的多分类算法.首先依据问题的类别层分解问题,定义层次分类器的分层结构,然后在分层结构的基础上通过集成学习方法集成多个弱分类器以构成分类过程.在CCDM... 分类是数据挖掘、模式识别等领域的重要研究内容.文中提出基于集成学习和分层结构的多分类算法.首先依据问题的类别层分解问题,定义层次分类器的分层结构,然后在分层结构的基础上通过集成学习方法集成多个弱分类器以构成分类过程.在CCDM 2014数据挖掘竞赛中,文中算法在平均精度和F1-score等多项指标上均取得最高成绩,证明该算法在分类问题上的可行性. 展开更多
关键词 多分类 集成学习 层次分类器
下载PDF
基于自适应随机森林的数据流分类算法 被引量:9
16
作者 张馨予 安建成 曹锐 《计算机工程与科学》 CSCD 北大核心 2020年第3期543-549,共7页
自适应随机森林分类器在每个基础分类器上分别设置了警告探测器和漂移探测器,实例训练时常常会同时触发多个警告探测器,引起多棵背景树同步训练,使得运行所需的内存大、时间长。针对此问题,提出了一种改进的自适应随机森林集成分类算法... 自适应随机森林分类器在每个基础分类器上分别设置了警告探测器和漂移探测器,实例训练时常常会同时触发多个警告探测器,引起多棵背景树同步训练,使得运行所需的内存大、时间长。针对此问题,提出了一种改进的自适应随机森林集成分类算法,将概念漂移探测器设置在集成学习器端,移除各基础树端的漂移探测器,并根据集成器预测准确率确定需要训练的背景树的数量。用改进后的算法对较平衡的数据流进行分类,在保证分类性能的前提下,与改进前的算法相比,运行时间有所降低,消耗内存有所减少,能更快适应数据流中出现的概念漂移。 展开更多
关键词 数据流 概念漂移 随机森林 漂移探测器 集成分类器
下载PDF
优化的支持向量机集成分类器在非平衡数据集分类中的应用 被引量:9
17
作者 章少平 梁雪春 《计算机应用》 CSCD 北大核心 2015年第5期1306-1309,共4页
传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降。对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应... 传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降。对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应的SVM模型并用复合形算法优化模型参数,最后利用优化的参数并行生成SVM集成分类器模型,采用投票机制得到分类结果。对5组UCI标准数据集进行实验,结果表明采用优化的SVM集成分类器模型较SVM模型、优化的SVM模型等分类精度有了明显的提升,同时验证了不同的boot Num取值对分类器性能效果的影响。 展开更多
关键词 非平衡数据 分类算法 支持向量机 集成分类器
下载PDF
基于随机森林算法的网络流量分类方法 被引量:9
18
作者 赵小欢 夏靖波 李明辉 《中国电子科学研究院学报》 2013年第2期184-190,共7页
精确的网络流量分类是实现互联网可控可管的关键,传统的单一分类算法需要构建基于特定假设的某种模型,算法对于待分类数据的分布要求高,不能满足复杂多变的网络流量的分类要求。基于此,采用多决策树组合的随机森林算法实现网络流量分类... 精确的网络流量分类是实现互联网可控可管的关键,传统的单一分类算法需要构建基于特定假设的某种模型,算法对于待分类数据的分布要求高,不能满足复杂多变的网络流量的分类要求。基于此,采用多决策树组合的随机森林算法实现网络流量分类。通过实际网络流量数据实验表明,在各种情况下,随机森林算法都能显著改善网络流量特别是小比例样本的分类效果,算法降低了单一算法过于依赖特定假设模型的要求,对于待分类样本的分布要求低,随机森林算法具有良好的分类效果和鲁棒性。 展开更多
关键词 流量分类 流量特征选择 组合分类器 随机森林算法
下载PDF
利用0-1矩阵分解集成的极化SAR图像分类 被引量:8
19
作者 陈博 王爽 +3 位作者 焦李成 刘芳 毛莎莎 张爽 《电子与信息学报》 EI CSCD 北大核心 2015年第6期1495-1501,共7页
全极化合成孔径雷达(Pol SAR)图像蕴含更丰富的散射信息,具有更多的可用特征。如何使用这些特征是极化SAR图像分类中非常重要的一步,但是目前尚未对此提出非常明确的准则。为了能够有效地解决上述问题,该文提出一种基于特征加权集成的极... 全极化合成孔径雷达(Pol SAR)图像蕴含更丰富的散射信息,具有更多的可用特征。如何使用这些特征是极化SAR图像分类中非常重要的一步,但是目前尚未对此提出非常明确的准则。为了能够有效地解决上述问题,该文提出一种基于特征加权集成的极化SAR图像分类算法。该算法采用0-1矩阵分解集成方法对包括不同特征的数据集进行学习获得相应加权系数,并通过对每个特征集获得的预测结果进行加权集成来提高极化SAR图像分类性能。首先,输入极化SAR数据,获得极化特征作为原始特征集,并对其进行随机抽取获得不同的特征子集;然后,使用0-1矩阵集成算法得到每个特征值相对应的加权系数;最后,通过对各个特征子集的预测结果进行集成得到最终极化SAR图像分类结果。实测L波段和C波段极化数据的实验结果表明,该算法可以有效地提高极化SAR图像分类的准确度。 展开更多
关键词 极化合成孔径雷达 监督图像分类 集成学习 分类器集成
下载PDF
基于新型集成分类器的非平衡数据分类关键问题研究 被引量:8
20
作者 翟云 杨炳儒 +1 位作者 曲武 隋海峰 《系统工程与电子技术》 EI CSCD 北大核心 2011年第1期196-201,共6页
针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成... 针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成策略、分类决策方案,可获得较高的分类精度。同时,利用SREC对影响非平衡数据分类的关键问题进行了研究。结果表明,非平衡数据分类问题本质上是由正负样本类间非平衡、类内非平衡、样本规模以及样本非平衡度等诸多因素引起的,只有综合考虑这些因素才能更好地解决非平衡数据分类问题。 展开更多
关键词 数据挖掘 非平衡类数据分类 集成分类器 关键问题
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部