期刊文献+
共找到591篇文章
< 1 2 30 >
每页显示 20 50 100
不平衡数据分类方法综述 被引量:155
1
作者 李艳霞 柴毅 +1 位作者 胡友强 尹宏鹏 《控制与决策》 EI CSCD 北大核心 2019年第4期673-688,共16页
随着信息技术的快速发展,各领域的数据正以前所未有的速度产生并被广泛收集和存储,如何实现数据的智能化处理从而利用数据中蕴含的有价值信息已成为理论和应用的研究热点.数据分类作为一种基础的数据处理方法,已广泛应用于数据的智能化... 随着信息技术的快速发展,各领域的数据正以前所未有的速度产生并被广泛收集和存储,如何实现数据的智能化处理从而利用数据中蕴含的有价值信息已成为理论和应用的研究热点.数据分类作为一种基础的数据处理方法,已广泛应用于数据的智能化处理.传统分类方法通常假设数据类别分布均衡且错分代价相等,然而,现实中的数据通常具有不平衡特性,即某一类的样本数量要小于其他类的样本数量,且少数类具有更高错分代价.当利用传统的分类算法处理不平衡数据时,由于多数类和少数类在数量上的倾斜,以总体分类精度最大为目标会使得分类模型偏向于多数类而忽略少数类,造成少数类的分类精度较低.如何针对不平衡数据分类问题设计分类算法,同时保证不平衡数据中多数类与少数类的分类精度,已成为机器学习领域的研究热点,并相继出现了一系列优秀的不平衡数据分类方法.鉴于此,对现有的不平衡数据分类方法给出较为全面的梳理,从数据预处理层面、特征层面和分类算法层面总结和比较现有的不平衡数据分类方法,并结合当下机器学习的研究热点,探讨不平衡数据分类方法存在的挑战.最后展望不平衡数据分类未来的研究方向. 展开更多
关键词 不平衡数据 机器学习 分类 深度学习
原文传递
不平衡数据的集成分类算法综述 被引量:73
2
作者 李勇 刘战东 张海军 《计算机应用研究》 CSCD 北大核心 2014年第5期1287-1291,共5页
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学... 集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。 展开更多
关键词 不平衡数据 集成学习 分类 代价敏感 数据采样
下载PDF
一种新的不平衡数据学习算法PCBoost 被引量:63
3
作者 李雄飞 李军 +1 位作者 董元方 屈成伟 《计算机学报》 EI CSCD 北大核心 2012年第2期202-209,共8页
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决... 现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正"扰动",删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势. 展开更多
关键词 数据挖掘 不平衡数据 集成学习 提升 扰动
下载PDF
一种基于Boosting的集成学习算法在不均衡数据中的分类 被引量:57
4
作者 李诒靖 郭海湘 +1 位作者 李亚楠 刘晓 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2016年第1期189-199,共11页
针对多类别不均衡数据的分类问题,从数据集的特征选择和集成学习两个角度出发,提出了一种新的针对不均衡数据的分类方法—BPSO-Adaboost-KNN算法,算法采用基于多分类问题的可视化的AUCarea作为分类评价指标.为了测试算法的性能,本文选取... 针对多类别不均衡数据的分类问题,从数据集的特征选择和集成学习两个角度出发,提出了一种新的针对不均衡数据的分类方法—BPSO-Adaboost-KNN算法,算法采用基于多分类问题的可视化的AUCarea作为分类评价指标.为了测试算法的性能,本文选取了10组UCI和KEEL选取的测试数据集进行测试,结果表明本算法在有效提取关键特征后提高了Adaboost的稳定性,在十组数据的分类精度上相比单纯使用KNN分类器有20%~40%不等的提高.在本算法和其他state-of-the-art集成分类算法对比中,BPSO-Adaboost-KNN能够取得较优或相当的结果.最后,本文将该算法应用到石油储层含油性的识别中,成功提取了声波、孔隙度和含油饱和度三个关键属性,在分类精度上相比传统分类算法有了大幅度提高,在江汉油田五口油井oilsk81~oilsk85上的分类精度均达到98%以上,比单纯使用KNN的精度高出了20%,尤其在最易错分的油层和差油层中有良好的分类效果. 展开更多
关键词 不均衡数据 特征提取 分类 石油储层
原文传递
基于改进SMOTE的小额贷款公司客户信用风险非均衡SVM分类 被引量:54
5
作者 衣柏衡 朱建军 李杰 《中国管理科学》 CSSCI 北大核心 2016年第3期24-30,共7页
研究了小额贷款公司对客户进行信用风险评估时面临的问题,构建了信用风险评估指标体系,改进了支持向量机(Support Vector Machine,SVM)对非均衡样本分类时分类超平面偏移的不足。首先分析小额贷款公司业务区域性强、信用数据来源不规范... 研究了小额贷款公司对客户进行信用风险评估时面临的问题,构建了信用风险评估指标体系,改进了支持向量机(Support Vector Machine,SVM)对非均衡样本分类时分类超平面偏移的不足。首先分析小额贷款公司业务区域性强、信用数据来源不规范、评价标准不一致等特点,给出用于客户信用风险评估的四个维度指标。针对传统SMOTE算法在处理非均衡数据时对全部少数类样本操作的问题,提出仅对错分样本人工合成的改进思想,给出具体算法步骤。将改进算法用于某小额贷款公司客户信用风险评估案例中,分类精确度较其他算法有所提升,表明该方法的可行性和有效性。 展开更多
关键词 小额贷款 信用风险 支持向量机 非均衡数据 SMOTE
原文传递
不平衡数据挖掘方法综述 被引量:53
6
作者 向鸿鑫 杨云 《计算机工程与应用》 CSCD 北大核心 2019年第4期1-16,共16页
近些年,分类算法取得了长足的发展。但是随着数据来源的不断扩大,人们获得的数据绝大部分是不平衡数据。而这些分类算法通常对不平衡数据敏感,因此对不平衡数据的分类变得十分困难。目前对不平衡数据挖掘方法主要分为两大方面,分别是针... 近些年,分类算法取得了长足的发展。但是随着数据来源的不断扩大,人们获得的数据绝大部分是不平衡数据。而这些分类算法通常对不平衡数据敏感,因此对不平衡数据的分类变得十分困难。目前对不平衡数据挖掘方法主要分为两大方面,分别是针对不平衡数据的预处理方法和挖掘算法。就这两大方面对近些年出现的方法进行总结,并从数据预处理、算法和性能评估方法等方面进行多维度梳理。从不同的应用领域入手,讲述了存在的各种不平衡问题,以及不同学者在其领域中的研究和解决方法。最后分析了不平衡数据挖掘领域目前存在的问题,并对未来研究方向进行展望。 展开更多
关键词 不平衡数据 采样 聚类方法 集成方法 代价敏感 性能评估
下载PDF
基于样本权重的不平衡数据欠抽样方法 被引量:43
7
作者 熊冰妍 王国胤 邓维斌 《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2613-2622,共10页
现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此... 现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此提出了一种基于样本权重的欠抽样方法KAcBag(K-means AdaCost bagging),该方法引入了样本权重来反映样本所处的区域,首先根据各类样本的数量初始化各样本权重,并通过多次聚类对各个样本的权重进行修改,权重小的多数类样本即处于多数类的中心区域;然后按权重大小对多数类样本进行欠抽样,使位于中心区域的样本较容易被抽中,并与所有少数类样本组成bagging成员分类器的训练数据,得到若干个决策树子分类器;最后根据各子分类器的正确率进行加权投票生成预测模型.对19组UCI数据集和某电信运营商客户换机数据进行了测试实验,实验结果表明:KAcBag方法使抽样所得的样本具有较强的代表性,能有效提高少数类的分类性能并缩小问题规模. 展开更多
关键词 不平衡数据 欠抽样 样本权重 聚类 集成学习
下载PDF
针对不平衡数据的过采样和随机森林改进算法 被引量:35
8
作者 张家伟 郭林明 杨晓梅 《计算机工程与应用》 CSCD 北大核心 2020年第11期39-45,共7页
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampl... 针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。 展开更多
关键词 数据不平衡 合成少数类过采样技术(SMOTE) Kappa系数 随机森林
下载PDF
大数据背景下网络借贷的信用风险评估——以人人贷为例 被引量:34
9
作者 柳向东 李凤 《统计与信息论坛》 CSSCI 北大核心 2016年第5期41-48,共8页
在大数据时代,网贷平台每天流动着海量交易数据。为充分利用这些数据控制信用风险,运用数据挖掘算法建立了信用风险评估模型。由于网贷数据多为非平衡数据,所以通过多次尝试使用SMOTE算法进行处理,提高了模型评估性能。研究发现:随机森... 在大数据时代,网贷平台每天流动着海量交易数据。为充分利用这些数据控制信用风险,运用数据挖掘算法建立了信用风险评估模型。由于网贷数据多为非平衡数据,所以通过多次尝试使用SMOTE算法进行处理,提高了模型评估性能。研究发现:随机森林模型更适合用于信用风险评估,其次是CART、ANN、C4.5。用户的婚姻、房/车产(贷)等信息重要程度较低,而公司规模、工作时间等信息,历史借款、信用评分等信用档案信息在信用风险评估中尤为重要。 展开更多
关键词 P2P网络借贷 非平衡数据 SMOTE算法 数据挖掘 随机森林
下载PDF
改进随机森林算法在电信业客户流失预测中的应用 被引量:32
10
作者 丁君美 刘贵全 李慧 《模式识别与人工智能》 EI CSCD 北大核心 2015年第11期1041-1049,共9页
为有效处理不平衡分类,提高电信业客户流失预测中高价值客户流失预测的准确率,提出改进的随机森林算法(IRFA).该算法改进随机森林中生成每棵树时节点划分的方法,基于客户生命价值划分节点,这是对信息增益的修改,不但解决数据分布不平衡... 为有效处理不平衡分类,提高电信业客户流失预测中高价值客户流失预测的准确率,提出改进的随机森林算法(IRFA).该算法改进随机森林中生成每棵树时节点划分的方法,基于客户生命价值划分节点,这是对信息增益的修改,不但解决数据分布不平衡问题,而且提高对有流失倾向的高价值客户预测的准确率.将算法应用于某电信公司的客户流失预测,实验表明,与其他方法相比,IRFA具有更好的分类性能,而且提高高价值客户流失预测的准确率. 展开更多
关键词 流失预测 随机森林 不平衡数据
下载PDF
考虑不平衡案例样本的电力变压器故障诊断方法 被引量:30
11
作者 崔宇 侯慧娟 +3 位作者 苏磊 钱涛 盛戈皞 江秀臣 《高电压技术》 EI CAS CSCD 北大核心 2020年第1期33-41,共9页
针对电力变压器各故障类别间案例数量不平衡导致的神经网络等传统机器学习诊断方法准确率较低,及各故障类型之间识别效果差距大的问题,基于层次分类和集成学习的思想,构造了一种多级层次变压器故障诊断模型。该方法根据每级类别样本的... 针对电力变压器各故障类别间案例数量不平衡导致的神经网络等传统机器学习诊断方法准确率较低,及各故障类型之间识别效果差距大的问题,基于层次分类和集成学习的思想,构造了一种多级层次变压器故障诊断模型。该方法根据每级类别样本的不平衡程度分级建立相应的分类器,逐级深入进行诊断。第1级分类器选取神经网络,提取正常、放电故障和过热故障3种广义特征标签,并与原始参量输入进行特征融合,以引导DL/T722—2014中采用的9种更细致的状态类型分类;第2级分类器采用EasyEnsemble集成学习方法,通过欠采样生成多个数据平衡的训练子集,充分平衡了多数类和少数类故障信息,再通过并行训练子分类器合成最终分类器,避免了欠采样丢失数据信息的问题。实验结果表明:与传统诊断方法相比,所提出的方法提升了少数类故障的泛化特性,使总体准确率提升了7%,具有更准确和更平衡的电力变压器故障诊断效果。 展开更多
关键词 电力变压器 油中溶解气体分析 故障诊断 集成学习 层次分类 不平衡数据 神经网络
下载PDF
基于三支决策的不平衡数据过采样方法 被引量:30
12
作者 胡峰 王蕾 周耀 《电子学报》 EI CAS CSCD 北大核心 2018年第1期135-144,共10页
采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采... 采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中的过采样算法. 展开更多
关键词 三支决策 邻域粗糙集 边界采样 不平衡数据 SMOTE
下载PDF
不平衡数据分类方法综述 被引量:28
13
作者 杨明 尹军梅 吉根林 《南京师范大学学报(工程技术版)》 CAS 2008年第4期7-12,共6页
分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,... 分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降,因而研究用于处理不平衡数据集的分类方法显得相当重要.为便于读者更清晰地了解数据不平衡分类问题的研究现状和未来研究的动向,本文对相关的研究进行了综述和展望. 展开更多
关键词 不平衡数据 过抽样 欠抽样 代价敏感 单分类器 特征选择 子空间
下载PDF
基于混合采样和支持向量机的变压器故障诊断 被引量:24
14
作者 李亮 范瑾 +4 位作者 闫林 张宓 王鹏飞 赵小军 肖海滨 《中国电力》 CSCD 北大核心 2021年第12期150-155,共6页
针对变压器不平衡数据集对变压器故障诊断模型产生的影响,提出了基于混合采样和支持向量机(support vector machines, SVM)的变压器故障诊断方法,利用合成少数类过采样技术(synthetic minority oversampling technique, SMOTE)和基于最... 针对变压器不平衡数据集对变压器故障诊断模型产生的影响,提出了基于混合采样和支持向量机(support vector machines, SVM)的变压器故障诊断方法,利用合成少数类过采样技术(synthetic minority oversampling technique, SMOTE)和基于最近邻规则的欠采样方法,分别对变压器故障数据和正常数据进行采样,再利用混合采样得到的平衡数据训练基于支持向量机变压器故障诊断模型。通过测试集对比不平衡数据和平衡数据下基于SVM的变压器故障诊断模型的性能。最后分析了采样率对于变压器故障诊断模型诊断准确率的影响。实验结果表明,该方法可以有效降低不平衡数据对诊断模型的影响,提高变压器故障诊断模型的准确率。 展开更多
关键词 变压器 不平衡数据 混合采样 支持向量机
下载PDF
高度不平衡数据的代价敏感随机森林分类算法 被引量:23
15
作者 平瑞 周水生 李冬 《模式识别与人工智能》 EI CSCD 北大核心 2020年第3期249-257,共9页
在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集... 在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练.由此提出基于聚类的弱平衡代价敏感随机森林算法,不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小.实验表明,文中算法在处理高度不平衡数据集时性能较优. 展开更多
关键词 不平衡数据 聚类采样 代价敏感学习 随机森林
下载PDF
一种面向不平衡数据的结构化SVM集成分类器 被引量:22
16
作者 袁兴梅 杨明 杨杨 《模式识别与人工智能》 EI CSCD 北大核心 2013年第3期315-320,共6页
为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用Ada Boost策略对各样本的权重... 为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用Ada Boost策略对各样本的权重进行动态调整,适当增大少数类样本的权重,使小类中误分的样本代价增大,以此来改进不平衡数据的分类性能.实验结果表明,该算法可有效提高不平衡数据的分类性能. 展开更多
关键词 不平衡数据 结构化支持向量机(StASVM) 代价敏感
下载PDF
基于不平衡样本的互联网个人信用评估研究 被引量:22
17
作者 李毅 姜天英 刘亚茹 《统计与信息论坛》 CSSCI 北大核心 2017年第2期84-90,共7页
国内互联网金融和消费信贷的迅猛发展,催生了互联网个人征信的巨大需求。针对不平衡的互联网征信数据,采用随机过抽样、随机欠抽样和SMOTE方法进行数据平衡化,并建立决策树、支持向量机和随机森林等分类模型对互联网个人信用评估进行研... 国内互联网金融和消费信贷的迅猛发展,催生了互联网个人征信的巨大需求。针对不平衡的互联网征信数据,采用随机过抽样、随机欠抽样和SMOTE方法进行数据平衡化,并建立决策树、支持向量机和随机森林等分类模型对互联网个人信用评估进行研究,结果表明:互联网大数据背景下的个人信用评估研究具有可行性;过抽样方法可以较好地提高互联网个人信用评估模型的分类性能;构建信用等级较好用户的一般特质,即年龄在18~30岁之间、工资水平在2 000元以上、用户页面浏览量多集中在10~20次之间和申请贷款时间相对较早等。在对互联网个人信用评估中变量有效性进行探索的基础上,反驳了"采用的变量越多结果就越准确"的说法。 展开更多
关键词 互联网征信 不平衡样本 重抽样 随机森林
下载PDF
基于RSBoost算法的不平衡数据分类方法 被引量:21
18
作者 李克文 杨磊 +2 位作者 刘文英 刘璐 刘洪太 《计算机科学》 CSCD 北大核心 2015年第9期249-252,267,共5页
不平衡数据的分类问题在多个应用领域中普遍存在,已成为数据挖掘和机器学习领域的研究热点。提出了一种新的不平衡数据分类方法 RSBoost,以解决传统分类方法对于少数类识别率不高和分类效率低的问题。该方法采用SMOTE方法对少数类进行... 不平衡数据的分类问题在多个应用领域中普遍存在,已成为数据挖掘和机器学习领域的研究热点。提出了一种新的不平衡数据分类方法 RSBoost,以解决传统分类方法对于少数类识别率不高和分类效率低的问题。该方法采用SMOTE方法对少数类进行过采样处理,然后对整个数据集进行随机欠采样处理,以改善整个数据集的不平衡性,再将其与Boosting算法相结合来对数据进行分类。通过实验对比了5种方法在多个公共数据集上的分类效果和分类效率,结果表明该方法具有较高的分类识别率和分类效率。 展开更多
关键词 不平衡数据 组合数据采样 BOOSTING RSBoost
下载PDF
一种基于欠采样的不平衡数据分类算法 被引量:21
19
作者 程险峰 李军 李雄飞 《计算机工程》 CAS CSCD 北大核心 2011年第13期147-149,共3页
针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器... 针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。 展开更多
关键词 机器学习 分类算法 不平衡数据 欠采样 邻域
下载PDF
基于非平衡数据处理的上市公司ST预警混合模型 被引量:21
20
作者 迟国泰 章彤 张志鹏 《管理评论》 CSSCI 北大核心 2020年第3期3-20,共18页
准确预测上市公司ST状态,对上市公司自身的管理以及投资者的投资决策极为重要。本文通过Lasso最小二乘回归筛选ST判别能力最强的指标组合,并用SMOTE过采样技术对上市公司数据进行平衡化处理,再通过逻辑回归与BP神经网络的混合模型,基于... 准确预测上市公司ST状态,对上市公司自身的管理以及投资者的投资决策极为重要。本文通过Lasso最小二乘回归筛选ST判别能力最强的指标组合,并用SMOTE过采样技术对上市公司数据进行平衡化处理,再通过逻辑回归与BP神经网络的混合模型,基于不同时间窗口的数据对中国上市公司ST状态进行预测。本文创新与特色:一是将BP神经网络和逻辑回归分别得到的公司ST概率与指标数据一同代入BP神经网络模型中预测ST状态,提高了仅用单一判别模型的预测准确率;二是以Lasso最小二乘回归方程的误差最小为目标,寻找对ST状态判别能力最大的一组指标;三是采用SMOTE对上市公司样本进行平衡化处理,解决了非平衡数据下模型判别不准确的问题;四是分别采用了提前2年、3年、4年和5年的数据对公司未来ST状态进行预测,找到了ST预警的最优时间窗口。 展开更多
关键词 非平衡样本 最优指标组合 ST预警 中国上市公司 混合模型
原文传递
上一页 1 2 30 下一页 到第
使用帮助 返回顶部