期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
考虑小波奇异信息与不平衡数据集的输电线路故障识别方法 被引量:46
1
作者 黄建明 李晓明 +1 位作者 瞿合祚 张礼得 《中国电机工程学报》 EI CSCD 北大核心 2017年第11期3099-3107,共9页
鉴于输电线路故障识别中数据集的非均衡性问题,提出一种基于小波奇异信息和改进合成少数类过采样(synthetic minority over-sampling technique,SMOTE)算法的输电线路故障识别方法。首先,通过PSCAD/EMTDC仿真构造输电线路故障不平衡数据... 鉴于输电线路故障识别中数据集的非均衡性问题,提出一种基于小波奇异信息和改进合成少数类过采样(synthetic minority over-sampling technique,SMOTE)算法的输电线路故障识别方法。首先,通过PSCAD/EMTDC仿真构造输电线路故障不平衡数据集,结合平稳小波变换(stationary wavelet transform,SWT)与奇异值分解(singular value decomposition,SVD)技术提取相电流及零序电流的故障分量的小波奇异值作为特征参数,然后采用改进SMOTE算法在少数类的样本中心邻域进行插值再抽样处理,调整数据集的不平衡度,利用优化后的数据集训练支持向量机(support vector machine,SVM)组合分类器,对不同故障工况下的10种输电线路故障类型进行分类识别。仿真结果表明,该文的方法能有效地提高分类算法在样本数据不平衡的情况下对少数类的识别能力和整体的识别准确率,具有较好的泛化性和较强的鲁棒性,并且对多种分类算法同样适用。 展开更多
关键词 输电线路 故障类型识别 平稳小波变换 奇异值分解 不平衡数据集 过采样 支持向量机
下载PDF
基于改进生成对抗网络的无人机电力杆塔巡检图像异常检测 被引量:28
2
作者 仲林林 胡霞 刘柯妤 《电工技术学报》 EI CSCD 北大核心 2022年第9期2230-2240,2262,共12页
无人机电力线路巡检拍摄的杆塔图像背景复杂且正负样本极不均衡,严重影响了电力杆塔异常检测的准确性。该文提出一种基于压缩激活改进的快速异常检测生成对抗网络(SE-fAnoGAN),可提高复杂背景下无人机电力杆塔巡检图像异常检测的精度。... 无人机电力线路巡检拍摄的杆塔图像背景复杂且正负样本极不均衡,严重影响了电力杆塔异常检测的准确性。该文提出一种基于压缩激活改进的快速异常检测生成对抗网络(SE-fAnoGAN),可提高复杂背景下无人机电力杆塔巡检图像异常检测的精度。首先,在f-AnoGAN编码器中引入压缩激活网络(SENet),提取图像中的显著性信息。然后,将生成对抗网络的无监督学习和二分类器的有监督学习有机结合,实现前者特征提取优势和后者判别优势的互补。在此基础上,借助基于迁移学习的优化训练策略进一步有效提升模型在大规模数据集上的泛化性能。实验结果显示,总体样本的检测准确率为95.74%,正负样本的召回率分别达到96.05%和95.36%,证明了SE-f-AnoGAN在异常检测中的有效性。 展开更多
关键词 电力杆塔 无人机巡检 异常检测 生成对抗网络 迁移学习 不平衡样本
下载PDF
面向不平衡数据集的一种改进的k-近邻分类器 被引量:15
3
作者 刘鹏 杜佳芝 +1 位作者 吕伟刚 窦明武 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第7期932-936,共5页
心脏心律失常数据集的心电图(ECG)数据往往存在各心律失常类型下样本数量不平衡问题.针对此问题,提出了一种新的模式识别分类方法,即改进的基于核的差重建的加权k-近邻分类器(modified kernel difference-weighted k-nearest neighbor c... 心脏心律失常数据集的心电图(ECG)数据往往存在各心律失常类型下样本数量不平衡问题.针对此问题,提出了一种新的模式识别分类方法,即改进的基于核的差重建的加权k-近邻分类器(modified kernel difference-weighted k-nearest neighbor classifier, MKDF-WKNN),通过引入修正因子对含样本数较多的类别进行权值抑制,对含样本数较少的类别进行权值的加大,并使用UCI心脏心律失常数据集对ECG数据进行分类.实验结果表明,提出的算法和其他一些基于KNN的算法如KNN,DS-WKNN,DF-WKNN和KDF-WKNN相比,对于不平衡的心律失常数据集的分类有更好的效果. 展开更多
关键词 心律失常 心电图 模式分类 K-近邻算法 不平衡数据集
下载PDF
一种基于属性加权补集的朴素贝叶斯文本分类算法 被引量:14
4
作者 陈凯 黄英来 +1 位作者 高文韬 赵鹏 《哈尔滨理工大学学报》 CAS 北大核心 2018年第4期69-74,共6页
针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;... 针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及G-mean性能分别可达82.92%、84.6%、88.76%。 展开更多
关键词 属性加权 文本分类 朴素贝叶斯 不均衡数据集
下载PDF
基于卷积神经网络的柑橘溃疡病识别方法 被引量:13
5
作者 张敏 刘杰 蔡高勇 《计算机应用》 CSCD 北大核心 2018年第A01期48-52,76,共6页
柑橘溃疡病是柑橘类植物的一种重要的检疫性病害,感染性强、传播速度快。通过人工肉眼识别的方式效率低、模糊度高,使用图像识别技术检测柑橘溃疡病可以大量的节省人力物力。使用图像识别技术检测柑橘溃疡病中存在以下问题:1)样本很难获... 柑橘溃疡病是柑橘类植物的一种重要的检疫性病害,感染性强、传播速度快。通过人工肉眼识别的方式效率低、模糊度高,使用图像识别技术检测柑橘溃疡病可以大量的节省人力物力。使用图像识别技术检测柑橘溃疡病中存在以下问题:1)样本很难获取,而且采集的数据还存在不均衡的情况; 2)使用传统的机器学习方法进行识别的时候,特征是由人工设计的,它们对光照变化、背景比较敏感,因此识别率低; 3)卷积神经网络是目前使用较多的图像识别方法,但是模型通常比较复杂,消耗内存和计算时间。为此提出先使用卷积神经网络模型Alexnet对柑橘溃疡病进行识别的方法,然后在保证准确率基本不变的情况下,优化网络模型结构,减小网络参数。实验结果表明,使用卷积神经网络后,它对正样本、负样本的识别率达到了98%以上,超过了决策树、k最近邻(k NN)、支持向量机(SVM)、Adaboost等传统的机器学习方法。同时,在使用减少全连接层和减少卷积层两种优化网络模型的方法后,识别率基本不变,网络模型的参数得到了减少,使得识别速度分别提升为原来的1. 7倍和2. 2倍。 展开更多
关键词 柑橘溃疡病 卷积神经网络 不均衡数据集 识别率 识别速度
下载PDF
面向机器学习的训练数据集均衡化方法 被引量:12
6
作者 李国和 张腾 +2 位作者 吴卫江 洪云峰 周晓明 《计算机工程与设计》 北大核心 2019年第3期812-818,共7页
为提高机器学习算法对于不均衡数据的建模效果,提出一种均衡化预处理方法。采用iForest形成每个样本在样本空间中的分布特征评估值,基于负类(多数类)样本的分布特征评估值定义概率分布;根据样本的概率分布,通过轮盘转算法选取负类样本;... 为提高机器学习算法对于不均衡数据的建模效果,提出一种均衡化预处理方法。采用iForest形成每个样本在样本空间中的分布特征评估值,基于负类(多数类)样本的分布特征评估值定义概率分布;根据样本的概率分布,通过轮盘转算法选取负类样本;通过K-means方法形成若干负类样本聚类中心,以聚类中心为最终负类选取样本,实现正负类样本的均衡化。整个过程构成均衡化方法iForest-RM。iForest-RM与其它采样方法在Adaboost模型上的实验对比结果表明,iForest-RM具有更好的均衡化能力,更好获取样本空间分布特性,可有效应用于地震相识别。 展开更多
关键词 数据预处理 不均衡数据 隔离森林 均值聚类 轮盘转算法
下载PDF
基于ADASYN与改进残差网络的入侵流量检测识别 被引量:12
7
作者 唐玺博 张立民 钟兆根 《系统工程与电子技术》 EI CSCD 北大核心 2022年第12期3850-3862,共13页
针对现有入侵流量检测模型分类准确率低、小样本特征提取不足等问题,提出了一种基于自适应合成采样和Inception-Resnet模块的改进残差网络算法。该算法能够对不平衡数据集进行采样优化,有效提升模型的小样本特征提取能力。首先,通过对... 针对现有入侵流量检测模型分类准确率低、小样本特征提取不足等问题,提出了一种基于自适应合成采样和Inception-Resnet模块的改进残差网络算法。该算法能够对不平衡数据集进行采样优化,有效提升模型的小样本特征提取能力。首先,通过对不平衡的数据训练集进行过采样改善数据分布,然后对非数据部分进行独热编码处理并与数据部分整合,降低预处理复杂度,最后利用改进残差网络模型进行数据训练,并进行性能评估和算法效能对比。实验结果表明,改进残差网络模型对入侵流量的检测准确率在多分类和二分类情况下分别达到89.40%和91.88%。相比于经典深度学习算法,改进残差网络模型的准确率更高,误报率更低,具备较高的可靠性和工程应用价值。 展开更多
关键词 入侵流量检测 残差神经网络 自适应合成采样 不平衡数据集
下载PDF
基于集成混合采样的软件缺陷预测研究 被引量:10
8
作者 戴翔 毛宇光 《计算机工程与科学》 CSCD 北大核心 2015年第5期930-936,共7页
对软件缺陷预测的不平衡问题进行了研究,提出了一种处理不平衡数据的采样方法,用来解决分类器因为样本集中的样本类别不平衡而造成分类器性能下降的问题。为了避免随机采样的盲目性,利用启发性的混合采样方法来平衡数据,针对少数类采用S... 对软件缺陷预测的不平衡问题进行了研究,提出了一种处理不平衡数据的采样方法,用来解决分类器因为样本集中的样本类别不平衡而造成分类器性能下降的问题。为了避免随机采样的盲目性,利用启发性的混合采样方法来平衡数据,针对少数类采用SMOTE过采样,对多数类采用K-Means聚类降采样,然后综合利用多个单分类器来进行投票集成预测分类。实验结果表明,混合采样与集成学习相结合的软件缺陷预测方法具有较好的分类效果,在获得较高的查全率的同时还能显著降低误报率。 展开更多
关键词 不平衡数据 SMOTE K-MEANS 投票 集成学习
下载PDF
基于支持向量机的不均衡文本分类方法 被引量:8
9
作者 高超 许翰林 《现代电子技术》 北大核心 2018年第15期183-186,共4页
目前支持向量机(SVM)对均衡文本数据集进行文本分类时表现十分良好,但如果文本数据集是不均衡的,尤其是当不均衡率很大时,容易导致支持向量机分类失败。提出PSO-SMOTE混合算法,针对不均衡文本数据集问题,运用SMOTE算法生成插值样本均衡... 目前支持向量机(SVM)对均衡文本数据集进行文本分类时表现十分良好,但如果文本数据集是不均衡的,尤其是当不均衡率很大时,容易导致支持向量机分类失败。提出PSO-SMOTE混合算法,针对不均衡文本数据集问题,运用SMOTE算法生成插值样本均衡数据集,并通过PSO算法迭代进化得到最佳的插值样本,对支持向量机的文本分类能力进行优化。实验结果表明,新算法大幅优化了支持向量机分类不均衡文本数据集的能力。 展开更多
关键词 混合算法 支持向量机 不均衡数据集 插值样本 文本分类 迭代进化
下载PDF
基于改进XGBoost的民航重点旅客风险评估方法 被引量:5
10
作者 吴仁彪 刘洋 +2 位作者 贾云飞 刘闪亮 乔晗 《安全与环境学报》 CAS CSCD 北大核心 2023年第3期651-658,共8页
针对传统过采样方法导致的边际模糊及数据量增大的问题,提出了一种基于不平衡数据集的改进极限梯度提升(XGBoost)算法,并结合JJATT恐怖分子数据集构建民航重点旅客风险评估方法。样本在分类概率的基础上,根据焦点损失(Focal Loss,FL)函... 针对传统过采样方法导致的边际模糊及数据量增大的问题,提出了一种基于不平衡数据集的改进极限梯度提升(XGBoost)算法,并结合JJATT恐怖分子数据集构建民航重点旅客风险评估方法。样本在分类概率的基础上,根据焦点损失(Focal Loss,FL)函数重新平衡样本权重,通过网格搜索法确定最终模型。数据集测试结果表明,相较于多种传统方法,所提方法性能更好,准确率达到90.9%,F_(1)值(F_(1)-score)达到90.9%。结果表明,在对民航重点旅客进行安检时,应对其国籍、出生地、学历、职业进行重点检查。 展开更多
关键词 安全工程 旅客风险 风险分级 不平衡数据集 XGBoost
下载PDF
基于不平衡数据集的机器学习算法研究 被引量:6
11
作者 刘洋 《统计与决策》 CSSCI 北大核心 2019年第12期19-21,共3页
在应用机器学习构建数据模型的过程中,经常会面临类不平衡性的问题,在许多研究中,降低数据集的不平衡性多采用欠抽样法来进行处理,再应用C4.5、NB、LR、RF、KNN等机器学习算法进行数据建模。实验结果往往表明,欠抽样法得到的模型准确度... 在应用机器学习构建数据模型的过程中,经常会面临类不平衡性的问题,在许多研究中,降低数据集的不平衡性多采用欠抽样法来进行处理,再应用C4.5、NB、LR、RF、KNN等机器学习算法进行数据建模。实验结果往往表明,欠抽样法得到的模型准确度并不尽如人意,原因是这种方法是在牺牲负样本的预测精度前提下来提高整体精度的,因此,文章试图在尽量不减少原数据集中有用信息丢失的前提下采用重复抽样法进行数据处理可以有效弥补欠抽样法所带来的信息损失,进而提高模型精度。 展开更多
关键词 不平衡数据集 机器学习 欠抽样 重复抽样
下载PDF
基于特征加权距离的双指数模糊子空间聚类算法 被引量:6
12
作者 王骏 王士同 王晓明 《控制与决策》 EI CSCD 北大核心 2010年第8期1207-1210,共4页
传统的模糊聚类算法(FCM)使用欧氏距离计算数据点之间的差异时,对于高维数据集聚类效果不够理想.对此,以FCM算法的目标函数为基础,用特征加权距离代替传统的欧氏距离,同时向约束条件中引入指数γ和β,提出了一种基于特征加权距离的双指... 传统的模糊聚类算法(FCM)使用欧氏距离计算数据点之间的差异时,对于高维数据集聚类效果不够理想.对此,以FCM算法的目标函数为基础,用特征加权距离代替传统的欧氏距离,同时向约束条件中引入指数γ和β,提出了一种基于特征加权距离的双指数模糊子空间聚类算法,并讨论了该算法的收敛性.实验表明,所提出算法可以有效提取高维数据集各类别的相关特征,在真实数据集上有较好的聚类效果. 展开更多
关键词 模糊聚类 特征加权距离 全局收敛性 非平衡数据集
原文传递
文本分类中基于CHI改进的特征选择方法 被引量:5
13
作者 宋呈祥 陈秀宏 牛强 《微电子学与计算机》 CSCD 北大核心 2018年第9期74-78,共5页
针对传统卡方统计量(CHI)方法在全局范围内做特征选择时忽略词的频度、词的分布等问题,提出了一种改进的文本特征选择方法.该方法通过定义特征词频度分布相关性系数,选择局部出现的强相关性特征,同时考虑特征词类间分布差异性来提升不... 针对传统卡方统计量(CHI)方法在全局范围内做特征选择时忽略词的频度、词的分布等问题,提出了一种改进的文本特征选择方法.该方法通过定义特征词频度分布相关性系数,选择局部出现的强相关性特征,同时考虑特征词类间分布差异性来提升不均衡数据集的分类指标.结果表明,改进的方法不仅在分类效果上有明显的提高,而且性能更加稳定. 展开更多
关键词 文本分类 卡方统计量 特征选择 不均衡数据集
下载PDF
不均衡数据集下基于SVM的托攻击检测方法 被引量:5
14
作者 吕成戍 王维国 《计算机工程》 CAS CSCD 2013年第5期132-135,共4页
传统支持向量机(SVM)方法在数据不均衡情况下无法有效实现托攻击检测。在研究SVM的基础上,提出一种基于欠采样和代价敏感SVM相结合的托攻击检测方法。利用边界样本修剪技术实现训练样本的均衡,在消除部分多数类样本显著减小数据不均衡... 传统支持向量机(SVM)方法在数据不均衡情况下无法有效实现托攻击检测。在研究SVM的基础上,提出一种基于欠采样和代价敏感SVM相结合的托攻击检测方法。利用边界样本修剪技术实现训练样本的均衡,在消除部分多数类样本显著减小数据不均衡程度的同时,保证信息损失最小。结合受试者工作特征分析技术,利用代价敏感SVM对重构后的样本集进行训练,在限定范围内自动搜索最优参数,进而调节阈值获得系统决策函数。实验结果表明,该方法能提高托攻击的检测精度。 展开更多
关键词 攻击检测 不均衡数据集 代价敏感学习 欠采样 支持向量机 接收机工作特性分析
下载PDF
基于改进注意力机制的多路卷积课堂语音情感识别模型
15
作者 梁科晋 张海军 《计算机与数字工程》 2024年第9期2645-2650,共6页
针对语音情感识别研究中增加网络的深度和宽度对识别准确率提高不明显的情况,改进了注意力机制,通过将通道注意力机制和空间注意力机制相结合,并将空间注意力机制的卷积部分改进为两层的空洞卷积,以便提取更多有价值的上下文语义信息;... 针对语音情感识别研究中增加网络的深度和宽度对识别准确率提高不明显的情况,改进了注意力机制,通过将通道注意力机制和空间注意力机制相结合,并将空间注意力机制的卷积部分改进为两层的空洞卷积,以便提取更多有价值的上下文语义信息;针对单一的情感特征无法有效表征语音情感,将多个单一情感特征进行融合,增加特征的情感表征能力。该模型在中科院自动化所汉语情感数据库(CASIA)下得到了85.24%的识别准确率,在Emo-DB数据集上得到86.58%的识别准确率,证明了模型的有效性。针对真实的课堂语音数据,该模型在实验中召回率、F1值和准确率分别达到77.77%、80.76%、79.24%,体现了较好的实用性。 展开更多
关键词 情感识别 深度学习 语音情感识别 神经网络 不均衡数据集
下载PDF
基于拉普拉斯特征映射与加权极限学习机的电动潜油离心泵故障诊断方法
16
作者 许泽坤 付军 +3 位作者 高小永 张誉 李强 檀朝东 《控制与信息技术》 2024年第2期117-125,共9页
电动潜油离心泵(简称“潜油电泵”)采油技术在非自喷高产井和高含水井中应用广泛,但其在运作过程中易发生设备故障,后续维护会触发长时间停机,可能造成无法估量的经济损失。目前对潜油电泵故障的诊断主要依赖现场技术人员的经验,无法快... 电动潜油离心泵(简称“潜油电泵”)采油技术在非自喷高产井和高含水井中应用广泛,但其在运作过程中易发生设备故障,后续维护会触发长时间停机,可能造成无法估量的经济损失。目前对潜油电泵故障的诊断主要依赖现场技术人员的经验,无法快速及时地自动诊断分析。为此,文章提出了一种结合拉普拉斯特征映射与加权极限学习机的潜油电泵故障诊断模型。针对潜油电泵采集的数据存在严重不平衡性问题,其首先通过加权极限学习机建立故障诊断模型;然后,为解决算法学习不充分、加权策略会带来计算成本高和应用于高纬度特征空间的效果差等问题,其引入拉普拉斯特征映射方法对模型进一步优化;最后,在TE化工过程数据集上验证了所提方法的有效性,并在潜油电泵实时故障数据集上对该算法的实用性进行实验验证。结果显示,本文算法的分类平均准确率、最大准确率及G-mean相比支持向量机、决策树、BP算法、极限学习机以及加权极限学习机的平均提升了10%以上,验证了本文方法的有效性。 展开更多
关键词 不平衡数据集 故障诊断 加权极限学习机 流形学习 拉普拉斯特征映射
下载PDF
一种基于SMOTE的CNN风电机组故障诊断方法
17
作者 罗毅 郝伟琪 《计算机仿真》 2024年第2期91-94,353,共5页
针对风电机组故障样本数据集不平衡、训练时容易忽略少数类样本、出现过拟合等问题,提出了一种基于SMOTE算法的卷积神经网络故障诊断方法,首先利用SMOTE算法消除实际样本的不平衡性;然后将卷积层首层设置为大卷积核,其余为小卷积核的结... 针对风电机组故障样本数据集不平衡、训练时容易忽略少数类样本、出现过拟合等问题,提出了一种基于SMOTE算法的卷积神经网络故障诊断方法,首先利用SMOTE算法消除实际样本的不平衡性;然后将卷积层首层设置为大卷积核,其余为小卷积核的结构,并引入dropout算法;最后在输出端利用Softmax分类器输出故障诊断的结果。上述方法能够充分发挥卷积神经网络的数据特征提取能力,抑制过拟合现象。试验表明,上述方法可有效提高风电机组故障诊断的准确率。 展开更多
关键词 卷积神经网络 故障诊断 风电机组 不平衡数据集
下载PDF
考虑数据不平衡的轨道交通装备液压系统内泵泄漏智能诊断方法研究
18
作者 陈曦睿 杨基宏 +1 位作者 台永丰 方亚民 《现代交通与冶金材料》 CAS 2024年第1期36-41,共6页
针对液压系统内泵泄漏诊断的数据集不平衡问题,提出了一种两阶段处理方法,使用变分编码器对少数类样本进行合成,将少数类故障样本补全到和正常样本一致。再使用焦点损失对故障分类模型进行训练,增强分类器对难分类样本的诊断能力。所提... 针对液压系统内泵泄漏诊断的数据集不平衡问题,提出了一种两阶段处理方法,使用变分编码器对少数类样本进行合成,将少数类故障样本补全到和正常样本一致。再使用焦点损失对故障分类模型进行训练,增强分类器对难分类样本的诊断能力。所提出方法经过消融实验验证,能够有效处理不平衡数据集。 展开更多
关键词 故障诊断 内泵泄漏 液压系统 不平衡数据集 焦点损失
下载PDF
基于多输入卷积神经网络隔震支座沉降识别
19
作者 赵丽洁 李纯 +1 位作者 沈金生 王昊 《地震工程与工程振动》 CSCD 北大核心 2024年第4期62-69,共8页
为了避免地基不均匀沉降导致隔震支座沉降以及对上部结构造成的隐性损伤,针对隔震支座沉降识别方法进行研究,提出一种基于多输入卷积神经网络(multi-input convolutional neural network,MI-CNN)的隔震支座振动信号识别模型。首先,采集... 为了避免地基不均匀沉降导致隔震支座沉降以及对上部结构造成的隐性损伤,针对隔震支座沉降识别方法进行研究,提出一种基于多输入卷积神经网络(multi-input convolutional neural network,MI-CNN)的隔震支座振动信号识别模型。首先,采集隔震支座水平方向加速度和位移信号,采用归一化预处理和数据增强方法扩充样本;然后,将样本输入到所建立的网络模型中并进行训练;最后,利用完成训练的网络模型进行沉降识别。结果表明:相较于传统单输入卷积神经网络(Convolutional neural network,CNN)模型,MI-CNN模型易于训练,可最大程度地发挥CNN对沉降信号特征的提取能力,且具有更好的沉降位置识别准确率和更小的沉降程度识别误差,以及针对不均衡数据集更稳定的识别效果。研究结果可为隔震支座沉降识别提供新思路。 展开更多
关键词 卷积神经网络 隔震支座 不均衡数据集 沉降识别
下载PDF
基于深度森林的P2P网贷借款人信用风险评估方法 被引量:4
20
作者 王萧萧 王亭雯 +2 位作者 马玉玲 范佳奕 崔超然 《计算机科学》 CSCD 北大核心 2021年第S02期429-434,共6页
P2P网络借贷是近年来新兴的一种金融业务模式,具有投资门槛低、交易方便快捷、融资成本低等优点。但在快速成长的同时,借贷过程中的信用风险问题也日益凸显,层出不穷的借款人跑路乃至诈骗事件给行业留下重大阴影。针对该问题,提出一种... P2P网络借贷是近年来新兴的一种金融业务模式,具有投资门槛低、交易方便快捷、融资成本低等优点。但在快速成长的同时,借贷过程中的信用风险问题也日益凸显,层出不穷的借款人跑路乃至诈骗事件给行业留下重大阴影。针对该问题,提出一种基于深度森林的网贷借款人信用风险评估方法。首先从借款人的基本信息和历史借款信息两类数据中提取特征;然后通过多粒度扫描和级联森林模块构建深度森林模型,对借款人进行违约预测,同时使用基尼指数计算随机森林的特征重要性评分,并使用波达计数法进行排序融合,从而对模型的预测结果给出一定的解释。在LendingClub和拍拍贷两个公开数据集上,将所提出的方法与支持向量机、随机森林和广而深的网络等方法进行了对比,实验表明该方法具有更好的性能,并且特征重要性评分符合人们的直观理解和客观认识。 展开更多
关键词 P2P网络借贷 信用风险评估 深度森林 特征重要性 不平衡数据集
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部