期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法 被引量:18
1
作者 翟云 王树鹏 +2 位作者 马楠 杨炳儒 张德政 《电子学报》 EI CAS CSCD 北大核心 2014年第7期1311-1319,共9页
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合... 非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link&Distribution Density-SMOTE,OSLDD-SMOTE).OSLDDSMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率. 展开更多
关键词 非平衡数据分类 单边选择链 分布密度 重采样
下载PDF
基于新型集成分类器的非平衡数据分类关键问题研究 被引量:8
2
作者 翟云 杨炳儒 +1 位作者 曲武 隋海峰 《系统工程与电子技术》 EI CSCD 北大核心 2011年第1期196-201,共6页
针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成... 针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成策略、分类决策方案,可获得较高的分类精度。同时,利用SREC对影响非平衡数据分类的关键问题进行了研究。结果表明,非平衡数据分类问题本质上是由正负样本类间非平衡、类内非平衡、样本规模以及样本非平衡度等诸多因素引起的,只有综合考虑这些因素才能更好地解决非平衡数据分类问题。 展开更多
关键词 数据挖掘 非平衡类数据分类 集成分类器 关键问题
下载PDF
异构分类器融合环境下的非平衡数据分类模型
3
作者 翟云 杨炳儒 +2 位作者 周法国 隋海峰 刘丽珍 《高技术通讯》 CAS CSCD 北大核心 2011年第10期1101-1107,共7页
为解决非平衡数据分类中的正样本分类精度不高的瓶颈问题,提出了一种异构分类器融合环境下的非平衡数据分类模型。该模型基于差异采样率的重采样算法和改进的Adaboost算法,融合了SVM和C5.0两种基分类器;基于知识融合机制,采用了独... 为解决非平衡数据分类中的正样本分类精度不高的瓶颈问题,提出了一种异构分类器融合环境下的非平衡数据分类模型。该模型基于差异采样率的重采样算法和改进的Adaboost算法,融合了SVM和C5.0两种基分类器;基于知识融合机制,采用了独特的分类器选择策略、分类器集成方法、分类决策方案。仿真实验结果表明,SCECM模型分类性能稳定,在非平衡数据集上具有良好的分类性能。 展开更多
关键词 非平衡数据分类 异构分类器 差异采样率 分类模型
下载PDF
基于用户生成内容的潜在客户识别方法 被引量:9
4
作者 蒋翠清 宋凯伦 +1 位作者 丁勇 刘尧 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第3期1-8,共8页
【目的】从产品论坛中识别潜在客户,对产品论坛中的用户生成内容特征进行分析,识别有购买意愿的产品潜在客户。【方法】将不均衡数据集转换为n个均衡数据集,结合Stacking分类算法识别潜在客户,分别使用基分类器算法和本文提出的针对不... 【目的】从产品论坛中识别潜在客户,对产品论坛中的用户生成内容特征进行分析,识别有购买意愿的产品潜在客户。【方法】将不均衡数据集转换为n个均衡数据集,结合Stacking分类算法识别潜在客户,分别使用基分类器算法和本文提出的针对不均衡数据集的Stacking分类算法对样本数据进行测试,并通过对比F值验证本文算法的有效性。【结果】本文提出的算法的F值较贝叶斯网络、逻辑回归、C4.5决策树、SMO和朴素贝叶斯5种基分类器算法分别提高17.4%、26.5%、24.1%、29.3%、40.9%,较Stacking、Bagging和Boosting三种集成学习算法分别提高10.1%、5.9%、13.1%。【局限】研究语料来源于汽车行业,具有一定的领域局限性。【结论】该方法能有效识别潜在客户。 展开更多
关键词 用户生成内容 潜在客户识别 Stacking分类算法 不均衡数据集
原文传递
一种基于同义词扩展的不平衡文本分类方法 被引量:1
5
作者 杨鸿骏 周亚建 郭玉翠 《情报杂志》 CSSCI 北大核心 2013年第9期204-206,F0003,共4页
针对传统文本分类方法的性能,尤其是其中少数类的分类性能会随着文本不平衡程度的加重而迅速恶化的现象,提出了一种基于同义词扩展的不平衡文本分类改进方法。该方法通过建立同义词词典、确定扩展规则和调整"特征保持因子"等... 针对传统文本分类方法的性能,尤其是其中少数类的分类性能会随着文本不平衡程度的加重而迅速恶化的现象,提出了一种基于同义词扩展的不平衡文本分类改进方法。该方法通过建立同义词词典、确定扩展规则和调整"特征保持因子"等几个步骤,实现了少数类中的特征项的丰富和补偿,同时对扩展带来的原文档特征变化予以了补偿。实验结果表明,该方法可以从很大程度上改善少数类的分类性能,并且随着少数类中文本数量的减少,性能的提升会越发显著。与此同时,分类器的总体分类性能也得到了一定程度的提升。 展开更多
关键词 文本分类 不平衡数据集 同义词词典 词频保持
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部