期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法
被引量:
18
1
作者
翟云
王树鹏
+2 位作者
马楠
杨炳儒
张德政
《电子学报》
EI
CAS
CSCD
北大核心
2014年第7期1311-1319,共9页
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合...
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link&Distribution Density-SMOTE,OSLDD-SMOTE).OSLDDSMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率.
展开更多
关键词
非平衡数据分类
单边选择链
分布密度
重采样
下载PDF
职称材料
基于新型集成分类器的非平衡数据分类关键问题研究
被引量:
8
2
作者
翟云
杨炳儒
+1 位作者
曲武
隋海峰
《系统工程与电子技术》
EI
CSCD
北大核心
2011年第1期196-201,共6页
针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成...
针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成策略、分类决策方案,可获得较高的分类精度。同时,利用SREC对影响非平衡数据分类的关键问题进行了研究。结果表明,非平衡数据分类问题本质上是由正负样本类间非平衡、类内非平衡、样本规模以及样本非平衡度等诸多因素引起的,只有综合考虑这些因素才能更好地解决非平衡数据分类问题。
展开更多
关键词
数据挖掘
非平衡类数据分类
集成分类器
关键问题
下载PDF
职称材料
异构分类器融合环境下的非平衡数据分类模型
3
作者
翟云
杨炳儒
+2 位作者
周法国
隋海峰
刘丽珍
《高技术通讯》
CAS
CSCD
北大核心
2011年第10期1101-1107,共7页
为解决非平衡数据分类中的正样本分类精度不高的瓶颈问题,提出了一种异构分类器融合环境下的非平衡数据分类模型。该模型基于差异采样率的重采样算法和改进的Adaboost算法,融合了SVM和C5.0两种基分类器;基于知识融合机制,采用了独...
为解决非平衡数据分类中的正样本分类精度不高的瓶颈问题,提出了一种异构分类器融合环境下的非平衡数据分类模型。该模型基于差异采样率的重采样算法和改进的Adaboost算法,融合了SVM和C5.0两种基分类器;基于知识融合机制,采用了独特的分类器选择策略、分类器集成方法、分类决策方案。仿真实验结果表明,SCECM模型分类性能稳定,在非平衡数据集上具有良好的分类性能。
展开更多
关键词
非平衡数据分类
异构分类器
差异采样率
分类模型
下载PDF
职称材料
基于用户生成内容的潜在客户识别方法
被引量:
9
4
作者
蒋翠清
宋凯伦
+1 位作者
丁勇
刘尧
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018年第3期1-8,共8页
【目的】从产品论坛中识别潜在客户,对产品论坛中的用户生成内容特征进行分析,识别有购买意愿的产品潜在客户。【方法】将不均衡数据集转换为n个均衡数据集,结合Stacking分类算法识别潜在客户,分别使用基分类器算法和本文提出的针对不...
【目的】从产品论坛中识别潜在客户,对产品论坛中的用户生成内容特征进行分析,识别有购买意愿的产品潜在客户。【方法】将不均衡数据集转换为n个均衡数据集,结合Stacking分类算法识别潜在客户,分别使用基分类器算法和本文提出的针对不均衡数据集的Stacking分类算法对样本数据进行测试,并通过对比F值验证本文算法的有效性。【结果】本文提出的算法的F值较贝叶斯网络、逻辑回归、C4.5决策树、SMO和朴素贝叶斯5种基分类器算法分别提高17.4%、26.5%、24.1%、29.3%、40.9%,较Stacking、Bagging和Boosting三种集成学习算法分别提高10.1%、5.9%、13.1%。【局限】研究语料来源于汽车行业,具有一定的领域局限性。【结论】该方法能有效识别潜在客户。
展开更多
关键词
用户生成内容
潜在客户识别
Stacking分类算法
不均衡数据集
原文传递
一种基于同义词扩展的不平衡文本分类方法
被引量:
1
5
作者
杨鸿骏
周亚建
郭玉翠
《情报杂志》
CSSCI
北大核心
2013年第9期204-206,F0003,共4页
针对传统文本分类方法的性能,尤其是其中少数类的分类性能会随着文本不平衡程度的加重而迅速恶化的现象,提出了一种基于同义词扩展的不平衡文本分类改进方法。该方法通过建立同义词词典、确定扩展规则和调整"特征保持因子"等...
针对传统文本分类方法的性能,尤其是其中少数类的分类性能会随着文本不平衡程度的加重而迅速恶化的现象,提出了一种基于同义词扩展的不平衡文本分类改进方法。该方法通过建立同义词词典、确定扩展规则和调整"特征保持因子"等几个步骤,实现了少数类中的特征项的丰富和补偿,同时对扩展带来的原文档特征变化予以了补偿。实验结果表明,该方法可以从很大程度上改善少数类的分类性能,并且随着少数类中文本数量的减少,性能的提升会越发显著。与此同时,分类器的总体分类性能也得到了一定程度的提升。
展开更多
关键词
文本分类
不平衡数据集
同义词词典
词频保持
下载PDF
职称材料
题名
基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法
被引量:
18
1
作者
翟云
王树鹏
马楠
杨炳儒
张德政
机构
国家行政学院电子政务研究中心
北京科技大学计算机与通信工程学院
中国科学院信息工程研究所
北京联合大学信息学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2014年第7期1311-1319,共9页
基金
国家自然科学基金(No.61300078
No.61271275)
国家行政学院科研招标课题(No.2012ZBKT016)
文摘
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link&Distribution Density-SMOTE,OSLDD-SMOTE).OSLDDSMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率.
关键词
非平衡数据分类
单边选择链
分布密度
重采样
Keywords
classification
in
imbalanced
datasets
one-sided
link
distribution
density
resample
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于新型集成分类器的非平衡数据分类关键问题研究
被引量:
8
2
作者
翟云
杨炳儒
曲武
隋海峰
机构
北京科技大学信息工程学院
聊城大学计算机学院
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2011年第1期196-201,共6页
基金
国家自然科学基金(60675030
60875029)资助课题
文摘
针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成策略、分类决策方案,可获得较高的分类精度。同时,利用SREC对影响非平衡数据分类的关键问题进行了研究。结果表明,非平衡数据分类问题本质上是由正负样本类间非平衡、类内非平衡、样本规模以及样本非平衡度等诸多因素引起的,只有综合考虑这些因素才能更好地解决非平衡数据分类问题。
关键词
数据挖掘
非平衡类数据分类
集成分类器
关键问题
Keywords
data
mining
classification
in
imbalanced
datasets
ensemble
classifier
source
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
异构分类器融合环境下的非平衡数据分类模型
3
作者
翟云
杨炳儒
周法国
隋海峰
刘丽珍
机构
北京科技大学信息工程学院
聊城大学计算机学院
中国矿业大学机电与信息工程学院
首都师范大学信息工程学院
出处
《高技术通讯》
CAS
CSCD
北大核心
2011年第10期1101-1107,共7页
基金
国家自然科学基金(60675030,60875029),教育部科技重点项目(教技司[2000]175)和北京市自然科学基金(4022008)资助项目.
文摘
为解决非平衡数据分类中的正样本分类精度不高的瓶颈问题,提出了一种异构分类器融合环境下的非平衡数据分类模型。该模型基于差异采样率的重采样算法和改进的Adaboost算法,融合了SVM和C5.0两种基分类器;基于知识融合机制,采用了独特的分类器选择策略、分类器集成方法、分类决策方案。仿真实验结果表明,SCECM模型分类性能稳定,在非平衡数据集上具有良好的分类性能。
关键词
非平衡数据分类
异构分类器
差异采样率
分类模型
Keywords
classification
of
imbalanced
datasets
,
heterogeneous
classifier,
differentiated
sampling
rate,
ensemble
classifier
model
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于用户生成内容的潜在客户识别方法
被引量:
9
4
作者
蒋翠清
宋凯伦
丁勇
刘尧
机构
合肥工业大学管理学院
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018年第3期1-8,共8页
基金
国家自然科学基金项目"基于社交媒体用户生成内容的产品创新需求发现方法研究"(项目编号:71571059)
教育部人文社会科学规划基金项目"社会化媒体对企业绩效的影响机制研究"(项目编号:15YJA630010)的研究成果之一
文摘
【目的】从产品论坛中识别潜在客户,对产品论坛中的用户生成内容特征进行分析,识别有购买意愿的产品潜在客户。【方法】将不均衡数据集转换为n个均衡数据集,结合Stacking分类算法识别潜在客户,分别使用基分类器算法和本文提出的针对不均衡数据集的Stacking分类算法对样本数据进行测试,并通过对比F值验证本文算法的有效性。【结果】本文提出的算法的F值较贝叶斯网络、逻辑回归、C4.5决策树、SMO和朴素贝叶斯5种基分类器算法分别提高17.4%、26.5%、24.1%、29.3%、40.9%,较Stacking、Bagging和Boosting三种集成学习算法分别提高10.1%、5.9%、13.1%。【局限】研究语料来源于汽车行业,具有一定的领域局限性。【结论】该方法能有效识别潜在客户。
关键词
用户生成内容
潜在客户识别
Stacking分类算法
不均衡数据集
Keywords
User-Generated
Content
Potential
Customer
Identification
Stacking
classification
Algorithm
imbalanced
datasets
分类号
C931 [经济管理—管理学]
原文传递
题名
一种基于同义词扩展的不平衡文本分类方法
被引量:
1
5
作者
杨鸿骏
周亚建
郭玉翠
机构
北京邮电大学信息安全中心
灾备技术国家工程实验室
北京邮电大学理学院
出处
《情报杂志》
CSSCI
北大核心
2013年第9期204-206,F0003,共4页
基金
国家自然科学基金项目"基于行为分析的网络流量检测技术研究"(编号:60972077)的资助
文摘
针对传统文本分类方法的性能,尤其是其中少数类的分类性能会随着文本不平衡程度的加重而迅速恶化的现象,提出了一种基于同义词扩展的不平衡文本分类改进方法。该方法通过建立同义词词典、确定扩展规则和调整"特征保持因子"等几个步骤,实现了少数类中的特征项的丰富和补偿,同时对扩展带来的原文档特征变化予以了补偿。实验结果表明,该方法可以从很大程度上改善少数类的分类性能,并且随着少数类中文本数量的减少,性能的提升会越发显著。与此同时,分类器的总体分类性能也得到了一定程度的提升。
关键词
文本分类
不平衡数据集
同义词词典
词频保持
Keywords
text
classification
imbalanced
dataset
synonym-dictionary
term-frequency
maintaining
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法
翟云
王树鹏
马楠
杨炳儒
张德政
《电子学报》
EI
CAS
CSCD
北大核心
2014
18
下载PDF
职称材料
2
基于新型集成分类器的非平衡数据分类关键问题研究
翟云
杨炳儒
曲武
隋海峰
《系统工程与电子技术》
EI
CSCD
北大核心
2011
8
下载PDF
职称材料
3
异构分类器融合环境下的非平衡数据分类模型
翟云
杨炳儒
周法国
隋海峰
刘丽珍
《高技术通讯》
CAS
CSCD
北大核心
2011
0
下载PDF
职称材料
4
基于用户生成内容的潜在客户识别方法
蒋翠清
宋凯伦
丁勇
刘尧
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018
9
原文传递
5
一种基于同义词扩展的不平衡文本分类方法
杨鸿骏
周亚建
郭玉翠
《情报杂志》
CSSCI
北大核心
2013
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部