现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学...现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法——NIBoost (New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。展开更多
为了有效实现评论文本的情感倾向性预测,在深度森林模型的基础上提出一种基于强化表征学习的深度森林算法BFDF(Boosting Feature of Deep Forest)来对文本进行情感分类。首先,提取二元特征与情感语义概率特征;其次,对二元特征中的评价...为了有效实现评论文本的情感倾向性预测,在深度森林模型的基础上提出一种基于强化表征学习的深度森林算法BFDF(Boosting Feature of Deep Forest)来对文本进行情感分类。首先,提取二元特征与情感语义概率特征;其次,对二元特征中的评价对象做聚类处理以及特征融合;然后,改进深度森林级联层的表征学习能力,避免特征信息逐渐削减;最后,将AdaBoost方法融入到深度森林,使深度森林注意到不同特征的重要性,进而得到改进的模型BFDF。在酒店评论语料集上进行了实验验证,实验结果证明了该方法的有效性。展开更多
文摘现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法——NIBoost (New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。
文摘为了有效实现评论文本的情感倾向性预测,在深度森林模型的基础上提出一种基于强化表征学习的深度森林算法BFDF(Boosting Feature of Deep Forest)来对文本进行情感分类。首先,提取二元特征与情感语义概率特征;其次,对二元特征中的评价对象做聚类处理以及特征融合;然后,改进深度森林级联层的表征学习能力,避免特征信息逐渐削减;最后,将AdaBoost方法融入到深度森林,使深度森林注意到不同特征的重要性,进而得到改进的模型BFDF。在酒店评论语料集上进行了实验验证,实验结果证明了该方法的有效性。