深度森林是一种有效的机器学习方法,但在级联森林模块中,森林中子树的特征选择随机性较大,使用传统的平均值法可能导致森林的预测概率存在一定误差,从而影响整个算法性能.针对以上问题,提出了一种基于加权深度森林离群数据挖掘算法(Weig...深度森林是一种有效的机器学习方法,但在级联森林模块中,森林中子树的特征选择随机性较大,使用传统的平均值法可能导致森林的预测概率存在一定误差,从而影响整个算法性能.针对以上问题,提出了一种基于加权深度森林离群数据挖掘算法(Weight Deep Forest,WDF).首先,通过森林的预测概率定义权重因子μ,描述当前层森林准确率大小;其次,在级联森林模块的构建过程中,把权重因子μ作为级联层中每个森林的权重,从而降低森林中根节点特征的随机选择对算法性能的影响;根据数据样本分布的不同,通过计算其类密度重新定义了局部孤立因子α,描述数据离群程度大小;最后利用UCI数据集以及LAMOST光谱数据对算法进行验证,结果表明该算法与同类算法相比在离群点检测方面具有更高的挖掘质量.展开更多
为了有效实现评论文本的情感倾向性预测,在深度森林模型的基础上提出一种基于强化表征学习的深度森林算法BFDF(Boosting Feature of Deep Forest)来对文本进行情感分类。首先,提取二元特征与情感语义概率特征;其次,对二元特征中的评价...为了有效实现评论文本的情感倾向性预测,在深度森林模型的基础上提出一种基于强化表征学习的深度森林算法BFDF(Boosting Feature of Deep Forest)来对文本进行情感分类。首先,提取二元特征与情感语义概率特征;其次,对二元特征中的评价对象做聚类处理以及特征融合;然后,改进深度森林级联层的表征学习能力,避免特征信息逐渐削减;最后,将AdaBoost方法融入到深度森林,使深度森林注意到不同特征的重要性,进而得到改进的模型BFDF。在酒店评论语料集上进行了实验验证,实验结果证明了该方法的有效性。展开更多
文摘深度森林是一种有效的机器学习方法,但在级联森林模块中,森林中子树的特征选择随机性较大,使用传统的平均值法可能导致森林的预测概率存在一定误差,从而影响整个算法性能.针对以上问题,提出了一种基于加权深度森林离群数据挖掘算法(Weight Deep Forest,WDF).首先,通过森林的预测概率定义权重因子μ,描述当前层森林准确率大小;其次,在级联森林模块的构建过程中,把权重因子μ作为级联层中每个森林的权重,从而降低森林中根节点特征的随机选择对算法性能的影响;根据数据样本分布的不同,通过计算其类密度重新定义了局部孤立因子α,描述数据离群程度大小;最后利用UCI数据集以及LAMOST光谱数据对算法进行验证,结果表明该算法与同类算法相比在离群点检测方面具有更高的挖掘质量.
文摘为了有效实现评论文本的情感倾向性预测,在深度森林模型的基础上提出一种基于强化表征学习的深度森林算法BFDF(Boosting Feature of Deep Forest)来对文本进行情感分类。首先,提取二元特征与情感语义概率特征;其次,对二元特征中的评价对象做聚类处理以及特征融合;然后,改进深度森林级联层的表征学习能力,避免特征信息逐渐削减;最后,将AdaBoost方法融入到深度森林,使深度森林注意到不同特征的重要性,进而得到改进的模型BFDF。在酒店评论语料集上进行了实验验证,实验结果证明了该方法的有效性。