期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于混合卡方统计量与逻辑回归的文本情感分析 被引量:19
1
作者 李平 戴月明 王艳 《计算机工程》 CAS CSCD 北大核心 2017年第12期192-196,202,共6页
针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计量的特征提取方法。通过增加特征频率、逆文档频率和负相关性指标,选出集中在某个特定类别中的特征词,从... 针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计量的特征提取方法。通过增加特征频率、逆文档频率和负相关性指标,选出集中在某个特定类别中的特征词,从而减少特征负相关性的干扰。采用基于随机梯度下降的逻辑回归方法进行文本情感分类,并利用模拟退火原理自适应选择步长,解决随机梯度下降算法中步长难以确定的问题。实验结果表明,与基于卡方统计量的特征提取方法相比,该方法具有更高的文本情感分类质量。 展开更多
关键词 卡方统计量 特征提取 负相关性 随机梯度下降 逻辑回归 情感分类
下载PDF
一种基于概率的卡方特征选择方法 被引量:8
2
作者 张辉宜 谢业名 +1 位作者 袁志祥 孙国华 《计算机工程》 CAS CSCD 北大核心 2016年第8期194-198,205,共6页
传统卡方特征选择方法没有考虑在不均衡数据集上词出现的类别数量、词的频度以及在类间与类内的分布情况等,以致不能为不同的类别选择出有效的特征词。为此,提出一种卡方特征选择方法。以词概率和文档概率衡量词文档频繁程度,并用来分... 传统卡方特征选择方法没有考虑在不均衡数据集上词出现的类别数量、词的频度以及在类间与类内的分布情况等,以致不能为不同的类别选择出有效的特征词。为此,提出一种卡方特征选择方法。以词概率和文档概率衡量词文档频繁程度,并用来分别计算类别频数因子、词的类间集中因子、词在类内的均衡度因子、文档的类间集中因子。基于这些因子修正卡方值,利用同一个词不同类别的差异程度因子,使得改进的卡方能选出更高效的特征词。文本分类实验结果表明,与改进前的方法相比,该方法能使宏观F1值得到一定程度的提高,在不均衡数据集上具有更好的分类效果。 展开更多
关键词 文本分类 卡方统计 特征选择 不均衡数据集 概率方法
下载PDF
文本分类中基于CHI和PCA混合特征的降维方法 被引量:8
3
作者 唐加山 段丹丹 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2022年第1期164-171,共8页
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component a... 中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。 展开更多
关键词 中文文本分类 特征降维 混合特征降维方法(chi-PCA) 卡方统计(chi)方法 主成分分析(PCA)
下载PDF
基于信息增益与CHI卡方统计的情感文本特征选择 被引量:2
4
作者 杨新怡 肖利雪 《计算机与数字工程》 2020年第11期2560-2563,共4页
信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是... 信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的,其易忽略低频词对文本影响。通过融合IG和CHI两种特征选择算法,并在此基础上对情感词的特征值附加权值区别于非情感词,基于该算法采用支持向量机(SVM)分类算法对文本数据进行情感倾向性分类,实验结果表明,该方式可以极大提高情感分本分类。 展开更多
关键词 信息增益(IG) 卡方统计(chi) 情感文本 支持向量机(SVM)
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部