期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于信息增益与CHI卡方统计的情感文本特征选择 被引量:2
1
作者 杨新怡 肖利雪 《计算机与数字工程》 2020年第11期2560-2563,共4页
信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是... 信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的,其易忽略低频词对文本影响。通过融合IG和CHI两种特征选择算法,并在此基础上对情感词的特征值附加权值区别于非情感词,基于该算法采用支持向量机(SVM)分类算法对文本数据进行情感倾向性分类,实验结果表明,该方式可以极大提高情感分本分类。 展开更多
关键词 信息增益(IG) 统计(chi) 情感文本 支持向量机(SVM)
下载PDF
文本分类中基于CHI和PCA混合特征的降维方法 被引量:8
2
作者 唐加山 段丹丹 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2022年第1期164-171,共8页
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component a... 中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。 展开更多
关键词 中文文本分类 特征降维 混合特征降维法(chi-PCA) 统计(chi) 主成分分析(PCA)
下载PDF
融合CHI与信息增益的情感文本特征选择 被引量:3
3
作者 黄梦莹 张晓滨 《西安工程大学学报》 CAS 2018年第6期713-717,共5页
针对卡方统计量(CHI)忽略低频词对文本分类的影响以及信息增益(IG)只考虑对整体的贡献,忽略对局部影响的问题,通过分析CHI和IG特征选择算法,提出融合CHI和IG,适用于情感文本分类的文本特征选择算法(CHI-IG).该算法在CHI和IG 2种特征选... 针对卡方统计量(CHI)忽略低频词对文本分类的影响以及信息增益(IG)只考虑对整体的贡献,忽略对局部影响的问题,通过分析CHI和IG特征选择算法,提出融合CHI和IG,适用于情感文本分类的文本特征选择算法(CHI-IG).该算法在CHI和IG 2种特征选择算法中增加了权值,集合这2种特征选择算法的优点,降低了2种方法不足带来的影响.并在此基础上对情感词的特征值附加权值区别于非情感词.基于该算法并采用随机森林(Random Forest)和支持向量机(SVM)分类方法对情感文本进行分类实验.结果表明,该方法能有效地提高情感文本的分类效率. 展开更多
关键词 统计量(chi) 信息增益 特征选择 情感文本 随机森林 支持向量机
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部