期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于信息增益与CHI卡方统计的情感文本特征选择
被引量:
2
1
作者
杨新怡
肖利雪
《计算机与数字工程》
2020年第11期2560-2563,共4页
信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是...
信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的,其易忽略低频词对文本影响。通过融合IG和CHI两种特征选择算法,并在此基础上对情感词的特征值附加权值区别于非情感词,基于该算法采用支持向量机(SVM)分类算法对文本数据进行情感倾向性分类,实验结果表明,该方式可以极大提高情感分本分类。
展开更多
关键词
信息增益(IG)
卡
方
统计
(
chi
)
情感文本
支持向量机(SVM)
下载PDF
职称材料
文本分类中基于CHI和PCA混合特征的降维方法
被引量:
8
2
作者
唐加山
段丹丹
《重庆邮电大学学报(自然科学版)》
CSCD
北大核心
2022年第1期164-171,共8页
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component a...
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。
展开更多
关键词
中文文本分类
特征降维
混合特征降维
方
法(
chi
-PCA)
卡
方
统计
(
chi
)
方
法
主成分分析(PCA)
下载PDF
职称材料
融合CHI与信息增益的情感文本特征选择
被引量:
3
3
作者
黄梦莹
张晓滨
《西安工程大学学报》
CAS
2018年第6期713-717,共5页
针对卡方统计量(CHI)忽略低频词对文本分类的影响以及信息增益(IG)只考虑对整体的贡献,忽略对局部影响的问题,通过分析CHI和IG特征选择算法,提出融合CHI和IG,适用于情感文本分类的文本特征选择算法(CHI-IG).该算法在CHI和IG 2种特征选...
针对卡方统计量(CHI)忽略低频词对文本分类的影响以及信息增益(IG)只考虑对整体的贡献,忽略对局部影响的问题,通过分析CHI和IG特征选择算法,提出融合CHI和IG,适用于情感文本分类的文本特征选择算法(CHI-IG).该算法在CHI和IG 2种特征选择算法中增加了权值,集合这2种特征选择算法的优点,降低了2种方法不足带来的影响.并在此基础上对情感词的特征值附加权值区别于非情感词.基于该算法并采用随机森林(Random Forest)和支持向量机(SVM)分类方法对情感文本进行分类实验.结果表明,该方法能有效地提高情感文本的分类效率.
展开更多
关键词
卡
方
统计
量(
chi
)
信息增益
特征选择
情感文本
随机森林
支持向量机
下载PDF
职称材料
题名
基于信息增益与CHI卡方统计的情感文本特征选择
被引量:
2
1
作者
杨新怡
肖利雪
机构
西安邮电大学计算机学院
出处
《计算机与数字工程》
2020年第11期2560-2563,共4页
文摘
信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的,其易忽略低频词对文本影响。通过融合IG和CHI两种特征选择算法,并在此基础上对情感词的特征值附加权值区别于非情感词,基于该算法采用支持向量机(SVM)分类算法对文本数据进行情感倾向性分类,实验结果表明,该方式可以极大提高情感分本分类。
关键词
信息增益(IG)
卡
方
统计
(
chi
)
情感文本
支持向量机(SVM)
Keywords
information gain(IG)
chi
-square statistics(
chi
)
emotional text
support vector ma
chi
ne(SVM)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
文本分类中基于CHI和PCA混合特征的降维方法
被引量:
8
2
作者
唐加山
段丹丹
机构
南京邮电大学理学院
出处
《重庆邮电大学学报(自然科学版)》
CSCD
北大核心
2022年第1期164-171,共8页
文摘
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。
关键词
中文文本分类
特征降维
混合特征降维
方
法(
chi
-PCA)
卡
方
统计
(
chi
)
方
法
主成分分析(PCA)
Keywords
chi
nese text classification
feature reduction
chi
-square statistics-principal component analysis(
chi
-PCA)
chi
-square statistics(
chi
)
principal component analysis(PCA)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
融合CHI与信息增益的情感文本特征选择
被引量:
3
3
作者
黄梦莹
张晓滨
机构
西安工程大学计算机科学学院
出处
《西安工程大学学报》
CAS
2018年第6期713-717,共5页
基金
陕西省自然科学基金(2015JQ5157)
文摘
针对卡方统计量(CHI)忽略低频词对文本分类的影响以及信息增益(IG)只考虑对整体的贡献,忽略对局部影响的问题,通过分析CHI和IG特征选择算法,提出融合CHI和IG,适用于情感文本分类的文本特征选择算法(CHI-IG).该算法在CHI和IG 2种特征选择算法中增加了权值,集合这2种特征选择算法的优点,降低了2种方法不足带来的影响.并在此基础上对情感词的特征值附加权值区别于非情感词.基于该算法并采用随机森林(Random Forest)和支持向量机(SVM)分类方法对情感文本进行分类实验.结果表明,该方法能有效地提高情感文本的分类效率.
关键词
卡
方
统计
量(
chi
)
信息增益
特征选择
情感文本
随机森林
支持向量机
Keywords
chi
information gain
feature selection
sentiment text
random forest
SVM
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于信息增益与CHI卡方统计的情感文本特征选择
杨新怡
肖利雪
《计算机与数字工程》
2020
2
下载PDF
职称材料
2
文本分类中基于CHI和PCA混合特征的降维方法
唐加山
段丹丹
《重庆邮电大学学报(自然科学版)》
CSCD
北大核心
2022
8
下载PDF
职称材料
3
融合CHI与信息增益的情感文本特征选择
黄梦莹
张晓滨
《西安工程大学学报》
CAS
2018
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部