期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于混合卡方统计量与逻辑回归的文本情感分析
被引量:
19
1
作者
李平
戴月明
王艳
《计算机工程》
CAS
CSCD
北大核心
2017年第12期192-196,202,共6页
针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计量的特征提取方法。通过增加特征频率、逆文档频率和负相关性指标,选出集中在某个特定类别中的特征词,从...
针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计量的特征提取方法。通过增加特征频率、逆文档频率和负相关性指标,选出集中在某个特定类别中的特征词,从而减少特征负相关性的干扰。采用基于随机梯度下降的逻辑回归方法进行文本情感分类,并利用模拟退火原理自适应选择步长,解决随机梯度下降算法中步长难以确定的问题。实验结果表明,与基于卡方统计量的特征提取方法相比,该方法具有更高的文本情感分类质量。
展开更多
关键词
卡方统计量
特征提取
负相关性
随机梯度下降
逻辑回归
情感分类
下载PDF
职称材料
一种基于概率的卡方特征选择方法
被引量:
8
2
作者
张辉宜
谢业名
+1 位作者
袁志祥
孙国华
《计算机工程》
CAS
CSCD
北大核心
2016年第8期194-198,205,共6页
传统卡方特征选择方法没有考虑在不均衡数据集上词出现的类别数量、词的频度以及在类间与类内的分布情况等,以致不能为不同的类别选择出有效的特征词。为此,提出一种卡方特征选择方法。以词概率和文档概率衡量词文档频繁程度,并用来分...
传统卡方特征选择方法没有考虑在不均衡数据集上词出现的类别数量、词的频度以及在类间与类内的分布情况等,以致不能为不同的类别选择出有效的特征词。为此,提出一种卡方特征选择方法。以词概率和文档概率衡量词文档频繁程度,并用来分别计算类别频数因子、词的类间集中因子、词在类内的均衡度因子、文档的类间集中因子。基于这些因子修正卡方值,利用同一个词不同类别的差异程度因子,使得改进的卡方能选出更高效的特征词。文本分类实验结果表明,与改进前的方法相比,该方法能使宏观F1值得到一定程度的提高,在不均衡数据集上具有更好的分类效果。
展开更多
关键词
文本分类
卡方统计
特征选择
不均衡数据集
概率方法
下载PDF
职称材料
文本分类中基于CHI和PCA混合特征的降维方法
被引量:
8
3
作者
唐加山
段丹丹
《重庆邮电大学学报(自然科学版)》
CSCD
北大核心
2022年第1期164-171,共8页
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component a...
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。
展开更多
关键词
中文文本分类
特征降维
混合特征降维方法(
chi
-PCA)
卡方统计(
chi
)方法
主成分分析(PCA)
下载PDF
职称材料
基于信息增益与CHI卡方统计的情感文本特征选择
被引量:
2
4
作者
杨新怡
肖利雪
《计算机与数字工程》
2020年第11期2560-2563,共4页
信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是...
信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的,其易忽略低频词对文本影响。通过融合IG和CHI两种特征选择算法,并在此基础上对情感词的特征值附加权值区别于非情感词,基于该算法采用支持向量机(SVM)分类算法对文本数据进行情感倾向性分类,实验结果表明,该方式可以极大提高情感分本分类。
展开更多
关键词
信息增益(IG)
卡方统计(
chi
)
情感文本
支持向量机(SVM)
下载PDF
职称材料
题名
基于混合卡方统计量与逻辑回归的文本情感分析
被引量:
19
1
作者
李平
戴月明
王艳
机构
江南大学物联网工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第12期192-196,202,共6页
基金
国家自然科学基金(61572238)
江苏省杰出青年基金(BK20160001)
文摘
针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计量的特征提取方法。通过增加特征频率、逆文档频率和负相关性指标,选出集中在某个特定类别中的特征词,从而减少特征负相关性的干扰。采用基于随机梯度下降的逻辑回归方法进行文本情感分类,并利用模拟退火原理自适应选择步长,解决随机梯度下降算法中步长难以确定的问题。实验结果表明,与基于卡方统计量的特征提取方法相比,该方法具有更高的文本情感分类质量。
关键词
卡方统计量
特征提取
负相关性
随机梯度下降
逻辑回归
情感分类
Keywords
chi
-
square
statistic
(
chi
)
feature
extraction
negative
correlation
stochastic
gradient
descent
logistic
regression
sentiment
classification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于概率的卡方特征选择方法
被引量:
8
2
作者
张辉宜
谢业名
袁志祥
孙国华
机构
安徽工业大学计算机科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第8期194-198,205,共6页
基金
国家科技支撑计划基金资助项目"节能减排监测控制技术信息集成平台开发"(2012BAK30B04-02)
文摘
传统卡方特征选择方法没有考虑在不均衡数据集上词出现的类别数量、词的频度以及在类间与类内的分布情况等,以致不能为不同的类别选择出有效的特征词。为此,提出一种卡方特征选择方法。以词概率和文档概率衡量词文档频繁程度,并用来分别计算类别频数因子、词的类间集中因子、词在类内的均衡度因子、文档的类间集中因子。基于这些因子修正卡方值,利用同一个词不同类别的差异程度因子,使得改进的卡方能选出更高效的特征词。文本分类实验结果表明,与改进前的方法相比,该方法能使宏观F1值得到一定程度的提高,在不均衡数据集上具有更好的分类效果。
关键词
文本分类
卡方统计
特征选择
不均衡数据集
概率方法
Keywords
text
categorization
chi
-
square
statistic
(
chi
)
feature
selection
imbalanced
dataset
probability
method
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
文本分类中基于CHI和PCA混合特征的降维方法
被引量:
8
3
作者
唐加山
段丹丹
机构
南京邮电大学理学院
出处
《重庆邮电大学学报(自然科学版)》
CSCD
北大核心
2022年第1期164-171,共8页
文摘
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。
关键词
中文文本分类
特征降维
混合特征降维方法(
chi
-PCA)
卡方统计(
chi
)方法
主成分分析(PCA)
Keywords
chi
nese
text
classification
feature
reduction
chi
-
square
statistic
s-principal
component
analysis(
chi
-PCA)
chi
-
square
statistic
s(
chi
)
principal
component
analysis(PCA)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于信息增益与CHI卡方统计的情感文本特征选择
被引量:
2
4
作者
杨新怡
肖利雪
机构
西安邮电大学计算机学院
出处
《计算机与数字工程》
2020年第11期2560-2563,共4页
文摘
信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的,其易忽略低频词对文本影响。通过融合IG和CHI两种特征选择算法,并在此基础上对情感词的特征值附加权值区别于非情感词,基于该算法采用支持向量机(SVM)分类算法对文本数据进行情感倾向性分类,实验结果表明,该方式可以极大提高情感分本分类。
关键词
信息增益(IG)
卡方统计(
chi
)
情感文本
支持向量机(SVM)
Keywords
information
gain(IG)
chi
-
square
statistic
s(
chi
)
emotional
text
support
vector
ma
chi
ne(SVM)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于混合卡方统计量与逻辑回归的文本情感分析
李平
戴月明
王艳
《计算机工程》
CAS
CSCD
北大核心
2017
19
下载PDF
职称材料
2
一种基于概率的卡方特征选择方法
张辉宜
谢业名
袁志祥
孙国华
《计算机工程》
CAS
CSCD
北大核心
2016
8
下载PDF
职称材料
3
文本分类中基于CHI和PCA混合特征的降维方法
唐加山
段丹丹
《重庆邮电大学学报(自然科学版)》
CSCD
北大核心
2022
8
下载PDF
职称材料
4
基于信息增益与CHI卡方统计的情感文本特征选择
杨新怡
肖利雪
《计算机与数字工程》
2020
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部