-
题名基于词频类别相关的特征权重算法
被引量:6
- 1
-
-
作者
张羚
陆余良
杨国正
-
机构
电子工程学院网络系
-
出处
《计算机应用研究》
CSCD
北大核心
2017年第2期386-391,共6页
-
文摘
在文本分类领域中,目前关于特征权重的研究存在两方面不足:一方面,对于基于文档频率的特征权重算法,其中的文档频率常常忽略特征的词频信息;另一方面,对特征与类别的关系表达不够准确和充分。针对以上不足,提出一种新的基于词频的类别相关特征权重算法(CDF-AICF)。该算法在度量特征权重时,考虑了特征在每个词频下的文档频率。同时,为了准确表达特征与类别的关系,提出了两个新的概念:类别相关文档频率CDF和平均逆类频率AICF,分别用于表示特征对类别的表现力和区分力。最后,通过与其他五个特征权重度量方法相比较,在三个数据集上进行分类实验,结果显示,CDF-AICF的分类性能优于其他五种度量方法。
-
关键词
文本分类
文本表示
特征权重
文档频率
逆类频率
-
Keywords
text classification
text representation
term weighting
document frequency
inverse category frequency
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-