-
题名文本自动分类中特征权重算法的改进研究
被引量:56
- 1
-
-
作者
徐凤亚
罗振声
-
机构
清华大学计算语言学研究室
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第1期181-184,220,共5页
-
文摘
文章研究并改进了文本自动分类中的特征权重算法。传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息。该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础上提出了低频高权特征集的构造方法及特征权重的新算法,同时将该算法推广到多层次分类体系。实验证明该算法能有效提高分类的精确度,而且在多级分类中也能取得很好的效果。
-
关键词
特征项
权重算法
分布信息
低频高权特征
文本分类
-
Keywords
term,weighting algorithm,DI,LFHW Terms,text classification
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-