期刊文献+

改进的χ^2统计文本特征选择方法 被引量:26

Improved χ^2 statistics method for text feature selection
下载PDF
导出
摘要 特征选择是当今研究领域的一个热点,尤其是文本分类领域中的热点。针对χ2统计方法的两个缺陷:降低了低频词的权重和提高了很少在指定类中出现但普遍存在于其他类的特征在该类中的权重,对χ2统计方法进行改进,并通过做模拟和对比实验,对比改进前后的方法对文本分类的影响。在模拟和对比实验中,改进后方法的分类效果要好于传统的方法。 Feature selection is a hot topic in current search field,especially in the field of text categorization.In this paper,χ2 statistical method has two defects.One is reducing the weight of the low-frequency words.The other is increasing the weight of the characteristics in the designated class.The characteristics little appear in designated class but other classes.Through simulation and comparison experiment,the result is better than before.
作者 肖婷 唐雁
出处 《计算机工程与应用》 CSCD 北大核心 2009年第14期136-137,140,共3页 Computer Engineering and Applications
关键词 文本分类 特征选择 χ2统计 text categorization feature selection χ^2 statistics
  • 相关文献

参考文献7

  • 1Han Jia-wei,Kamber M.数据挖掘[M].2版.北京:机械工业出版社,2001. 被引量:1
  • 2寇苏玲,蔡庆生.中文文本分类中的特征选择研究[J].计算机仿真,2007,24(3):289-291. 被引量:30
  • 3Yang Y,Pedersen J Q.A comparative study on feature selection in text categorizaitiort[C]//Proeeeding of the 14 International Conference on Machine Leaming(ICML),1997:412-420. 被引量:1
  • 4He Ji,Tan Ah-hwee,Tan Chew-lira.On machine learning method for chinese text categorization[J].Applied Science,2003,18:311-322. 被引量:1
  • 5Feng Shi-cong,Shan Song-wei.An improved feature selection algorithm for automatic Chinese Web page classification[EB/OL].(2003). http://162.105.80.88/crazysite/home/report/upload/1889565288.doc. 被引量:1
  • 6张俐,李星,陆大.中文网页自动分类新算法[J].清华大学学报(自然科学版),2000,40(1):39-42. 被引量:18
  • 7李荣陆..文本分类及其相关技术研究[D].复旦大学,2005:

二级参考文献8

  • 1Zhang Li,The First AEARU Workshop on Web Technology,1998年,10页 被引量:1
  • 2Yiming Yang.A Comparative Study on Feature Selection in Text Categorization[J].The ICML97,Nashville,1997. 被引量:1
  • 3Monica Rogati,Y Yang.High-Performing Feature Selection for Text categorization[C].Proceedings of the Fourteenth International Conference on Machine Learning (ICML'99),2000. 被引量:1
  • 4Thorsten Joachims.Text Classification with Support Vector Machines:Learning with Many Relevant Feature[J].Artificial Intelligence Journal special issue:Best of IJCAI-99,2000. 被引量:1
  • 5T Joachims.Making large-Scale SVM Learning Practical.Advances in Kernel Methods-Support Vector Learning[M].B Sch?lkopf and C Burges and A Smola (ed.),MIT-Press,1999. 被引量:1
  • 6范劲松,方廷健.特征选择和提取要素的分析及其评价[J].计算机工程与应用,2001,37(13):95-99. 被引量:18
  • 7刘江华,程君实,陈佳品.支持向量机训练算法综述[J].信息与控制,2002,31(1):45-50. 被引量:97
  • 8秦进,陈笑蓉,汪维家,陆汝占.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46. 被引量:73

共引文献46

同被引文献209

引证文献26

二级引证文献162

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部