期刊文献+

基于神经网络的中文文本分类中的特征选择技术 被引量:8

Feature Selection for Neural Network-based Chinese Text Categorization
下载PDF
导出
摘要 基于神经网络的中文文本分类需要解决的核心问题是特征的选择问题,特征选择涉及选择哪些特征和选择的特征维度两个问题。针对上述问题,提出了信息增益(IG)与主成分分析(PCA)相结合的特征选择方法。通过实验比较分析了不同特征选择方法与特征维度对分类性能的影响,证明了该特征选择方法在基于神经网络的中文文本分类中的优越性,并得出神经网络的特征输入维度在200左右的时候分类性能最佳。 The main problem in the Neural Network (NN) based Chinese text categorization is feature selection for textual data. Feature Selection involves what feature to select and how large the dim of the feature space should be, Aiming at the preceding problem, this paper puts forward a feature selection method using Information Gain (IG) and Principle Component Analysis(PCA). Compare and analyze the categorization performance of different feature selection methods and different feature dims in the experiments. Therefore, the superiority of the proposed feature selection method for NN based Chinese text categorization is proved. The experiments also show that the performance of the NN becomes highest when the feature dim is around 200.
出处 《计算机应用研究》 CSCD 北大核心 2006年第7期161-164,共4页 Application Research of Computers
基金 国家"863"计划资助项目(2002AA117010-10) 2005年教育部科技基础条件平台建设项目
关键词 文本分类 神经网络 主成分分析 特征选择 Text Categorization Neural Network (NN) Principle Component Analyze (PCA) Feature Selection
  • 相关文献

参考文献12

  • 1C Apte, F J Damerau, S M Weiss, Automated Learning of Decision Rules for Text Categorization[J]. ACM Trans. Information Systems,1994,12(3):233-251. 被引量:1
  • 2Yiming Yang. An Evaluation of Statistical Approach to Text Categorization [J]. Information Retrieval Journal, 1999,1 (1/2):67-88. 被引量:1
  • 3Tom Mitchell. Machine Learning[M]. McCraw Hill, 1996, 5-68. 被引量:1
  • 4K Aas, L Eikvil. Text Categorization: A Survey [R]. Norwegian Computing Center, Report NR 941,1999.8-9. 被引量:1
  • 5Erik Wiener, Jan O Pedersen, Andreas S Weigend. A Neural Network Approach to Topic Spotting[C]. Proceedings of the 4th Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95), 1995.317-332. 被引量:1
  • 6H Ng, W Goh, K Low, Feature Selection, Perceptron Learning, and a Usability Case Study for Text Categorization[C]. Prec. of the 20th Int. ACM SIGIR Conf. on Research and Development in Information Retrieval(SIGIR97), 1997.67-73. 被引量:1
  • 7陶兰,申军霞.文本信息自动分类系统ITC98(Ⅱ)──基于BP网络的文本分类子系统[J].中国农业大学学报,1999,4(4):78-81. 被引量:1
  • 8刘钢,胡四泉,范植华,王勇,张彤.神经网络在文本分类上的一种应用[J].计算机工程与应用,2003,39(36):73-74. 被引量:13
  • 9E B Baum, H David. What Size Net Gives Valid Generalization[J].Neural Computation, 1989,1(1): 151-160. 被引量:1
  • 10陈世福等编著..人工智能与知识工程[M].南京:南京大学出版社,1997:426.

二级参考文献3

  • 1申军霞.文本信息自动分类系统及其应用研究:学位论文[M].北京:中国农业大学,1998.14-17,28-40. 被引量:2
  • 2鲁松 白硕 等.文本中词语权重计算方法的改进[A]..2000 International Conference on Multilingual Information Processing[C].,2000.31~36. 被引量:3
  • 3申军霞,学位论文,1998年,14-17,28-40页 被引量:1

共引文献12

同被引文献56

引证文献8

二级引证文献19

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部