期刊文献+

文本分类特征降维研究综述 被引量:16

Review of Feature Dimension Reduction in Text Classification
原文传递
导出
摘要 特征降维是文本分类的关键技术之一,包括特征选择与特征抽取两类,其中特征选择按特征子集获取范围、特征子集搜索策略、特征子集评价策略等方式进行不同划分。归纳出当前特征选择与特征抽取所用的常用方法,分析各种方法的原理、指出每种方法的优势与不足,总结出相应改进算法。 Feature dimension reduction is one of the key technology for text classification. It includes feature selection and feature extraction,and feature selection is classified into three cases according to obtainning feature subset area,obtaining feature subset strategy, feature subset valuation criterion. Feature selection and feature extraction methods' advantages and disadvantages are elaborated respectrvely, and the improved algorithm are concluded.
作者 奉国和 郑伟
出处 《图书情报工作》 CSSCI 北大核心 2011年第9期109-113,共5页 Library and Information Service
基金 国家社会科学基金项目"自动文本分类技术研究"(项目编号:08CTQ003) 河北北方学院自然科学青年基金项目"一种基于生成树文档聚类的KNN分类算法"(项目编号:Q2010008)研究成果之一
关键词 文本分类 特征降维 特征选择 特征抽取 text classification feature dimension reduction feature selection feature extraction
  • 相关文献

参考文献36

  • 1Zhang D,Chen S,Zhou Z. Constraint score:A new filter method for feature selection with pair-wise constraints. Pattern Recognition, 2008 (41) :1440 - 1451. 被引量:1
  • 2皋军,王士同,邓赵红.广义的势支撑特征选择方法GPSFM[J].计算机研究与发展,2009,46(1):41-51. 被引量:6
  • 3Dash D, Liu H. Feature selection for classification. Intelligent Data Analysis,1997,1 (3) :131 - 156. 被引量:1
  • 4Lee C K, Lee G G. Information gain and divergence-based feature selection for machine learning-based text categorization. Information Processing and Management ,2006,42 ( 1 ) : 155 - 165. 被引量:1
  • 5Cai J H, Song F. Maximum entropy modeling with feature selection for text categorization//AIRS2008. Berlin Heidelberg: Springer- Verlag,2008:549 - 554. 被引量:1
  • 6Schneider K M. Weighted average pointwise mutual information for feature selection in text categorization//PKDD2005. Berlin Heidel- berg: Springer-Verlag,2005:252 - 263. 被引量:1
  • 7Zheng Z H, Srihari S N. Text categorization using modified-CHI fea- ture selection and document/term frequencies//ICMLA2002. Las Vegas, Nevada : CSREA Press, 2002 : 143 - 146. 被引量:1
  • 8Deng Z H. Two Odds-radio-based text classification algorithms// WISE ' 2002. Washington : IEEE Computer Society, 2002 : 223 - 231. 被引量:1
  • 9Graves C G, Matanoski G M, Tardiff R G. Weight of evidence for an association between adverse reproductive and developmental effects and exposure to disinfection by-products: A critical review. Regu- latory Toxicology and Pharmacology, 2001,34 ( 2 ) : 103 - 124. 被引量:1
  • 10尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量:38

二级参考文献162

共引文献552

同被引文献261

引证文献16

二级引证文献274

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部