期刊文献+

一种用于大规模文本分类的特征表示方法 被引量:12

Method of expressing features used for large-scale text classification
下载PDF
导出
摘要 随着网络和信息技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。文本的特征表示严重地限制了文本分类性能的提升。以经典的向量空间模型和tf-idf权值计算公式为基础,提出了以应用于文本分类为目的的权值改进公式p-idf公式。在比较了贝叶斯、K近邻、神经网络和支持向量机四种典型的文本分类器的基础上,采用支持向量机分类器搭建了一个文本分类试验系统。经过科学的试验比较了tf-idf、p-idf、LTC三种权值公式在文本分类系统中对分类器性能的影响,证实了所提出的p-idf公式的合理性和有效性。 Along with the technical development of network and information technology,the text categorization becomes the key technique on processing and organizing large scale of texts.How to characterize the text exactly as a data set that can be processed is a key problem that restricts the improvement of text categorization results seriously.The author brings up a formula used to characterize the text named p-idf based on the vector space model and ff-idf.After comparing Bayes ,K neighbors,neural network and support vector machine these four typical text categorization devices,the author builds a text categorization system using support vector machine.After a scientifical test which displays the impact to the text categorization system of these three formula ff-idf, p-idf,LTC,we can conclude that the p-idf formula is reasonable and valid to a text categorization system.
出处 《计算机工程与应用》 CSCD 北大核心 2007年第15期170-172,共3页 Computer Engineering and Applications
关键词 文本分类 向量空间模型 p-idf 支持向量机 text categorization vector space model p-idf Support Vector Machine(SVM)
  • 相关文献

参考文献6

  • 1Joachims T.Text categorization with support vector machines:learning with many relevant features,LS-8 Report 23[R].Dortmund:University of Dortmund Computer Science Department,1998. 被引量:1
  • 2张云涛,龚玲,王永成.An improved TF-IDF approach for text classification[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(1):49-55. 被引量:5
  • 3CristianiniN Shawe-TaylorJ 李国正译.支持向量机导论[M].北京:电子工业出版社,2004.. 被引量:111
  • 4Li B L,Yu S W,Qin Lu.An improved k-nearest neighbor algorithm for text categorization[C]//Proc of the 20th Int'l Conf on Computer Processing of Oriental Languages.Beijing:Tsinghua University Press,2003. 被引量:1
  • 5庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量:293
  • 6陈克利.基于大规模真实文本的平衡语料分析与文本分类方法[C]..Advances in Computation of Oriental Languages[C].北京:清华大学出版社,2003.. 被引量:9

二级参考文献8

  • 1黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43. 被引量:1
  • 2鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36. 被引量:1
  • 3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000.. 被引量:1
  • 4黄萱菁,2000 International Conference on Multilingual Information Processing,2000年,37页 被引量:1
  • 5鲁松,2000 International Conference on Multilingual Information Processing,2000年,31页 被引量:1
  • 6卜东波,博士学位论文,2000年 被引量:1
  • 7Yang Yiming,Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval(SIGIR),1999年,42页 被引量:1
  • 8Yang Yiming,J Information Retrieval,1999年,1卷,1/2期,67页 被引量:1

共引文献414

同被引文献117

引证文献12

二级引证文献25

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部