期刊文献+

一种基于VSM文本分类系统的设计与实现 被引量:19

A Chinese text categorization system based on the improved VSM
下载PDF
导出
摘要 阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % . A Chinese text categorization system was developed based on the improved vector space model, including the important aspects of system structure, text preprocessing, feature selection, training algorithm, and recognition algorithm. The system introduced the structure layer weight coefficient to improve the term weighting, and a new training algorithm and a way of computing text similarity threshold were described. The test result illustrated the effectiveness of the system for categorizing Chinese text. The average precision was over 80?% and the recall was 86?%.
出处 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第3期53-55,共3页 Journal of Huazhong University of Science and Technology(Natural Science Edition)
基金 国家高性能计算基金资助项目 (0 0 30 3) .
关键词 文本分类 向量空间模型 特征提取 结构层次权重系数 训练算法 分类算法 text categorization vector space model feature selection structure-layer weight coefficient training algorithm recognition algorithm
  • 相关文献

参考文献3

二级参考文献7

  • 1邹涛.基于WWW的信息发现技术研究(博士学位论文)[M].南京:南京大学,1999.. 被引量:1
  • 2邹涛,博士学位论文,1999年 被引量:1
  • 3Yang Y,Information Retrieval J,1999年 被引量:1
  • 4Yang Y,INRT J,1998年 被引量:1
  • 5吴立德,大规模中文文本处理,1997年,7页 被引量:1
  • 6陈世福,人工智能与知识工程,1997年,391页 被引量:1
  • 7Yang Y,ACM Transactions on Information Systems,1994年 被引量:1

共引文献44

同被引文献144

引证文献19

二级引证文献59

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部