期刊文献+

向量空间模型中特征词的区分度的定量研究 被引量:5

Quantitative Studies on Degees of Distinction of the Feature Words in VSM
下载PDF
导出
摘要 本文提出了关于一个词的文本类间频率的概念 ,给出一个词在文本分类中的区分度的定义 ,讨论了区分度的性质 ,提出了选择特词新的方法 ,定义了特征词的权重 ,建立了向量空间模型的一套加权距离分类规则。实验结果表明 。 This paper presents a conception of frequencies of a word distributed all over the classes of texts,gives a definition of the degrees of distinction of a word in text categorization,discusses the properties of the degrees of distinction,puts forward a new approach to select the feature words,defines the weights of all selected feature words,and finally establishes the weighted distance categorization rules of VSM. The experiment results show that the method is effective and useful.
出处 《中文信息学报》 CSCD 北大核心 2002年第3期15-19,共5页 Journal of Chinese Information Processing
关键词 文本分类 Bayes后验概率 加权距离分类规则 信息处理 向量空间模型 特征词 区分度 定量研究 text categorization vector space model Bayes posterior probability weighted distance
  • 相关文献

参考文献4

二级参考文献13

  • 1战学刚 姚天顺.基于汉语分析的中文分类方法.1998中文信息处理国际会议论文集[M].北京:清华大学出版社,1998.. 被引量:1
  • 2战学刚,1998中文信息处理国际会议论文集,1998年 被引量:1
  • 3吴立德,大规模中文文本处理,1997年 被引量:1
  • 4姚天顺,自然语言理解.一种让机器懂得人类语言的研究,1995年 被引量:1
  • 5Yang Yiming,http://www.cs.cmu.edu//yiming 被引量:1
  • 6Yang Yiming,ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme,1994年,12页 被引量:1
  • 7Jin Ling,Int Symposium on Chinese Spoken Language Processing,2000年,247页 被引量:1
  • 8Zheng Fang,J Comput Sci Technol,2000年,5卷,461页 被引量:1
  • 9Zhang Shuwu,Euro Speech'97 Proceedings.5,1997年,2699页 被引量:1
  • 10Chen S F,Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics,1996年,310页 被引量:1

共引文献168

同被引文献44

引证文献5

二级引证文献46

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部