摘要
信息处理领域中,现有的各种文本分类算法大都基于向量空间模型,而向量空间模型却不能够有效地表达文档的结构信息,从而使得它还不能充分地表达文档的语义信息.为了更有效地表达文档的语义信息,本文首先提出了一种新的文档表示模型—图模型,即通过带权标号图表达文档的特征词条及其位置关联信息,在此基础上本文继而提出了一种新的文档相似性度量标准,并用于中文文本的分类.实验结果表明,基于图模型的这种文档表示方式是有效的和可行的.
Based on the limitations of vector space model, this paper conclude that vector space model is incapable of expressing the structure of documents effectively. To solve this problem, this paper put forward a new document representation using graph model, which can express the structure of documents more effectively, using the feature words and position relation information of documents. And a new similarity measure criterion is defined in this paper. Also, this paper put forward a document classification algorithm based on this graph model and apply it to the Chinese documents classification. Empirical results show the new graph model is feasible.
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第4期754-757,共4页
Journal of Chinese Computer Systems
基金
福建自然基金项目(A0410010)资助
福建省科技三项项目(K03012)资助
福建省教育厅项目(JA04155)资助
福州大学科技发展基金项目(2003-XQ-23)资助
关键词
文本分类
图模型
相似性
向量空间模型
text classification
graph model
similarity measure
vector space model