期刊文献+

一种基于N-Gram技术的中文文献自动分类方法 被引量:18

Approach of Chinese Document Automatic Classification Based on the Frequency of N-Gram
下载PDF
导出
摘要 本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 This paper introduces a Chinese automatic classification method—K\|means axiales (KMA), which is on the basis of n\|gram approach and is independent on the document language. In this method, each document is tranformed into a vector, whose component consists of n\|gram frequency. In order to reduce memory space and increase computing speed, all n\|grams are transformed into the corresponding H\|coding by a Harsh Function. In fact, our analysis is building on H\|coding frequency. We applied KMA algorithm into the automatic classification of a Chinese corpus. Comparing the experiment results, we give advice on choosing initial parameters of this algorithm.
作者 何浩 杨海棠
出处 《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页 Journal of the China Society for Scientific and Technical Information
关键词 N-GRAM 汉字切分 哈密码 文献向量 KMA 自动分类 文献分类 n\|gram, Chinese word segmentation, H\|coding, document vector, KMA, automatic classification.
  • 相关文献

参考文献1

共引文献3

同被引文献323

引证文献18

二级引证文献71

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部