期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

一种基于N-Gram技术的中文文献自动分类方法被引量：18

Approach of Chinese Document Automatic Classification Based on the Frequency of N-Gram

下载PDF

导出

摘要本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 This paper introduces a Chinese automatic classification method—K\|means axiales (KMA), which is on the basis of n\|gram approach and is independent on the document language. In this method, each document is tranformed into a vector, whose component consists of n\|gram frequency. In order to reduce memory space and increase computing speed, all n\|grams are transformed into the corresponding H\|coding by a Harsh Function. In fact, our analysis is building on H\|coding frequency. We applied KMA algorithm into the automatic classification of a Chinese corpus. Comparing the experiment results, we give advice on choosing initial parameters of this algorithm.

作者何浩杨海棠

机构地区华中师范大学信息管理系

出处《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页 Journal of the China Society for Scientific and Technical Information

关键词 N-GRAM 汉字切分哈密码文献向量 KMA 自动分类文献分类 n\|gram, Chinese word segmentation, H\|coding, document vector, KMA, automatic classification.

分类号 G254.1 [文化科学—图书馆学]

引文网络
相关文献

参考文献1

1刘涌泉.中国计算机和自然语言处理的新进展[J].情报科学,1987,8(1):64-70. 被引量：4

共引文献3

1刘涌泉.信息社会和术语学[J].情报科学,1993,14(5):21-24. 被引量：4
2王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
3陈飞,王秀峰,饶一梅.一种混合的中文分词算法[J].南开大学学报（自然科学版）,2007,40(5):27-32. 被引量：5

同被引文献323

1孙迪.科技文献标引问题探析——以国家图书馆为例[J].图书馆建设,2020,0(1):101-108. 被引量：3
2方卫东,袁华,刘卫红.基于Web挖掘的领域本体自动学习[J].清华大学学报（自然科学版）,2005,45(S1):1729-1733. 被引量：31
3王洪,贾惠波,徐端颐.基于中文学术期刊人工标引的自动分类新算法[J].现代图书情报技术,2002(S1):59-62. 被引量：1
4赵衍,张永娟,陈成材,陈恒.一种提高计算机自动赋词标引准确性的综合方法——基于创新型CBA数据库的实证分析[J].情报杂志,2012,31(5):185-191. 被引量：5
5杨学山.词典在汉语科技文献自动标引中的作用[J].情报科学,1987,8(3):35-38. 被引量：1
6刘涌泉.中国计算机和自然语言处理的新进展[J].情报科学,1987,8(1):64-70. 被引量：4
7诸青,郁亦明.文献自动分类的分析与研究[J].现代图书情报技术,1985(4):40-46. 被引量：8
8张琪玉.关于主题词型手工检索系统标引工作的几点建议[J].国家图书馆学刊,1985,3(4):23-29. 被引量：1
9侯汉清.中、美、英三国标引方式比较中文图书主题标引宜采用保持上下文索引系统[J].国家图书馆学刊,1985,3(4):30-37. 被引量：1
10侯汉清,黄刚.电子计算机与文献分类[J].现代图书情报技术,1982(1):5-14. 被引量：10

引证文献18

1于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
2周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
3杨晔.网上教学资源挖掘与文本自动分类系统[J].广东工业大学学报,2005,22(2):79-82.
4王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
5姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
6党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量：3
7刘海峰,王元元,丘国防.密度聚类模式下一种基于层次的自动文摘方法研究[J].情报杂志,2007,26(3):55-57. 被引量：2
8刘金红,陆余良.基于Ontology改进的N-Gram文本分类模型研究[J].计算机工程与设计,2007,28(13):3213-3215. 被引量：3
9林伟,柳荣其,徐熙.一种基于N-Gram的垃圾邮件过滤方法研究[J].计算机应用与软件,2010,27(2):121-123. 被引量：5
10吴夙慧,成颖,郑彦宁,潘云涛.基于N元语法的英文学术文献聚类标签抽取算法[J].现代图书情报技术,2011(7):68-75. 被引量：3

二级引证文献71

1刘世兴.基于多尺度的n-grams特征选择加权及匹配算法[J].智能计算机与应用,2020,0(1):61-66. 被引量：1
2王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
3庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
4姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
5张彰,樊孝忠.一种改进的基于VSM的文本分类算法[J].计算机工程与设计,2006,27(21):4078-4080. 被引量：8
6刘金红,陆余良,周新栋.一种辅以强规则学习的双层文本分类模型[J].计算机工程,2007,33(8):165-167. 被引量：3
7刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
8丁堃,李鑫.我国知识管理领域研究热点问题及发展趋势预测[J].情报杂志,2007,26(9):2-4. 被引量：15
9刘华.汉语信息处理中短语优势的理据及实验证明[J].语言文字应用,2007(4):129-135. 被引量：3
10张新,党延忠.基于规则与统计的本体概念自动获取方法研究[J].情报学报,2007,26(6):813-820. 被引量：10

1周冰峰,周笑丹.中国图书馆图书分类法中养蜂文献分类方法探讨[J].养蜂科技,2002(2):12-15. 被引量：1
2罗红斌.论《中图法》传统书籍分类之弊[J].当代教育理论与实践,2013,5(2):176-177.
3甄西.韩国的出版团体——韩国杂志协会[J].出版参考,2008(22):37-37.
4张保明.关于归类文件结构的初步设想[J].情报科学,1983,4(1):29-36.
5王蒸.《中国图书资料分类法》S 大类充实类目之管见[J].农业图书馆,1988(4):21-25.
6刘晓丽,张佳骥.基于n-Gram的中文文本示例检索方法研究[J].无线电通信技术,2001,27(6):24-26. 被引量：1
7郭崇慧,魏伟,任晓玲.文化组学研究综述[J].情报学报,2014,33(7):765-774. 被引量：6
8张进.文献向量空间环境下用户需求表达方式分析[J].图书情报工作,1997,41(9):2-4. 被引量：1
9王方,阮梅花,朱海刚,熊燕,缪有刚.基于向量空间模型的科技文献自动分类研究[J].情报探索,2013(12):1-3. 被引量：5
10王兴兰,宋文.基于知识组织体系的自动分类研究[J].图书馆论坛,2013,33(6):8-13. 被引量：3

情报学报

2002年第4期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部