一种基于VSM文本分类系统的设计与实现被引量：19

A Chinese text categorization system based on the improved VSM

下载PDF

导出

摘要阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % . A Chinese text categorization system was developed based on the improved vector space model, including the important aspects of system structure, text preprocessing, feature selection, training algorithm, and recognition algorithm. The system introduced the structure layer weight coefficient to improve the term weighting, and a new training algorithm and a way of computing text similarity threshold were described. The test result illustrated the effectiveness of the system for categorizing Chinese text. The average precision was over 80?% and the recall was 86?%.

作者李凡林爱武陈国社

机构地区华中科技大学计算机科学与技术学院

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2005年第3期53-55,共3页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金国家高性能计算基金资助项目 (0 0 30 3) .

关键词文本分类向量空间模型特征提取结构层次权重系数训练算法分类算法 text categorization vector space model feature selection structure-layer weight coefficient training algorithm recognition algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量：45
2Salton G, Yang C S.On the specification of term values in automatic indexing[J].Journal of Documentation, 1973, 29(4): 351-372. 被引量：1
3Fabrizio Sebastiani.Machine learning in automated text categorization[J].ACM Computing Surveys, 2002, 34(1): 11-12,32-33. 被引量：1

二级参考文献7

1邹涛.基于WWW的信息发现技术研究（博士学位论文）[M].南京：南京大学,1999.. 被引量：1
2邹涛，博士学位论文，1999年被引量：1
3Yang Y，Information Retrieval J，1999年被引量：1
4Yang Y，INRT J，1998年被引量：1
5吴立德，大规模中文文本处理，1997年，7页被引量：1
6陈世福，人工智能与知识工程，1997年，391页被引量：1
7Yang Y，ACM Transactions on Information Systems，1994年被引量：1

共引文献44

1杨丽华,李保林.邮件过滤系统中预处理方法的研究与实现[J].湖北汽车工业学院学报,2007,21(3):40-43. 被引量：2
2马建斌,滕桂法,李滢,赵洋.TSVM在电子邮件作者身份分类技术上的应用[J].河北工业大学学报,2005,34(z1):124-126.
3贝雨馨,崔荣一.文本分类中特征项权重的计算方法[J].延边大学学报（自然科学版）,2004,30(3):202-204. 被引量：9
4高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
5谭浩,贾自艳,史忠植.新闻专题的高效组织和生成新方法[J].科技导报,2004,22(7):48-51.
6许勇,宋柔.基于HMM的百科辞典文本中句子的知识点分类[J].计算机工程与应用,2005,41(4):35-37. 被引量：5
7谭汉松,杨盛.电子邮件过滤新方法的研究与实现[J].微型电脑应用,2005,21(4):15-16.
8谭汉松,杨盛.电子邮件过滤新方法的研究与实现[J].微机发展,2005,15(5):152-154. 被引量：1
9包金龙.基于向量空间模型的信息检索系统的设计[J].情报杂志,2005,24(7):44-45. 被引量：16
10王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13

同被引文献144

1袁方,杨柳,张红霞.基于k-近邻方法的渐进式中文文本分类技术[J].华南理工大学学报（自然科学版）,2004,32(z1):88-91. 被引量：7
2邵惠鹤.支持向量机理论及其应用[J].自动化博览,2003,20(z1):90-95. 被引量：7
3董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
4段海滨,王道波,朱家强,黄向华.蚁群算法理论及应用研究的进展[J].控制与决策,2004,19(12):1321-1326. 被引量：211
5周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
6陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
7宋玲丽,成颖,单启成.信息检索系统中的相关反馈技术[J].情报学报,2005,24(1):34-41. 被引量：7
8廉洁.词汇短语对第二语言习得的作用[J].外语界,2001(4):29-34. 被引量：127
9李向军,徐国华,刘立平.一种文本聚类算法[J].西北大学学报（自然科学版）,2005,35(2):155-158. 被引量：3
10贾泂,梁久祯.基于支持向量机的中文网页自动分类[J].计算机工程,2005,31(10):145-147. 被引量：12

引证文献19

1战忠丽,王强,刘金明.基于分解向量空间模型的信息检索系统的设计[J].南方职业教育学刊,2011,1(2):17-19.
2王卫东,宋丹,宋人杰.基于分解的向量空间模型的Web新闻信息检索[J].山东大学学报（理学版）,2006,41(3):37-40. 被引量：1
3付克志,林鸿飞.基于N-Level VSM在Web信息检索中的研究[J].计算机工程与应用,2006,42(19):158-160. 被引量：3
4刘华.汉语信息处理中短语优势的理据及实验证明[J].语言文字应用,2007(4):129-135. 被引量：3
5冯少荣,肖文俊.基于语义距离的高效文本聚类算法[J].华南理工大学学报（自然科学版）,2008,36(5):30-37. 被引量：15
6刘晓丽,王涛,苏鹏,梁令.文本分类检索技术在工程中的应用[J].无线电工程,2008,38(10):58-61. 被引量：1
7冯少荣.一种提高文本聚类算法质量的方法[J].同济大学学报（自然科学版）,2008,36(12):1712-1718. 被引量：3
8李家兵.中文文本分类特征选择的研究[J].皖西学院学报,2009,25(2):22-25. 被引量：1
9樊娜,蔡皖东,赵煜.基于混合模型的文本主题-情感分析方法[J].华中科技大学学报（自然科学版）,2010,38(1):31-34. 被引量：4
10曾文华,黄桦.基于网页信息检索的地理信息变化检测方法[J].计算机应用,2010,30(4):1132-1134. 被引量：8

二级引证文献59

1马剑锋.基于Web结构挖掘中HITS算法研究[J].计算机产品与流通,2020,0(2):252-252. 被引量：1
2彭静,翟英,冯爽.后缀树算法在舆情聚类中的应用[J].河北科技大学学报,2012,33(1):65-68. 被引量：1
3崔洪波,周再强,李井杰.几种基础地理信息数据更新方法的比较[J].测绘与空间地理信息,2012,35(4):56-58. 被引量：8
4陈桂鸿.普通文件和HTML文件及XML文件信息检索过程探析[J].科技情报开发与经济,2009,19(11):90-92.
5刘玲玲,梁颖红,张永刚,韩艳,姚建民.基于决策树的关键短语抽取[J].江南大学学报（自然科学版）,2010,9(1):71-74. 被引量：3
6唐俊.SSC软聚类算法在面向查询的多文档文摘中的应用[J].计算机工程与科学,2010,32(6):112-114.
7马素琴,施化吉,李星毅.基于语义列表的中文文本聚类算法[J].计算机应用研究,2010,27(5):1697-1699. 被引量：1
8严桂夺,陈建超.用于网页目录构建的文本聚类算法[J].计算机工程与设计,2010,31(9):2002-2004.
9张英俊,任姚鹏,陈立潮,谢斌红.基于语义相似度与优化的构件聚类算法[J].计算机工程与设计,2010,31(11):2531-2535. 被引量：6
10周泓,刘金岭.海量中文短信文本密度聚类研究[J].计算机工程,2010,36(22):81-82.

1李斗,李弼程.一种神经网络文本分类器的设计与实现[J].计算机工程与应用,2005,41(17):107-109. 被引量：2
2赵治军,陈立潮,谢斌红,王秀慧.基于VSM的OAI-PMH元数据相似度计算研究[J].计算机技术与发展,2009,19(9):119-121.
3《梦幻迪士尼》开放性测试前瞻:丰富多样的3D魔法战斗[J].电脑爱好者,2009(18):117-117.
4黄菊.基于直方图的微视频镜头边界检测方法的研究[J].信息通信,2016,29(12):70-72.
5丁振国,黎靖,张卓.一种改进的基于神经网络的文本分类算法[J].计算机应用研究,2008,25(6):1639-1641. 被引量：4
6《神仙传》3月开放性测试GM玩法受关注[J].大众软件,2012(4):75-75.
7王晓微.两种分类方法特征选择的比较[J].电子技术（上海）,2007,34(11):132-134. 被引量：1
8陈娜.基于高斯混合模型的自动图像标注方法[J].计算机应用,2010,30(11):2986-2987. 被引量：2
9细细品味《最终幻想14》找回MMORPG的那份情怀[J].电脑迷,2014,0(9):91-91.
10王学奇,陈华勇,肖明清.开放性测试软件体系结构研究[J].微计算机信息,2005,21(10X):145-147. 被引量：7

华中科技大学学报（自然科学版）

2005年第3期

浏览历史

内容加载中请稍等...

一种基于VSM文本分类系统的设计与实现被引量：19

参考文献3

二级参考文献7

共引文献44

同被引文献144

引证文献19

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

一种基于VSM文本分类系统的设计与实现 被引量：19

参考文献3

二级参考文献7

共引文献44

同被引文献144

引证文献19

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

一种基于VSM文本分类系统的设计与实现被引量：19