基于图模型的中文文档分类研究被引量：3

Research on Chinese Document Classification Based on Graph Model

下载PDF

导出

摘要信息处理领域中,现有的各种文本分类算法大都基于向量空间模型,而向量空间模型却不能够有效地表达文档的结构信息,从而使得它还不能充分地表达文档的语义信息.为了更有效地表达文档的语义信息,本文首先提出了一种新的文档表示模型—图模型,即通过带权标号图表达文档的特征词条及其位置关联信息,在此基础上本文继而提出了一种新的文档相似性度量标准,并用于中文文本的分类.实验结果表明,基于图模型的这种文档表示方式是有效的和可行的. Based on the limitations of vector space model, this paper conclude that vector space model is incapable of expressing the structure of documents effectively. To solve this problem, this paper put forward a new document representation using graph model, which can express the structure of documents more effectively, using the feature words and position relation information of documents. And a new similarity measure criterion is defined in this paper. Also, this paper put forward a document classification algorithm based on this graph model and apply it to the Chinese documents classification. Empirical results show the new graph model is feasible.

作者邹加棋陈国龙郭文忠

机构地区福州大学数学与计算机科学学院

出处《小型微型计算机系统》 CSCD 北大核心 2006年第4期754-757,共4页 Journal of Chinese Computer Systems

基金福建自然基金项目(A0410010)资助福建省科技三项项目(K03012)资助福建省教育厅项目(JA04155)资助福州大学科技发展基金项目(2003-XQ-23)资助

关键词文本分类图模型相似性向量空间模型 text classification graph model similarity measure vector space model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
2Schapire R E,Singer Y.Improved boosting algorithms using confidence-rated predications[C].In:Proc of the 11th Annual Conf on Computational Learning Theory,Madison:ACM Press,1998,80-91. 被引量：1
3Lewis D D.Naive (Bayers) at forty:the independence assumption in information retrieval[C].In:The 10th European Conf on Machine Learning (ECML98),New York:Springer-Verlag,1998,4-15. 被引量：1
4Wiener E.A neural network approach to topic spotting[C].The 4th Annual Symp on Document Analysis and Information Retrieval(SDAIR 95),Las Vegas,NV:University of Nevade,Las Vegas,1995,317-332. 被引量：1
5Yang Y,Chute C G.An example-based mapping method for text categorization and retrieval[J].ACM Trans on Information Systems,1994,12(3):252-277. 被引量：1
6Yang Y,Lin X.A re-examination of text categorization methods[C].In:The 22nd Annual Int′l ACM SIGIR Conf on Research and Development in Information Retrieval,New York:ACM Press,1999,42-49. 被引量：1
7Joachims T.Text categorization with support vector machines:learning with many relevant features[C].In:The 10th European Conf on Machine Learning (EMCL-98).Berlin:Springer,1998.137-142. 被引量：1
8Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communication of the ACM,1975,(18):618-620. 被引量：1
9Paul S Jacobs.Text-based intelligent systems:current research and practice in information,retrieval and extraction[M].Hillsdale,NJ,Lawrence Erlbaum Associates,1992,127-149. 被引量：1
10Hayes R M.Mathematical model in information retrieval[A].In P.L.Garvin,editor.Natural language and the computer[M].1963. 被引量：1

二级参考文献2

1宋擒豹,沈钧毅.基于关联规则的Web文档聚类算法[J].软件学报,2002,13(3):417-423. 被引量：41
2钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86

共引文献25

1郑晓鸣,吕士颖,王晓东.一种基于随机抽取的有限深度层次聚类[J].郑州大学学报（理学版）,2007,39(3):80-83.
2李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
3董献洲,司光亚,胡晓峰,吴琳.战略模拟情报分析与信息可视化服务研究[J].系统仿真学报,2005,17(11):2815-2817. 被引量：4
4段敏,张锡恩.基于仿真的通用模拟电路故障知识获取平台[J].计算机工程与设计,2006,27(1):129-131. 被引量：14
5段敏,张锡恩.基于仿真的模拟电路故障知识获取新方法[J].系统仿真学报,2006,18(3):802-804. 被引量：7
6倪永州,田跃.一种快速模板匹配的波形识别算法[J].传感器世界,2006,12(4):32-34. 被引量：8
7胡爱钦,文益民,陈方.一种等分割聚类算法的改进[J].计算技术与自动化,2006,25(2):75-77.
8蔡江辉,张继福,赵旭俊.二阶段模糊聚类方法研究[J].哈尔滨工程大学学报,2006,27(B07):552-557.
9林恩爱,许宏丽.改进CLIMB聚类算法在图象数据库中的应用研究[J].计算机与数字工程,2006,34(10):154-156.
10张帆,杨炳儒.基于文本过滤的数字图书馆个性化服务技术[J].计算机工程与应用,2006,42(31):206-208. 被引量：4

同被引文献45

1韦洛霞,李勇,李伟,邵明珠,罗诗裕.汉字网络的3度分隔与小世界效应[J].科学通报,2004,49(24):2615-2616. 被引量：16
2周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
3栾虹.HTML文档分类中的词元权重算法[J].山东师范大学学报（自然科学版）,2005,20(2):22-25. 被引量：1
4王效岳,白如江.基于变精度粗糙集模型的Web文档分类方法[J].现代图书情报技术,2005(12):51-54. 被引量：2
5胡和平,易高翔.一种基于容错粗糙集的Web文档分类方法[J].小型微型计算机系统,2006,27(2):305-307. 被引量：3
6石晶,胡明,戴国忠.基于小世界模型的中文文本主题分析[J].中文信息学报,2007,21(3):69-75. 被引量：9
7车君华,冯毅雄,谭建荣,王云.基于决策支持向量机的产品设计知识文档分类研究[J].计算机集成制造系统,2007,13(5):891-897. 被引量：8
8Svetlana Hensman.Construction of conceptual graph representation of texts[C] //Proceedings of the Student Research Workshop at HLT-NAACL.Boston,2004:49-54. 被引量：1
9Zhang Weifeng,Xu Baowen,Cui Zifeng,et al.Document classification approach by rough-set-based corner classification neural network[J].Journal of Southeast University,2006,22(3):439-434. 被引量：1
10Mani Inderjeet,Bloedorn Eric.Multi-document summarization by graph search and matching[C] //Proceedings of the Fifteenth National Conferenceon Articial Intelligence.1997:622-628. 被引量：1

引证文献3

1刘建毅,王菁华,王枞.文本网络表示研究与应用[J].中国科技论文在线,2007,2(10):755-760. 被引量：2
2孟海东,张炼,吕海林.基于图模型的文本分类方法的研究[J].计算机与现代化,2010(9):38-40. 被引量：3
3唐晓波,肖璐.基于依存句法网络的文本特征提取研究[J].现代图书情报技术,2014(11):31-37. 被引量：10

二级引证文献15

1严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
2李纲,毛进.文本图表示模型及其在文本挖掘中的应用[J].情报学报,2013,32(12):1257-1264. 被引量：12
3唐晓波,肖璐.基于依存句法网络的文本特征提取研究[J].现代图书情报技术,2014(11):31-37. 被引量：10
4申艳光,王杰,生龙,吴迪.基于复杂网络的文本抗毁性分析[J].计算机应用研究,2015,32(3):679-682. 被引量：2
5李晓军,刘怀亮,杜坤.一种基于复杂网络模型的作者身份识别方法[J].图书情报工作,2015,59(18):102-107. 被引量：9
6张俊丽.马尔科夫链在对话信息识别犯罪中的应用[J].数学的实践与认识,2015,45(22):176-181.
7商宪丽,王学东.微博话题识别中基于动态共词网络的文本特征提取方法[J].图书情报知识,2016,33(3):80-88. 被引量：13
8张向阳,那日萨.基于复杂网络的情感分类特征选择[J].计算机应用研究,2017,34(4):1000-1003. 被引量：4
9李园,吕艳华,贺培凤.国内卫生信息管理教材建设现状及思考[J].医学信息学杂志,2017,38(8):88-93. 被引量：1
10蔡文嘉.基于依存句法关系的在线评论情感属性的降维[J].经营管理者,2018,0(3):165-167.

1史科,宣国庆.基于共现词对的文档表示方法研究[J].阜阳师范学院学报（自然科学版）,2012,29(4):60-63.
2朱国华,程传鹏.一种改进的KNN分类方法[J].河南工程学院学报（自然科学版）,2008,20(3):65-67. 被引量：1
3程传鹏,李钜.基于文本属性关联和概念共现的KNN分类方法[J].中原工学院学报,2009,20(4):27-29.
4李展.装箱捆百钞快速检测的算法[J].中国科技信息,2016(11):90-93.
5陈国松,黄大荣.基于信息熵的TFIDF文本分类特征选择算法研究[J].湖北民族学院学报（自然科学版）,2008,26(4):401-404. 被引量：5
6连远锋,侯锟,张沛露,许建潮.演化计算在特征词条优化中的应用[J].长春工业大学学报,2004,25(1):32-35.
7盛鑫海,袁鑫攀,满君丰,涂慧.基于分组指纹的细粒度相似性检测系统[J].湖南工业大学学报,2014,28(6):81-85.
8郭建永,蔡勇,甄艳霞.新相似性度量在文档模糊聚类中的应用研究[J].计算机工程与应用,2009,45(13):160-162. 被引量：1
9许高建,路遥,胡学钢,涂立静.一种改进的文本特征选择方法的研究与设计[J].苏州大学学报（工科版）,2008,28(2):18-22. 被引量：4
10许高建,胡学钢,路遥,涂立静.一种改进的文本特征选择方法的研究与设计[J].微型电脑应用,2008,24(5):21-23. 被引量：1

小型微型计算机系统

2006年第4期

浏览历史

内容加载中请稍等...

基于图模型的中文文档分类研究被引量：3

参考文献17

二级参考文献2

共引文献25

同被引文献45

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于图模型的中文文档分类研究 被引量：3

参考文献17

二级参考文献2

共引文献25

同被引文献45

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于图模型的中文文档分类研究被引量：3