对数字化科技论文的自动分类研究被引量：5

The study on automitic classification of digital documents of scientific papers

下载PDF

导出

摘要针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生的分类法,先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文数要远远小于全体论文数,故在分类类别数目较多且分类文本分布较为平均的情况下,可极大地缩短分类的时间. Since scientific papers are usually semi-structural documents, a hierarchy classification model based on the metadata of scientific papers is proposed, where the metadata include the rifles, keyword sets, abstracts and so on. Experiments show the precision of the classification based on the metadata of papers is close to that of the classification based on the full text of papers. Furthermore, the classification precisions are better than the best known classification algorithm if the papers are classified based on taxonomy of application domains as follows： first, the metadata are used to classify paper roughly based on the higher levels of taxonomy, then full texts are utilized to classify these papers on the lower levels Of taxonomy. Since the size of metadata is less than that of full text and the number of papers classified in a subclass is less than that of total number of papers, the new model enhances the efficiency of paper classification when the number of classes is bigger andthe documents are distributed averagely in the given taxonomy.

作者李森马军赵嫣雷景生

机构地区山东大学计算机科学与技术学院

出处《山东大学学报（理学版）》 CAS CSCD 北大核心 2006年第3期14-16,123,共4页 Journal of Shandong University(Natural Science)

基金教育部骨干教师基金资助项目(教技司[2000]65)

关键词科技论文文本分类层次结构分类精度分类效率 technical literature text categorization hierarchy accuracy efficiency

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1Masao Fuketa, Sangkon Lee, Takako Tsujietal. A document classification method by using field association words[J]. Information Sciences, 2000, 126( 1 - 4) :57 - 70. 被引量：1
2Y Yang, Xin Liu. A re-examination of text categorization methods[A] . Proc-ngs of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR) [C]. New York: ACM Press, 1999.42 - 49. 被引量：1
3中国图书馆分类法编辑委员会编..中国图书馆分类法[M].北京:科学技术文献出版社,1999.
4J Gary Auguston J, Jack Minker. An analysis of some graphtheoretical cluster techniques[J]. JACM, 1970, 17(4) :571 -588. 被引量：1
5Marie-Francine Moens, Jos Dumortier. Text categorization:The assignment of subject descriptors to magazine articles[J].Information Processing & Management, 2000, 36(6) : 841 -861. 被引量：1
6史忠植．知识发现[M]．北京：清华大学出版社，2000．被引量：6

共引文献5

1张晓东.支持向量机在肺癌生存期预测中的应用分析[J].计算机工程与应用,2007,43(18):196-198. 被引量：3
2石新景,汤小春,闫磊.基于盖然论潜在语义分析的Web使用挖掘[J].微电子学与计算机,2008,25(6):225-228. 被引量：3
3王昊鹏,王卫东,李森.基于元数据的科技论文分类方法[J].山东师范大学学报（自然科学版）,2008,23(3):41-43. 被引量：3
4韩红旗,朱东华,刘嵩,汪雪锋.关联词约束的半监督文本分类方法[J].计算机工程与应用,2010,46(4):113-116. 被引量：3
5赵美芳.基于搜索引擎的煤炭企业知识管理系统[J].现代矿业,2014,30(7):4-5.

同被引文献70

1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
2文龙.XML与非结构化数据管理[J].电脑知识与技术（过刊）,2009,0(6):1306-1308. 被引量：13
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4薛春香,侯汉清.数字信息资源的自动分类和主题识别——OCLC“蝎子计划”研究[J].图书馆杂志,2005,24(1):24-28. 被引量：7
5叶新明.基于《中图法》的中文文献自动分类[J].情报学报,1995,14(6):423-433. 被引量：11
6薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分类模式比较[J].南京农业大学学报（社会科学版）,2005,5(4):85-92. 被引量：10
7张德政,张萍萍.非结构化信息管理[J].微计算机信息,2006,22(03X):218-219. 被引量：16
8连莉,马军,雷景生,宋玲.Part-Whole关系的细分及性质分析[J].计算机工程,2006,32(17):83-85. 被引量：2
9雷景生,马军,靳婷.基于分级神经网络的Web文档模糊聚类技术[J].计算机研究与发展,2006,43(10):1695-1699. 被引量：3
10宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：41

引证文献5

1马军,陈竹敏,赵嫣,雷景生.基于部分-整体匹配的文档结构相似度计算[J].模式识别与人工智能,2007,20(5):630-635. 被引量：2
2张早华,胡雪琴,马林,李国宝,张黎,亢力.实现亚健康中医干预过程规范化的共性技术探讨[J].中国中医药信息杂志,2010,17(10):96-98. 被引量：2
3黄莉,李湘东.基于《中图法》的自动分类研究现状与展望[J].图书情报知识,2012,29(4):30-36. 被引量：7
4李湘东,胡逸泉,巴志超,黄莉.数字图书馆多种类型文献混合自动分类研究[J].图书馆杂志,2014,33(11):42-48. 被引量：7
5于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8. 被引量：38

二级引证文献56

1贾巨涛,张鹏,唐杰,吴伟,詹培旋.智能语音交互中的语义引导回复技术研究[J].家电科技,2022(S01):608-611. 被引量：1
2高云泽,王莉莉,董文睿,冯紫君,胡祖容,赵中楠.基于前后端分离算法的ACM智能管家系统[J].智能计算机与应用,2022,12(3):80-86. 被引量：2
3康琪,马军.有向标记根树之间的语义编辑距离[J].模式识别与人工智能,2011,24(6):816-824.
4宋培彦,李俊莉,王芳.跨语言术语自动分类方法及其实证[J].图书情报工作,2013,57(16):20-24.
5李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.
6陆海锋,张志华,陈航,谢嵘.一种基于MapReduce的贝叶斯海量文本并行分类算法[J].肇庆学院学报,2015,36(2):17-22.
7黄莉,李湘东.数字图书馆馆藏资源的文献类型研究[J].高校图书情报论坛,2015,0(4):19-22. 被引量：2
8李湘东,刘康,丁丛,高凡.基于《知网》的多种类型文献混合自动分类研究[J].现代图书情报技术,2016(2):59-66. 被引量：4
9龙三平,张敏.我国数字图书馆理论研究20年——以1996-2015年CSSCI刊文为分析对象[J].图书馆,2017(1):55-60. 被引量：5
10艾雰.2010-2016年《中国图书馆分类法》(第5版)研究现状分析[J].图书馆建设,2017(5):39-44. 被引量：2

1《小型微型计算机系统》列入英国INSPEC数据库收录论文数最多前10种中国期刊[J].小型微型计算机系统,2006,27(6):1087-1087.
2宁浩.政府网站的作用与信息利用[J].情报资料工作,2001,22(1):29-30. 被引量：14
32013年《计算机研究与发展》专题(正刊)征文通知——“人工智能研究进展”[J].计算机研究与发展,2012,49(12):2618-2618.
4微软亚洲研究院领军世界图形学研究 2007年国际图形学大会(SIGGRAPH2007)再创辉煌[J].计算机教育,2007(09S):87-87.
5多媒体全文信息检索系统[J].电脑爱好者,1996,0(6):61-61.
6张蕴.全文信息检索引擎框架系统设计与实现[J].现代经济信息,2011,0(24):269-269.
7章旭,钱龙华.一个基于Dublin Core元数据的超文本查询引擎[J].苏州大学学报（自然科学版）,2004,20(2):30-34. 被引量：3
8王昊鹏,王卫东,李森.基于元数据的科技论文分类方法[J].山东师范大学学报（自然科学版）,2008,23(3):41-43. 被引量：3
92013年《计算机研究与发展》专题(正刊)征文通知——“人工智能研究进展”[J].计算机研究与发展,2013,50(3):558-558.
10李明.一种基于Web的信息检索策略及实现[J].西南师范大学学报（自然科学版）,2001,26(3):260-263. 被引量：1

山东大学学报（理学版）

2006年第3期

浏览历史

内容加载中请稍等...

对数字化科技论文的自动分类研究被引量：5

参考文献6

共引文献5

同被引文献70

引证文献5

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

对数字化科技论文的自动分类研究 被引量：5

参考文献6

共引文献5

同被引文献70

引证文献5

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

对数字化科技论文的自动分类研究被引量：5