基于标记树的XML文档自动分类研究被引量：5

XML Documents Classification Based on Labeled Tree

下载PDF

导出

摘要本文首先介绍了XML文档和DTD标记树的生成方法，并对标记树中节点的概念进行了扩充，使之不但包括元素，同时也包括连接符，以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素，并提出层次权重和结构权重以衡量元素的层次和结构复杂程度，给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法，将其应用于XML文档自动分类中，并给出该算法的时间复杂度计算公式。从实验结果可以看出，该分类方法准确率较高。 This paper introduces the method to generate labeled trees from XML documents and DTD, and expands the concept of node to make it suitable for both elements and operators of DTD. Then we divide the elements of labeled trees into three types： common elements, document elements and DTD elements. Level weight and structure weight are given to weigh the level of elements and the complexity of structures. Based on these studies, an algorithm is presented to compute the similarity between a XML document and a DTD, and is used in the classification of XML documents. From the results of our tests, this method has a better veracity.

作者潘有能丁楠

机构地区浙江大学信息资源管理系

出处《情报学报》 CSSCI 北大核心 2007年第3期350-355,共6页 Journal of the China Society for Scientific and Technical Information

基金本文为浙江大学“曙光”青年项目（205000.362221）和浙江省教育厅资助项目（205204.F30501）研究成果.

关键词文本分类 XML文档层次权重结构权重 text classification, XML documents, level weight, structure weight

分类号 TP311.132 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
2郑仕辉,周傲英,张龙.XML文档的相似测度和结构索引研究[J].计算机学报,2003,26(9):1116-1122. 被引量：28
3苏新宁等著..数据挖掘理论与技术[M].北京:科学技术文献出版社,2003:373.
4Elisa Bertino,Giovanna Guerrini,Marco Mesiti,Luigi Tosetto.Evolving a set of DTDs according to a dynamic set of XML documents[C]∥Proceedings of the 8th International Conference on Extending Database Technology (EDBT 2002):45-66. 被引量：1
5Yuan Wang,David J,DeWitt,Jin-Yi Cai.X-Diff:an effective change detection algorithm for XML documents[C]∥Proceedings of the 19th International Conference on Data Engineering (ICDE 2003):519-530. 被引量：1
6Sigmod XML data sets[OL].[2006-08].http://www.acm.org/sigmod/record/xml. 被引量：1
7Shakespeare XML data sets[OL].[2006-08].http://metalab.unc.edu/bosak/xml/eg. 被引量：1

二级参考文献28

1潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9
2XQuery: A query language for XML. W3C Working Draft 15February 2001, available: http://www. w3. org/TR/xquery/. 被引量：1
3Tarjan. Three partition refinement algorithms. SIAM Journalon Computing, 1987, 16(6): 973-989. 被引量：1
4Henzinger M R, Henzinger T A, Kopke P W. Computing sim-ulations on finite and infinite graphs. In: Proceedings of the36th Annual IEEE Symposium on Foundations of ComputerScience, Milwaukee, Wisconsin, 1995. 453-462. 被引量：1
5Marian A, Abiteboul S, Cobena G, Mignet L. Change-centricmanagement of versions in an XML warehouse. In: Proceed-ings of the 27th International Conference on Very Large DataBases, Roma, Italy,2001. 581-590. 被引量：1
6Goldman R, Widom J. Summarizing and searching sequential semistructured sources. Stanford University: Technical ReportTR20000312, 2000. 被引量：1
7Zheng Shi-Hui, Zhou Ao-Ying et al. Structure-based approximate searching in XML data. Fudan University: Technical Report TR20010203,2001. 被引量：1
8Wang J T-L, Shasha D etal. Structural matching and discovery in document databases. Sigmod Record, 1997, 26(2): 560-564. 被引量：1
9Zhang K. A constrained editing distance between unordered labeled trees. Journal of Algorithmica, 1996, 15(3): 205-222. 被引量：1
10Zhang K, Shasha D. On the editing distance between unordered labeled trees. Information Processing Letters, 1992, 42(3): 133-139. 被引量：1

共引文献41

1潘有能,丁楠.图书馆学学科知识地图的构建[J].大学图书馆学报,2007,25(4):10-13. 被引量：21
2赵嫣,马军,李森.一种计算结构化文档相关度的方法[J].计算机研究与发展,2007,44(z2):350-355.
3宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
4叶庆卫,汪同庆.基于二叉树相似性检测的变形文字识别研究[J].计算机工程与应用,2005,41(31):52-54. 被引量：1
5陈德华,韩忠明,乐嘉锦.基于相似性分析的软件构件聚类研究[J].小型微型计算机系统,2005,26(12):2207-2211. 被引量：2
6闫利国,贺飞.XM L文档结构相似测度研究[J].计算机应用研究,2006,23(3):44-46. 被引量：4
7潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
8刘大昕,王桐.一种新的XML近似查询及排序方法[J].哈尔滨工程大学学报,2006,27(B07):407-410. 被引量：1
9杨长辉,岳友友.一种基于编辑距离的XML查询方案[J].计算机应用,2006,26(12):2991-2993. 被引量：2
10梅东霞,张晓明.基于单个XML文档结构的数据挖掘[J].石油化工高等学校学报,2007,20(1):94-98. 被引量：3

同被引文献191

1何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
2靖培栋,郭宇峰.基于双曲几何的《中图法》分类体系的可视化[J].现代图书情报技术,2005(1):40-42. 被引量：11
3陈桦,张鹏伟,陈景霞.机床协同设计中产品信息XML描述模型的研究[J].组合机床与自动化加工技术,2005(2):13-15. 被引量：6
4詹萌.《分类集成词表》在书目数据库检索系统中的应用探讨[J].现代图书情报技术,2005(5):50-52. 被引量：4
5戴剑波,侯汉清.图书分类法映射系统设计原理——以《中国图书馆分类法》和《杜威十进分类法》为例[J].情报学报,2005,24(3):299-303. 被引量：29
6陈树年,李青华,朱连花.网络信息组织与《中国图书馆分类法》搜索引擎版研制(上)[J].中国索引,2005,3(3):18-24. 被引量：7
7凌云,刘军,王勋.多层次web文本分类[J].情报学报,2005,24(6):684-689. 被引量：12
8李楠,孙济庆.支持语义检索的知识检索模型[J].情报学报,2005,24(6):708-712. 被引量：12
9陈树年,李青华,朱连花.网络信息组织与《中国图书馆分类法》搜索引擎版研制(中)[J].中国索引,2005,3(4):29-33. 被引量：1
10陈树年,李青华,朱连花.网络信息组织与《中国图书馆分类法》搜索引擎版研制(下)[J].中国索引,2006,4(1):46-49. 被引量：3

引证文献5

1陈新元.近年来我国分类检索语言研究热点综述[J].科技情报开发与经济,2009,19(20):133-136. 被引量：1
2潘有能,滕海明.基于WordNet的XML文档标记语义消歧研究[J].情报科学,2014,32(3):116-120. 被引量：5
3李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.
4任雪利,代余彪.基于模糊路径匹配的XML文档分类研究[J].计算机应用与软件,2015,32(10):113-115.
5高新勤,朱斌斌,杜景霏.云模式下制造资源的服务化描述与虚拟化封装方法[J].制造业自动化,2017,39(10):140-145. 被引量：2

二级引证文献8

1黄培红.面向知觉形式化特征的自然语言理解十年研究进展[J].智能安全,2022,1(2):90-100.
2杨帆.中文维基百科网站的类目体系概述[J].中国科技博览,2012(36):167-168.
3李长玲,郭凤娇,魏绪秋.基于时序关键词的学科交叉研究主题分析——以情报学与计算机科学为例[J].情报资料工作,2014,35(6):44-48. 被引量：22
4钟守满,吴安萍.语义关系研究及其学科跨界视阈分析方法[J].外语教学,2015,36(3):9-12. 被引量：4
5黄培红.自然语言加工中What-Why理解效应[J].现代计算机,2016,22(7):9-16. 被引量：2
6骆蓉,钟守满.跨学科视角的语义关系研究[J].外语教学,2016,37(5):5-10. 被引量：1
7杜思良,倪明,张鹏.信息系统中作战资源虚拟化应用技术研究[J].指挥与控制学报,2019,5(2):141-146. 被引量：3
8赵柱,宋士琳,孟璐,马沁怡,周茂军.工业云环境下服务的搜索与匹配[J].组合机床与自动化加工技术,2021(9):175-179.

1陈华竣,郑智,倪德明.真前缀标记树——一种面向用户的子树选取策略表示方法[J].计算机技术与发展,2006,16(12):9-12. 被引量：1
2陈华竣.真前缀标记树在子树选取策略中的应用[J].广东技术师范学院学报,2006,27(6):32-34.
3王成勇,杜庆伟,孙静,孙振.基于特征偏好的XML文档聚类算法[J].计算机工程与应用,2016,52(12):64-68.
4上网技巧与常见问题处理[J].电脑编程技巧与维护,2003(7):90-91.
5欧阳元新,熊璋,侯亚荣.UML活动图在工作流过程建模中的应用研究[J].计算机工程与设计,2004,25(9):1479-1481. 被引量：16
6清风.Office快餐店[J].电脑爱好者,2006,0(19):63-63.
7伊政,徐武平,徐爱萍.一种基于结构分析的网页主题区域发现方法[J].计算机工程与应用,2015,51(6):227-230. 被引量：1
8徐德智,吴敏,Nkengu Damas.XML数据库的树模型抽象及其查询[J].计算机工程,2003,29(14):12-14. 被引量：1
9付冬暇,赵淮,李爱霞.基于流形学习的航空影像匹配方法研究[J].测绘与空间地理信息,2013,36(8):138-140.
10张焱,黄曙光,汪永益.基于DS理论与层次权重的网络安全风险评估[J].计算机应用与软件,2011,28(11):294-297. 被引量：4

情报学报

2007年第3期

浏览历史

内容加载中请稍等...

基于标记树的XML文档自动分类研究被引量：5

参考文献7

二级参考文献28

共引文献41

同被引文献191

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于标记树的XML文档自动分类研究 被引量：5

参考文献7

二级参考文献28

共引文献41

同被引文献191

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于标记树的XML文档自动分类研究被引量：5