基于单个XML文档结构的数据挖掘被引量：3

Data Mining Techniques for Structure of Single XML Document

下载PDF

导出

摘要提出了一种基于XML的结构进行数据挖掘的算法,该方法使用现有的XML解析工具JAVA DOM对XML文件进行解析,形成XML文档树,把XML中的标签按照层次作为标记路径存储起来,再对标记路径进行关联规则挖掘,得到频繁事务。通过实验表明,只有当XML的结构呈不规则时,挖掘效率才会随最小支持度的增大而提高。 An algorithm based on structure of XML was proposed. XML was parsed using JAVA DOM in order to get XML document tree. The label of XML was stored as label path. Then, frequent transactions were obtained through mining association rules on label paths. The results show that if only the structure of XML is anomaly, the efficiency will be improved when minimal support is increased.

作者梅东霞张晓明

机构地区北京化工大学北京石油化工学院

出处《石油化工高等学校学报》 EI CAS 2007年第1期94-98,共5页 Journal of Petrochemical Universities

基金北京市教育委员会科技发展计划面上项目(KM200510017006)

关键词 XML文档标记路径关联规则数据挖掘频繁事务 XML document Path label Association rules~ Data mining Frequent transaction

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9
2Richi N,Rebecca W,Anton T.Data mining and XML documents:proceedings of the international conference on internet computing[C].USA:[s.n.],2002:660-666. 被引量：1
3Jacky W W W,Gillian D.Mining association rules from XML data using xquery:proceedings of the second workshop on Australian information security,Data mining and web intelligence,and software internationalization[C].USA:[s.n.],2004,32:169-174. 被引量：1
4Qin Ding,Kevin Ricords.Deriving general association rules from XML data:proceedings of the ACIS fourth international conference on software engineering,Artificial intelligence,Networking and parallel/distributed computing (SNPD03)[C].Germany:[s.n.],2003:348-352. 被引量：1
5韩家炜 Michelin K.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.. 被引量：62
6李晓明,凤旺森.两种对URL的散列效果很好的函数[J].软件学报,2004,15(2):179-184. 被引量：45
7郑仕辉,周傲英,张龙.XML文档的相似测度和结构索引研究[J].计算机学报,2003,26(9):1116-1122. 被引量：28
8赵妍,逄玉俊,文东丽.从样本数据中提取模糊规则的算法研究[J].石油化工高等学校学报,2004,17(3):83-88. 被引量：4

二级参考文献46

1徐振航,刘莉芹.XML与面向Web的数据挖掘技术[J].软件世界,2000(10):120-122. 被引量：16
2XQuery: A query language for XML. W3C Working Draft 15February 2001, available: http://www. w3. org/TR/xquery/. 被引量：1
3Tarjan. Three partition refinement algorithms. SIAM Journalon Computing, 1987, 16(6): 973-989. 被引量：1
4Henzinger M R, Henzinger T A, Kopke P W. Computing sim-ulations on finite and infinite graphs. In: Proceedings of the36th Annual IEEE Symposium on Foundations of ComputerScience, Milwaukee, Wisconsin, 1995. 453-462. 被引量：1
5Marian A, Abiteboul S, Cobena G, Mignet L. Change-centricmanagement of versions in an XML warehouse. In: Proceed-ings of the 27th International Conference on Very Large DataBases, Roma, Italy,2001. 581-590. 被引量：1
6Goldman R, Widom J. Summarizing and searching sequential semistructured sources. Stanford University: Technical ReportTR20000312, 2000. 被引量：1
7Zheng Shi-Hui, Zhou Ao-Ying et al. Structure-based approximate searching in XML data. Fudan University: Technical Report TR20010203,2001. 被引量：1
8Wang J T-L, Shasha D etal. Structural matching and discovery in document databases. Sigmod Record, 1997, 26(2): 560-564. 被引量：1
9Zhang K. A constrained editing distance between unordered labeled trees. Journal of Algorithmica, 1996, 15(3): 205-222. 被引量：1
10Zhang K, Shasha D. On the editing distance between unordered labeled trees. Information Processing Letters, 1992, 42(3): 133-139. 被引量：1

共引文献142

1赵嫣,马军,李森.一种计算结构化文档相关度的方法[J].计算机研究与发展,2007,44(z2):350-355.
2张智江,王志军,张尼.一种可应用于大流量环境的双层散列算法研究[J].电信科学,2011,27(S1):280-284.
3梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
4肖庆华,徐卫亚,巫德斌.岩石流变力学试验数据挖掘研究[J].工程地质学报,2004,12(2):215-220. 被引量：5
5张志华,刘清平.一种神经模糊数据分类方法及其应用[J].自动化技术与应用,2004,23(4):16-19.
6赵海,陈燕,张德干,张晓丹.相联规则的粗熵挖掘方法及其在肇事逃逸侦破中的应用[J].东北大学学报（自然科学版）,2004,25(10):938-941. 被引量：1
7罗兵,黄万杰,杨帅.基于BP神经网络的库存动态预测及其应用[J].重庆大学学报（自然科学版）,2005,28(2):137-140. 被引量：11
8王立柱,赵大宇.用分类与回归树算法进行人才识别[J].沈阳师范大学学报（自然科学版）,2005,23(1):44-47. 被引量：4
9王天江,张永俊.一种快速基于约束的医疗图像关联分类算法[J].华中科技大学学报（自然科学版）,2005,33(5):49-51. 被引量：2
10王明娜,刘志刚.粗集中属性约简的一种启发式算法[J].南通职业大学学报,2005,19(2):9-13.

同被引文献32

1李泽锋.基于智能Push技术的企业档案信息个性化服务[J].档案管理,2005(1):22-23. 被引量：12
2杨彬.利用XML技术进行Web内容挖掘[J].计算机与现代化,2005(11):48-50. 被引量：6
3麻新纯.电子文件价值综合鉴定论[J].档案学通讯,2005(6):47-51. 被引量：12
4刘东斌.档案鉴定——鉴定什么——档案鉴定基本问题思考之四[J].档案管理,2006(5):17-22. 被引量：8
5赵彦昌,周婷.电子文件鉴定浅述[J].科技档案,2007(1):16-20. 被引量：3
6唐红光,周铁军.基于XML的Web数据挖掘技术[J].民营科技,2007(1):14-14. 被引量：1
7盖磊,王海军,刘俊民.一种基于XML的Web地震信息提取的实现[J].计算机应用与软件,2007,24(8):103-105. 被引量：3
8特里·伊斯特伍德.电子文件鉴定的新方法[N].中国档案报,2010-5-20(002). 被引量：2
9Michael Cook.Appraisal and access: We should expect changes driven by the media and by public awareness [ J ].Records Management Journal, 2010,20( 1 ):72-77. 被引量：1
10Reagan Moore.Towards a Theory of Digital Preservation [J].The International Journal of Digital Curation, 2008,3( 1 ):63-75. 被引量：1

引证文献3

1刘钊夏,何明昕.利用JTidy和XML实现Web数据信息的批量提取[J].计算机工程与设计,2010,31(6):1243-1246. 被引量：2
2李雯.电子文件价值智能鉴定探析[J].档案学研究,2011(6):41-45. 被引量：6
3黄昱阳,李慧伦.基于XML的Web信息数据库的建立[J].计算机与现代化,2012(9):222-224.

二级引证文献8

1孔得雨,罗锋,林伟波,葛黎丽,刘明.一种基于Velocity的代码自动生成技术研究[J].计算机应用与软件,2014,31(10):20-23. 被引量：4
2尚珊,苗媛.基于档案元数据内容的电子文件自动鉴定[J].北京档案,2014(9):21-23. 被引量：1
3阮娟.基于XPath的新闻信息抽取系统设计与实现[J].智能计算机与应用,2015,5(2):58-61. 被引量：3
4宋魏巍.大数据环境下电子文件鉴定研究[J].北京档案,2015(12):16-19. 被引量：5
5刘晓菲,李孟秋,李晶伟,何芮.21世纪以来我国档案价值鉴定研究进展[J].兰台世界,2017(13):22-26.
6王洋.基于黑白名单的档案智能鉴定方法研究[J].档案学研究,2021(3):121-126. 被引量：4
7农颜清,周毅.社交媒体政务文件长期保存的鉴定要素与内容分析[J].浙江档案,2022(2):24-28. 被引量：1
8王凡.海委水利工程建设项目档案智能价值鉴定浅析[J].海河水利,2024(8):116-119.

1杨泽民.基于时序和兴趣度约束的加权关联规则挖掘算法研究[J].计算机科学,2013,40(3):259-262. 被引量：5
2韩锷春.非结构化数据的存储问题[J].程序员,2009(9):16-16.
3高荃.Android数据解析性能研究[J].网络安全技术与应用,2014(11):23-24. 被引量：1
4刘烨,王永斌,刘宏波.报文解析工具中的XML数据字典[J].计算机工程,2009,35(3):68-70. 被引量：4
5徐洪智,李仁发,颜一鸣.分支限界法在游戏地图寻径中的应用[J].计算机工程与应用,2007,43(1):104-106. 被引量：3
6胡汉平,侯成帅,孔涛,郑映.基于主动防御模型的IP反向追踪方法[J].华中科技大学学报（自然科学版）,2005,33(3):36-38. 被引量：3
7刘钊夏,何明昕.利用JTidy和XML实现Web数据信息的批量提取[J].计算机工程与设计,2010,31(6):1243-1246. 被引量：2
8唐青松.路径存储法在生成树形结构中的应用研究[J].计算机与现代化,2014(4):178-181. 被引量：1
9NING Bo WANG Guoren DONG Ke.Twig Pattern Matching Based on Compressed Path Labeling Scheme[J].Wuhan University Journal of Natural Sciences,2007,12(5):850-854.
10郝娟,吕晓琪,赵瑛,任国印,张明.基于自定义的LIRe和HBase的海量医学图像检索[J].电视技术,2016,40(5):116-120. 被引量：3

石油化工高等学校学报

2007年第1期

浏览历史

内容加载中请稍等...

基于单个XML文档结构的数据挖掘被引量：3

参考文献8

二级参考文献46

共引文献142

同被引文献32

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于单个XML文档结构的数据挖掘 被引量：3

参考文献8

二级参考文献46

共引文献142

同被引文献32

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于单个XML文档结构的数据挖掘被引量：3