从复杂XML文档中抽取目标关系片段的方法

A Method of Extracting Target Relation Fragments from Complicated XML Documents

下载PDF

导出

摘要针对以往关系信息挖掘中存在的复杂XML文档相似度计算精度不高的问题,提出通过发现包含目标关系信息的最小公共祖先节点SCATR,以SCATR节点为根对复杂文档进行片段划分,并按片段的相似度进行聚类,目的在于改善已有模型对复杂XML文档的识别效果.实验结果表明,通过抽取包含目标关系的文档片段,去除文档片段中无关分枝,能够有效地帮助已有模型从复杂XML文档中识别和抽取出目标关系信息. To improve the low precision in calculating similarity of complicated XML documents in the work of relation mining,a method of dealing with complicated XML documents is proposed.The collections of SCATR are identified in the documents according to users requirement,and then the documents are split into fragments which are rooted at SCATR,and target XML fragments are discerned by calculating the similarity between the users mining pattern and XML fragments.The experimental results show that the method can ...

作者雷庆吴扬扬缑锦

机构地区华侨大学计算机科学与技术学院

出处《郑州大学学报（理学版）》 CAS 北大核心 2009年第1期40-43,共4页 Journal of Zhengzhou University:Natural Science Edition

基金华侨大学科研基金资助项目编号07HZR27 福建省自然科学基金资助项目编号A0710013

关键词关系信息 XML相似度模式匹配 relation XML similarity pattern matching

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1吴扬扬,雷庆,陈锻生,YOKOTA Harou.一种从XML数据中发现关系信息的方法[J].软件学报,2008,19(6):1422-1427. 被引量：10
2孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报,2007,18(6):1400-1418. 被引量：72
3雷庆,吴扬扬.识别和抽取XM L文档中的关系信息及其出现模式[J].清华大学学报（自然科学版）,2005,45(S1):1757-1761. 被引量：3

二级参考文献14

1王静,孟小峰,王珊.基于区域划分的XML结构连接[J].软件学报,2004,15(5):720-729. 被引量：35
2张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
3孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
4万常选,刘云生,徐升华,刘喜平,林大海.基于区间编码的XML索引结构的有效结构连接[J].计算机学报,2005,28(1):113-127. 被引量：38
5王静,孟小峰,王宇,王珊.以目标节点为导向的XML路径查询处理[J].软件学报,2005,16(5):827-837. 被引量：21
6孟小峰,王宇,王小锋.XML查询优化研究[J].软件学报,2006,17(10):2069-2086. 被引量：44
7Chang CH, Kayed M, Girgis MR, Shaalan KF. A survey of Web information extraction systems. IEEE Trans. on Knowledge and Data Engineering, 2006,18( 10): 1411 - 1428. 被引量：1
8Brin S. Extracting patterns and relations from the world wide Web. In: Atzeni P, Mendelzon AO, Mecca G, eds. Proc. of the World Wide Web and Databases, Int'l Workshop WebDB'98. Valencia: Springer-Verlag, 1998. 172-183. 被引量：1
9Sundaresan N, Yi JH. Mining the Web for relations. Computer Networks: The Int'l Journal of Computer and Telecommunications Networking, 2000,33(6):699-711. 被引量：1
10Lin DK. An information-theoretic definition of similarity. In: Shavlik J, ed. Proc. of the 15th Int'l Conf. on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 1998. 296-304. 被引量：1

共引文献82

1谌志群,周其力.基于综合语义的XML文档相似度计算方法[J].杭州电子科技大学学报（自然科学版）,2009,29(3):64-67.
2方玉,赵英.基于XML的Web内容挖掘探索[J].情报探索,2007(2):68-69.
3张慧敏,张春玲,孔鲁文.XML正则路径表达式的优化技术研究[J].计算机系统应用,2008,17(5):36-38.
4莫佳.XPath在XML查询中的应用[J].重庆三峡学院学报,2008,24(3):51-53. 被引量：6
5刘波,杨路明,雷刚跃,谢东.融合粒子群与蚁群算法优化XML群体智能搜索[J].计算机研究与发展,2008,45(8):1371-1378. 被引量：8
6闫秋艳,夏士雄.一种基于自然语言生成的XML关键字查询技术[J].计算机工程与应用,2008,44(26):150-153. 被引量：2
7周健,孙丽艳.基于邻接矩阵的面向对象XML继承关系的研究[J].计算机技术与发展,2008,18(10):106-109.
8聂铁铮,于戈,申德荣,寇月.基于实例的Deep Web数据源结果模式匹配技术[J].计算机科学与探索,2008,2(6):601-613. 被引量：1
9尹文生,陈修国,涂平晖,张恒喜.基于关键词的文档层次查询[J].情报杂志,2009,28(1):47-51. 被引量：1
10谌志群.XML文档相似度计算方法研究[J].情报学报,2009,28(1):48-57. 被引量：3

1赵宁宁,梁意文.综合结构和内容的XML文档相似度计算方法[J].微电子学与计算机,2016,33(4):69-72. 被引量：4
2雷庆,吴扬扬.识别和抽取XM L文档中的关系信息及其出现模式[J].清华大学学报（自然科学版）,2005,45(S1):1757-1761. 被引量：3
3毕康.从量身定制到多功能——记HP LaserJet 1100/1100A激光打印机[J].中国经济和信息化,1999,0(23):39-39.
4方德忠.如何利用WORD对长篇复杂文档进行排版[J].科技信息,2007(4):47-47.
5熊金波,姚志强,金彪.云计算环境中结构化文档形式化建模[J].计算机应用,2013,33(5):1267-1270. 被引量：2
6肖基毅.基于可扩展标记语言的Web复杂文档管理技术[J].南华大学学报（理工版）,2002,16(4):60-63. 被引量：1
7何成万,叶水琴.目标模型中目标关系的自动发现[J].武汉工程大学学报,2015,37(4):51-55.
8朴勇,江贺,王秀坤.基于张量的XML相似度计算方法[J].控制与决策,2016,31(9):1711-1714. 被引量：2
9万琴,王耀南.基于卡尔曼滤波器的运动目标检测与跟踪[J].湖南大学学报（自然科学版）,2007,34(3):36-40. 被引量：24
10周军锋,王博,田姗姗,陈子阳,郭景峰.TDTMS:一种面向XML数据的结果子树构建算法[J].计算机学报,2013,36(8):1714-1728.

郑州大学学报（理学版）

2009年第1期

浏览历史

内容加载中请稍等...

从复杂XML文档中抽取目标关系片段的方法

参考文献3

二级参考文献14

共引文献82

相关作者

相关机构

相关主题

浏览历史