一种从XML数据中发现关系信息的方法被引量：10

A Method of Discovering Relation Information from XML Data

下载PDF

导出

摘要提出了一种发现蕴藏在不同XML文档嵌套结构中的关系信息及其出现模式的新方法.可根据用户兴趣,发现描述不同实体之间联系的关系信息,抽取关系实例及其在文档中的出现模式.具体解决方案是:首先识别和收集包含用户感兴趣的实体的XML文档片段:然后根据文档片段标签的语义和文档片段的结构计算文档片段的相似度,并采用自适应阈值方法按相似度聚类文档片段.使得包含同一种关系的文档片段聚集在同一个片段簇:最后从XML文档片段簇中抽取关系实例及其出现模式.实验结果表明,对于包含有意义标签的各种XML文档,该方法能够准确地识别和抽取出描述指定实体之间联系的各种关系信息. A novel method of discovering relation information among entities buried in different nest structures of XML documents is proposed. The method is able to identify relations among different types of entities given by users, and extract relation instances and their occurrence patterns in XML documents. The solution is as follows： identify and collect XML fragments that contain all types of entity given by users at first, then calculate similarity between fragments based on semantics of their tags and their structures, and cluster fragments with a adaptively selected similarity threshold so that the fragments containing the same relation are clustered together, finally extract relation instances and patterns of their occurrences from each cluster. The experimental results show that the method can identify and extract relation information among given types of entities correctly from all kinds of XML documents with meaningful tags.

作者吴扬扬雷庆陈锻生 YOKOTA Harou

机构地区华侨大学计算机科学系 Department of Computer Science

出处《软件学报》 EI CSCD 北大核心 2008年第6期1422-1427,共6页 Journal of Software

基金 Supported by the Natural Science Foundation of Fujian Province of China under Grant No.A0510020(福建省自然科学基金) the Int'I Science and Technology Cooperation Project of Fujian Province of China under Grant No.20041014(福建省国际科技合作项目)

关键词关系信息 XML文档相似度聚类出现模式 relation information XML document similarity cluster occurrence pattern

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Chang CH, Kayed M, Girgis MR, Shaalan KF. A survey of Web information extraction systems. IEEE Trans. on Knowledge and Data Engineering, 2006,18( 10): 1411 - 1428. 被引量：1
2Brin S. Extracting patterns and relations from the world wide Web. In: Atzeni P, Mendelzon AO, Mecca G, eds. Proc. of the World Wide Web and Databases, Int'l Workshop WebDB'98. Valencia: Springer-Verlag, 1998. 172-183. 被引量：1
3Sundaresan N, Yi JH. Mining the Web for relations. Computer Networks: The Int'l Journal of Computer and Telecommunications Networking, 2000,33(6):699-711. 被引量：1
4Lin DK. An information-theoretic definition of similarity. In: Shavlik J, ed. Proc. of the 15th Int'l Conf. on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 1998. 296-304. 被引量：1
5Lee JW, Lee KH, Kim W. Preparations for semantics-based XML mining. In: Cercone N, Lin TY, Wu XD, eds. Proc. of the 2001 IEEE Int'l Conf. on Data Mining. Washington: IEEE Computer Society, 2001. 345-352. 被引量：1
6Han JW, Kamber M. Data Mining Concepts and Techniques. New York: Morgan Kaufmann Publishers, 2000. 363-369. 被引量：1
7Query engine, http://www.cs.wisc.edu/niagara/data.html 被引量：1

同被引文献63

1雷庆,吴扬扬.识别和抽取XM L文档中的关系信息及其出现模式[J].清华大学学报（自然科学版）,2005,45(S1):1757-1761. 被引量：3
2朱永泰,王晨,洪铭胜,汪卫,施伯乐.ESPM——频繁子树挖掘算法[J].计算机研究与发展,2004,41(10):1720-1727. 被引量：18
3张丙奇,白硕,赵章界.XML数据相似度研究[J].计算机工程,2005,31(11):25-27. 被引量：6
4卓月明.基于聚类技术的XML文件代表性结构获取[J].吉首大学学报（自然科学版）,2011,32(6):55-58. 被引量：4
5赵传申,孙志挥,张净.基于投影分支的快速频繁子树挖掘算法[J].计算机研究与发展,2006,43(3):456-462. 被引量：14
6袁家政,须德,鲍泓.基于结构与文本关键词相关度的XML网页分类研究[J].计算机研究与发展,2006,43(8):1361-1367. 被引量：13
7杨明.一种基于改进差别矩阵的属性约简增量式更新算法[J].计算机学报,2007,30(5):815-822. 被引量：112
8孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报,2007,18(6):1400-1418. 被引量：72
9ZAKI M J. Efficiently mining frequent trees in a forest: Algorithms and applications [ J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(8): 1021 - 1035. 被引量：1
10AGGARWAL C C, TA N, WANG J, et al. XProj: A framework for projected structural clustering of XML documents [ C ]// SIGKDD'07: Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2007:46-55. 被引量：1

引证文献10

1雷庆,吴扬扬,缑锦.从复杂XML文档中抽取目标关系片段的方法[J].郑州大学学报（理学版）,2009,41(1):40-43.
2郭鑫,李云,黄云,周清平.最小闭树特征集的聚类与分类方法[J].计算机应用,2010,30(2):423-426. 被引量：5
3洪欣,陈维斌,杜吉祥.抽取XML模式到关系模式[J].华侨大学学报（自然科学版）,2010,31(3):288-291. 被引量：2
4李雄飞,孙涛,郭建芳.基于标签树的粗糙集模型LTRS[J].通信学报,2010,31(6):35-43. 被引量：2
5黄伟,郭鑫,周清平.支持实时增量更新的闭子树聚类算法[J].计算机工程,2011,37(24):25-27.
6颜一鸣,郭鑫.一种新的不确定树模式聚类算法[J].计算机工程与科学,2013,35(7):156-163. 被引量：1
7郭鑫,颜一鸣,徐洪智,董坚峰.不确定树数据库中的动态聚类算法[J].小型微型计算机系统,2013,34(6):1339-1343. 被引量：4
8郭鑫,颜一鸣,徐洪智,覃遵跃.动态云平台下的快速闭树聚类并行算法[J].计算机工程,2013,39(9):80-83. 被引量：2
9郭鑫,颜一鸣.一种动态云模型下树数据挖掘算法[J].小型微型计算机系统,2013,34(12):2749-2752. 被引量：8
10张跟鹏.XML中基于聚类的相似度改进算法[J].计算机与数字工程,2015,43(12):2141-2144.

二级引证文献21

1孙亮.对大规模数据集高效数据挖掘算法的研究[J].自动化与仪器仪表,2016(3):192-193. 被引量：10
2洪欣,陈维斌.基于XML的通用数据交换系统[J].计算机系统应用,2011,20(11):38-40. 被引量：3
3洪欣.XML模式到关系模式的递归结构映射算法[J].兰州理工大学学报,2012,38(1):94-97. 被引量：1
4颜一鸣,郭鑫.一种新的不确定树模式聚类算法[J].计算机工程与科学,2013,35(7):156-163. 被引量：1
5郭鑫,颜一鸣,徐洪智,董坚峰.不确定树数据库中的动态聚类算法[J].小型微型计算机系统,2013,34(6):1339-1343. 被引量：4
6郭鑫,颜一鸣,徐洪智,覃遵跃.动态云平台下的快速闭树聚类并行算法[J].计算机工程,2013,39(9):80-83. 被引量：2
7郭鑫,颜一鸣.一种动态云模型下树数据挖掘算法[J].小型微型计算机系统,2013,34(12):2749-2752. 被引量：8
8黄取治.动态云模型大规模数据挖掘算法[J].长春工业大学学报,2014,35(3):305-308. 被引量：2
9胡德敏,余星.一种不确定数据流子空间聚类算法[J].计算机应用研究,2014,31(9):2606-2608. 被引量：1
10李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.

1雷庆,吴扬扬.识别和抽取XM L文档中的关系信息及其出现模式[J].清华大学学报（自然科学版）,2005,45(S1):1757-1761. 被引量：3
2汤恒耀,胡志华.基于链距离估计的非显著特征数据挖掘算法[J].科技通报,2015,31(6):142-144. 被引量：6
3房晓东.一种基于显著性区域的图像分割算法[J].火力与指挥控制,2016,41(7):48-51. 被引量：3
4郭鑫,李云,黄云,周清平.最小闭树特征集的聚类与分类方法[J].计算机应用,2010,30(2):423-426. 被引量：5
5张玉宁,樊银芳.基于相似度聚类与免疫危险理论的入侵检测方法研究[J].宁夏师范学院学报,2008,29(6):54-57.
6李静,陈晓.基于自适应阈值正交小波变换兰姆波去噪方法[J].信息技术,2012,36(3):56-59. 被引量：1
7徐雪松,舒检.带监测模型集的自适应网格多模型滤波[J].信息与控制,2014,43(5):544-550.
8唐闻.自适应阈值Canny算子在图像边缘提取中的应用[J].硅谷,2011,4(19):141-141.
9管小卫,丁琳,蒋道霞.基于频率域的图像显著性区域提取方法[J].计算机仿真,2012,29(8):238-241.
10王娜,彭青玉,邓保青.医学图像背景分割[J].中国医学影像技术,2010,26(8):1573-1575. 被引量：1

软件学报

2008年第6期

浏览历史

内容加载中请稍等...

一种从XML数据中发现关系信息的方法被引量：10

参考文献7

同被引文献63

引证文献10

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

一种从XML数据中发现关系信息的方法 被引量：10

参考文献7

同被引文献63

引证文献10

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

一种从XML数据中发现关系信息的方法被引量：10