基于语义标记树的XML文档聚类研究被引量：5

XML Documents Clustering Based on Semantic Tag Tree

下载PDF

导出

摘要近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法. XML gradually became a standard for data representation and data exchange in Internet due to its advantage of simplicity, semi-structuredness, extensibility and self-description. XML documents clustering is an important topic in the field of data mining, provides support to the collecting, organization and retrieving of web information resource. The authors introduce the popular XML documents clustering algorithm, and makes use of word sense disambiguation which is based on the WordNet to disambiguate the tags in XML documents. Then the authors propose a new XML documents similarity calculating method based on semantic tag tree, and cluster using KNN algorithm. At last, the authors make the experiment of the documents clustering on the data sets of XML, which approves that this method is effective for XML documents clustering.

作者潘有能滕海明

机构地区浙江大学公共管理学院信息资源管理系

出处《情报学报》 CSSCI 北大核心 2012年第5期508-514,共7页 Journal of the China Society for Scientific and Technical Information

基金本文为国家自然科学基金项目＂基于标记树的XML文档自动聚类和分类研究＂（70803046）的研究成果.

关键词 XML 聚类语义标记树 WORDNET XML, clustering, semantic tag-tree, WordNet

分类号 G [文化科学]

引文网络
相关文献

参考文献19

1Lee J W, Lee K, Kim W. Preparations for Semantics-Based XML Mining [ C ]//Proceedings of the 2001 IEEE international conference on data mining, San Jose, Cali- fornia, USA, 2001. 被引量：1
2Doucet A. Naive Clustering of a large XML Document Collection [ C ]//Proceedings of the 1 st Annual Workshopof the Initiative for the Evaluation of XML retrieval (INEX) , Dagstuhl, Germany,2002. 被引量：1
3潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
4Lian W,Cheung D W, Mamoulis N,et al. An Efficient and Scalable Algorithm for Clustering XML Documents by Structure[ J]. IEEE Transactions on Knowledge and Data Engineering ,2004,16( 1 ) :82-96. 被引量：1
5谌志群,王小华,王荣波.一种结构与内容相结合的XML文档聚类方法[J].情报学报,2009,28(5):693-699. 被引量：4
6龚安,刘华山,牛秋丽,罗琳.基于XML文档相似性的构件聚类分析[J].计算机工程与设计,2009,30(2):507-510. 被引量：7
7黄启辉..基于遗传算法的XML文档聚类的研究与应用[D].中山大学,2009:
8冯志伟.词义排歧方法研究[J].术语标准化与信息技术,2004(1):31-37. 被引量：11
9王瑞琴,孔繁胜.无监督词义消歧研究[J].软件学报,2009,20(8):2138-2152. 被引量：17
10Lesk M. Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone [ C ~//Proceedings of SIGDOC ' 86, Toronto, Canada, 1986. 被引量：1

二级参考文献36

1潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9
2姚天顺,张俐,高竹.WordNet综述[J].语言文字应用,2001(1):27-32. 被引量：33
3张丙奇,白硕,赵章界.XML数据相似度研究[J].计算机工程,2005,31(11):25-27. 被引量：6
4陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
5李茜.框架网(FrameNet)——一项基于框架语义学的词库工程[J].中国科技信息,2005(16A):39-39. 被引量：2
6陈浩,何婷婷,姬东鸿.基于MDL聚类的无导词义消歧[J].小型微型计算机系统,2005,26(10):1846-1849. 被引量：2
7卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
8YANG Che-Yu.Word sense disambiguation using semantic relatedness measurement[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1609-1625. 被引量：7
9Heather Williamson.XML:The complete reference[M].北京:机械工业出版社,2002. 被引量：1
10Pandya A, Bhattacharyya P. Text similarity measurement using concept representation of texts[C].Proceedings of First International Conference on Pattern Recognition and Machine Intelligence.Berlin,Germany:Springer,2005. 被引量：1

共引文献56

1刘莉,谈文蓉.统计学习方法在语义消歧中的应用研究[J].西南民族大学学报（自然科学版）,2007,33(1):193-196.
2潘有能,丁楠.图书馆学学科知识地图的构建[J].大学图书馆学报,2007,25(4):10-13. 被引量：21
3付晓歌.汉语动结式依存结构与特征结构对比分析[J].襄樊学院学报,2009,30(4):62-65.
4宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
5谈文蓉,杨宪泽,刘莉.汉语自动排歧方法研究[J].西南民族大学学报（自然科学版）,2005,31(6):971-976. 被引量：1
6谈文蓉,符红光,刘莉,杨宪泽.一种基于贝叶斯分类与机读词典的多义词排歧方法[J].计算机应用,2006,26(6):1389-1391. 被引量：5
7翁宏伟.中文信息处理中歧义及歧义自动识别方法的比较[J].现代语文（下旬．语言研究）,2006(12):93-94. 被引量：2
8孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
9潘有能,丁楠.基于标记树的XML文档自动分类研究[J].情报学报,2007,26(3):350-355. 被引量：5
10杨厚群,何中市,雷景生.基于划分的XML文档聚类研究[J].计算机科学,2008,35(3):183-185. 被引量：4

同被引文献131

1何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
2黄烟波,张红宇,李建华,谭立球,李志.本体映射方法研究[J].计算机工程与应用,2005,41(18):27-29. 被引量：38
3凌云,刘军,王勋.多层次web文本分类[J].情报学报,2005,24(6):684-689. 被引量：12
4李楠,孙济庆.支持语义检索的知识检索模型[J].情报学报,2005,24(6):708-712. 被引量：12
5潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
6潘有能,丁楠.基于标记树的XML文档自动分类研究[J].情报学报,2007,26(3):350-355. 被引量：5
7陆建江,张亚非,等.语义网原理与技术[M].北京:科学出版社,2008:76-79. 被引量：10
8鲁远,万常选.XML信息检索中结构相似度计算[J].情报杂志,2007,26(11):109-111. 被引量：3
9贾君枝,董刚.FrameNet、WordNet、VerbNet比较研究[J].情报科学,2007,25(11):1682-1686. 被引量：10
10马军,陈竹敏,赵嫣,雷景生.基于部分-整体匹配的文档结构相似度计算[J].模式识别与人工智能,2007,20(5):630-635. 被引量：2

引证文献5

1潘有能,刘朝霞.基于WordNet的关联数据本体映射研究[J].情报杂志,2013,32(2):99-102. 被引量：7
2傅腾,高建华.Web工程中基于不变性的元数据检查和测试[J].计算机科学,2014,41(8):224-228.
3潘有能,刘朝霞.本体映射技术在关联数据中的应用研究[J].情报科学,2015,33(1):54-56. 被引量：12
4李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.
5张力生,洪小云,雷大江.基于路径特征的XML文档结构相似性度量[J].计算机应用与软件,2015,32(7):39-42. 被引量：4

二级引证文献21

1孙艳川,南振岐,吴朱军,姚尔果.基于改变历史日志扩展的本体映射进化研究[J].科学技术与工程,2014,22(7):257-260.
2高劲松,程娅,梁艳琪.面向关联数据集的本体匹配方法研究[J].现代图书情报技术,2015(6):33-40.
3孙建军,徐芳.基于关联数据的学科网络信息深度聚合框架构建[J].图书馆,2015(7):50-54. 被引量：14
4刘丽红,李海燕,贾李蓉,刘静,于彤,于琦.面向中医药语义维基百科的数据映射规则研究[J].中国数字医学,2015,10(12):44-46.
5成全,周兰芳.关联数据的语义动态发现及关联构建机制研究[J].情报科学,2016,34(10):88-94. 被引量：6
6陈天伟,彭凌西,罗茂元,张翔.基于DOM的可视化布局解析器的设计与实现[J].计算机时代,2017(3):58-61. 被引量：2
7李勤毅,彭欣,陈静静.航天器地面综测系统软件间通信协议的现状与改进[J].计算机测量与控制,2017,25(5):132-135. 被引量：1
8杨志和,王要武.基于类词映射的我国新兴“智慧”概念国际适用性研究——针对Smart、Intelligent与Wisdom的择用困境[J].信息资源管理学报,2018,8(1):65-77. 被引量：2
9陈天伟,彭凌西.基于HTML5的移动终端布局解析器的设计与实现[J].实验科学与技术,2018,16(4):14-17.
10杨选辉,蔡志强.基于突变检测与共词分析的关联数据新兴趋势探测[J].情报科学,2018,36(11):164-168. 被引量：16

1自兴道.论《易经》中的对称和简单[J].思想战线,2004,30(4):103-107.
2王美雅.文化创意产业研究的回顾与前瞻[J].艺术设计研究,2010(3):83-88. 被引量：5
3李行亮,钟守满.语义结构和文化意义[J].外语与外语教学,2000(7):15-16.
4网吧建网提示[J].中国计算机用户,2004(20).
5郎裕,柴炜,许宪玲,王丽丽,周文瑞.XML技术在高职院校图书馆信息化中的应用[J].中国科技博览,2015,0(22):332-332. 被引量：1
6杨青,刘鑫.日本包装设计对中国包装设计的启示[J].美术教育研究,2016(1):68-69. 被引量：3
7王芳,邵凯.对各国饮食构成进行聚类分析[J].科技资讯,2007,5(35):157-157.
8杨晓俊,潘秋玲.基于模糊理论的城市文化评价指标体系[J].统计与决策,2012,28(10):41-44. 被引量：3
9陈湘舸,杜敏.幸福文化及其价值定位[J].甘肃社会科学,2008(6):61-66. 被引量：15
10祁建立.复杂性理论视野中的生态文化系统建设[J].殷都学刊,2009,30(2):142-145.

情报学报

2012年第5期

浏览历史

内容加载中请稍等...

基于语义标记树的XML文档聚类研究被引量：5

参考文献19

二级参考文献36

共引文献56

同被引文献131

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于语义标记树的XML文档聚类研究 被引量：5

参考文献19

二级参考文献36

共引文献56

同被引文献131

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于语义标记树的XML文档聚类研究被引量：5