期刊文献+

XML文档实体识别技术研究 被引量:2

Research on Entity Identification Technology on XML Documents
下载PDF
导出
摘要 随着XML文档的广泛应用,使用实体识别技术对XML文档数据质量进行管理变得非常重要。XML中实体识别技术主要用于在XML文档中发现同一实体的不同描述,其在数据质量管理中可以用于错误检测、数据集成等。由于XML文档是半结构化的,XML文档上的实体识别与纯文本和关系数据上的实体识别有着很大不同。文中介绍了XML文档上实体识别的概念和应用,分别讨论了XML文档上几种实体识别技术的概念和原理,给出了相应的树匹配算法,最后得出结论并展望了未来的研究方向。 With the wide application of XML documents,it is important for applying entity recognition technology to the XML data quali-ty for management. Entity recognition is mainly applied to find different descriptions of the same entity in the XML document,which can be used for error detection,data integration in data quality management. Because XML documents is a semi-structured,entity identifica-tion is different from plain text and relation database in XML document. In this paper,introduce the concept and application of entity iden-tification of the XML document,and the concept and principle of several entity recognition technology are discussed,and the correspond-ing tree matching algorithm is given,finally discuss the prospect of future research directions.
作者 赵震 张龙昌
出处 《计算机技术与发展》 2014年第10期84-87,共4页 Computer Technology and Development
基金 教育部人文社会科学研究一般项目(12YJC870030) 辽宁省教育科学"十二五"规划(JG12DB149) 辽宁省社会科学规划基金项目(L12CTQ008)
关键词 XML文档 实体识别 数据质量 XML documents entity recognition quality of data
  • 相关文献

参考文献15

  • 1Elmagarmid A K, Ipeirotis P G, Verykios V S. Duplicate re- cord detection:a survey[ J]. IEEE Transactions on Knowledge and Data Engineering,2007,19 ( 1 ) : 1 -16. 被引量:1
  • 2W3C. XPath 1.0, XML path language[EB/OL]. 1999. ht- tp ://www. w3. org/TR/XPath. 被引量:1
  • 3W3C. XQuery 1. O, an xml query language[ EB/OL]. 2004. http ://www. w3. org/TR/XQuery/. 被引量:1
  • 4Hoffmann C M, O' Donnell M J. Pattern matching in trees [ J ]. Journal of ACM, 1982,29( 1 ) :68-95. 被引量:1
  • 5Chase D R. An improvement to bottom-up tree pattern matc- hing[ C ]//Proc of POPL. New York, NY, USA : ACM, 1987 : 168-177. 被引量:1
  • 6Cai Jiazhen, Paige R, Tarjan R E. More efficient bottom-up tree pattern matching [ C ]//Proc of CAAP. [ s. 1. ] : [ s. n. ], 1990:72-86. 被引量:1
  • 7Burghardt J. A tree pattern matching algorithm with reasonable space requirements [ C ]//Proc of CAAP. [ s. 1. ] : [ s. n. ], 1988 : 1 - 15. 被引量:1
  • 8Kosaraju S R. Efficient tree pattern matching[ C ]//Proceed- ings of the 30th annual symposium on foundations of computer science. Washington, DC, USA: IEEE Computer Society, 1989 : 178-183. 被引量:1
  • 9Dubiner M, Galil Z, Magen E. Faster tree pattern matching [ J]. Journal of ACM, 1994,41 (2) :205-213. 被引量:1
  • 10Bille P. A survey on tree edit distance and related problems [ J]. Theoretical Computer Science, 2005,337 ( 1 - 3 ) : 217 - 239. 被引量:1

同被引文献23

引证文献2

二级引证文献19

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部