期刊文献+

基于XML的网页信息自动抽取 被引量:6

下载PDF
导出
摘要 文章提出了一种基于XML的网页信息自动抽取的方法和框架 ,通过利用网页中信息的结构相似性和词法相似性 ,自动学习出网页信息的记录模式并归纳出相应的词法模式 ,从而避免了繁重的人为样本收集与标记工作 ,也免去了人工给定模式的工作 ,具备很强的自动性。同时自动归纳出的词法模式还可以应用到其他网站和非结构化文本中。
出处 《计算机应用》 CSCD 北大核心 2004年第S1期225-227,共3页 journal of Computer Applications
关键词 信息抽取 XML WWW
  • 相关文献

参考文献5

  • 1Sahuguet A,Azavant F.Wysiwyg Web Wrapper Factory[].WWW.1999 被引量:1
  • 2Laender AHF,Ribeiro-Neto BA,Da Silva AS,et al.A Brief Survey of Web Data Extraction Tools[].SIGMOD Record.2002 被引量:1
  • 3Embley DW,Campbell DM,Jiang YS,et al.Conceptual-ModelBased Data Extraction from Multiple-Record Web Pages[].Data Mining and Knowledge Discovery.1999 被引量:1
  • 4Liu L,Pu C,Han W.XWRAP: An XML-enable Wrapper Construction System for Web Information Resource[].In Proceedings of the th IEEE International Conference on Data Engineering.2000 被引量:1
  • 5Crescenzi V,Mecca G.On Automatic Information Extraction from Large Web Sites[].Technical Report. 被引量:1

同被引文献16

引证文献6

二级引证文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部