期刊文献+

深层网页垂直爬虫技术研究综述 被引量:1

下载PDF
导出
摘要 随着信息化时代的快速发展,大数据的价值正逐渐显现,如何利用爬虫技术从网页中采集高质量的海量数据成为大数据技术面临的一个基本问题。文章对深层网页垂直爬虫动态网页的加载、数据块的定位与抽取、数据实体的分析和爬取策略等关键技术进行系统介绍与分析。在此基础上,提出深层网页垂直爬虫所面临的困难与挑战,以及今后的研究方向。
作者 何小明
出处 《电子世界》 2018年第16期42-43,共2页 Electronics World
  • 相关文献

参考文献7

二级参考文献108

  • 1崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量:12
  • 2Ipeirotis P G,Gravano L,Sahami M.Probe,count,and classify:Categorizing hidden web databases//Proceedings of the SIGMOD Conference.Santa Barbara,CA,2001:67-78. 被引量:1
  • 3Chau M,Chen H.A machine learning approach to web page filtering using content and structure analysis.Decision Support Systems,2008,44(2):482-494. 被引量:1
  • 4Barbosa L,Freire J.Combining classifiers to identify online databases//Proceedings of the 16th International Conference on World Wide Web.Banff,Alberta,Canada,2007:431-440. 被引量:1
  • 5Cope J,Craswell N,Hawking D.Automated discovery ofsearch interfaces on the web//Proceedings of the 14th Australian Database Conference.Australia,2003:181-189. 被引量:1
  • 6Raghaven S,Garcia-Molina H.Crawling the hidden web//Proceedings of the 27th International Conference on Very Large Data Bases.Italy,2001,129-138. 被引量:1
  • 7Chang K C,He B,Li C.Structured databases on the Web:Observations and implications.SIGMOD Record,2004,33 (3):61270. 被引量:1
  • 8Gravano L,Ipeirotis P G,Sahami M.QProber:A system for automatic classification of hidden-web databases.ACM Transactions on Information System,2003,22(1):1-41. 被引量:1
  • 9Su W,Wang J,Lochovsky F H.Automatic hierarchical classification of structured deep web databases//Proceedings of the 7th International Conference on Web Information Systems Engineering,China,2006:210-221. 被引量:1
  • 10He B,Tao T,Chang K C-C.Clustering structured Web sources:A schema-based,model-differentiation approach// Proceedings of the Current Trends in Database Technology-EDBT 2004 Workshops.Greece,2004:536-546. 被引量:1

共引文献61

同被引文献5

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部