期刊文献+

一种网页结构化数据的抓取方法 被引量:1

Method for Grabbing Structured Data from Web Page
下载PDF
导出
摘要 介绍了一种新的网页结构化抓取的方法。该方法一种通用的网页数据抓取方法,在得到数据的同时,也保留数据原先的结构。本方法在获取网页数据的同时,最大化地保留了数据源原本的结构,从而能够组织成结构化数据,方便后续的存储、查看和使用。 This article introduces a new method of web page structured crawling.This method is a universal web data capture method.While obtaining the data,it also retains the original structure of the data.This method maximizes the original structure of the data source while obtaining web page data,so that it can be organized into structured data,which is convenient for subsequent storage,viewing,and use.
作者 薛春艳 Xue Chunyan(Xiamen Univercity Tan Kah Kee College,Xiamen Fujian 361000)
出处 《现代工业经济和信息化》 2021年第10期191-192,共2页 Modern Industrial Economy and Informationization
关键词 网页 结构化 数据抓取 web pages structure data scraping
  • 相关文献

参考文献6

二级参考文献30

  • 1吴琰.房地产信息系统中的数据挖掘技术[J].市场周刊,2010,23(7):113-114. 被引量:1
  • 2Osterloh M, Rota S. Open source software development一Just another case of collective invention? [J]. ResearchPolicy, 2007,36(3):157-171. 被引量:1
  • 3Stevanovic D, An A, VlajicFeature N. Evaluation for web crawler detection with data mining techniques[j]. ExpertSystems with Applications, 2012, 39(8) : 8707-8717. 被引量:1
  • 4Python: difference between urliib and urllib2[EB/OL]. [2014-05-20]. http://www. hacksparrow. com/python-differ-ence-between-urllib-and-urllib2. html. 被引量:1
  • 5Beautiful Soup Documentation[EB/OL]. [2014-05-20]. http://www. crummy. com/software/BeautifulSo叩/. 被引量:1
  • 6Mertz D.可爱的 Python:使用 Mechanize 和 Beautiful Soup 轻松收集 Web 数据[EB/OL]. [2014-05-20]. http://www. ibm. com/developerworks/cn/linux/l-python-mechanize-beautiful-soup/. 被引量:1
  • 7Selenium lntroduction[EB/OL]. [2014-05-20]. http://www.seleniumhq.org. 被引量:1
  • 8Web browser programming in Python[EB/OL]. [2014-05-20]. http://wiki.python.org/moin/WebBrowserProgram-ming. 被引量:1
  • 9Adiroiban. Running windmill[EB/OL]. [2014-05-20]. https://github. com/windmill/windmill/wiki/Getting-Started. 被引量:1
  • 10The Big Data Brain Drain: Why science is in trouble[EB/OL]. [2014-10-16]. http://jakevdp.github.io/blog/2013/10/26/big-data-brain-drain/. 被引量:1

共引文献28

同被引文献6

引证文献1

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部