摘要
介绍了一种新的网页结构化抓取的方法。该方法一种通用的网页数据抓取方法,在得到数据的同时,也保留数据原先的结构。本方法在获取网页数据的同时,最大化地保留了数据源原本的结构,从而能够组织成结构化数据,方便后续的存储、查看和使用。
This article introduces a new method of web page structured crawling.This method is a universal web data capture method.While obtaining the data,it also retains the original structure of the data.This method maximizes the original structure of the data source while obtaining web page data,so that it can be organized into structured data,which is convenient for subsequent storage,viewing,and use.
作者
薛春艳
Xue Chunyan(Xiamen Univercity Tan Kah Kee College,Xiamen Fujian 361000)
出处
《现代工业经济和信息化》
2021年第10期191-192,共2页
Modern Industrial Economy and Informationization
关键词
网页
结构化
数据抓取
web pages
structure
data scraping