一种网页结构化数据的抓取方法被引量：1

Method for Grabbing Structured Data from Web Page

下载PDF

导出

摘要介绍了一种新的网页结构化抓取的方法。该方法一种通用的网页数据抓取方法,在得到数据的同时,也保留数据原先的结构。本方法在获取网页数据的同时,最大化地保留了数据源原本的结构,从而能够组织成结构化数据,方便后续的存储、查看和使用。 This article introduces a new method of web page structured crawling.This method is a universal web data capture method.While obtaining the data,it also retains the original structure of the data.This method maximizes the original structure of the data source while obtaining web page data,so that it can be organized into structured data,which is convenient for subsequent storage,viewing,and use.

作者薛春艳 Xue Chunyan(Xiamen Univercity Tan Kah Kee College,Xiamen Fujian 361000)

机构地区厦门大学嘉庚学院

出处《现代工业经济和信息化》 2021年第10期191-192,共2页 Modern Industrial Economy and Informationization

关键词网页结构化数据抓取 web pages structure data scraping

分类号 TP393.0 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1巩阳光..基于数据挖掘技术的金融数据分析系统设计与实现[D].湖北工业大学,2018:
2贾晨,刘华平,续欣莹,孙富春.基于宽度学习方法的多模态信息融合[J].智能系统学报,2019,14(1):150-157. 被引量：19
3唐伟,王开圣,宋术.采用页面数据抓取技术自动核查数据质量[J].数字技术与应用,2017,35(8):100-101. 被引量：1
4邓远飞,甄晓云,孟捷.基于R语言的WEB半结构化数据抓取与统计分析[J].价值工程,2016,35(5):232-234. 被引量：2
5张婷婷,刘凯,王伟军.科研人员Web数据自动抓取模式及其开源解决方案[J].信息资源管理学报,2015,5(2):21-27. 被引量：9
6郑新录,端木学光,郝志原,李征宇,韩子扬.基于web的房地产行业信息检索系统[J].硅谷,2011,4(20):174-175. 被引量：2

二级参考文献30

1吴琰.房地产信息系统中的数据挖掘技术[J].市场周刊,2010,23(7):113-114. 被引量：1
2Osterloh M, Rota S. Open source software development一Just another case of collective invention? [J]. ResearchPolicy, 2007,36(3):157-171. 被引量：1
3Stevanovic D, An A, VlajicFeature N. Evaluation for web crawler detection with data mining techniques[j]. ExpertSystems with Applications, 2012, 39(8) : 8707-8717. 被引量：1
4Python: difference between urliib and urllib2[EB/OL]. [2014-05-20]. http://www. hacksparrow. com/python-differ-ence-between-urllib-and-urllib2. html. 被引量：1
5Beautiful Soup Documentation[EB/OL]. [2014-05-20]. http://www. crummy. com/software/BeautifulSo叩/. 被引量：1
6Mertz D.可爱的 Python:使用 Mechanize 和 Beautiful Soup 轻松收集 Web 数据[EB/OL]. [2014-05-20]. http://www. ibm. com/developerworks/cn/linux/l-python-mechanize-beautiful-soup/. 被引量：1
7Selenium lntroduction[EB/OL]. [2014-05-20]. http://www.seleniumhq.org. 被引量：1
8Web browser programming in Python[EB/OL]. [2014-05-20]. http://wiki.python.org/moin/WebBrowserProgram-ming. 被引量：1
9Adiroiban. Running windmill[EB/OL]. [2014-05-20]. https://github. com/windmill/windmill/wiki/Getting-Started. 被引量：1
10The Big Data Brain Drain: Why science is in trouble[EB/OL]. [2014-10-16]. http://jakevdp.github.io/blog/2013/10/26/big-data-brain-drain/. 被引量：1

共引文献28

1朱宇华.房地产行业信息技术应用[J].电子世界,2014(10):204-205. 被引量：1
2苏效昌,廖海亮,李达富,苏荣菠.供电局班组工作台的建设与应用[J].广西电力,2016,39(4):41-45.
3武婷婷.一种基于WebMagic和Mahout的信息搜集与推荐系统[J].软件导刊,2016,15(10):1-3. 被引量：7
4何锋丽,杨大利,游璐颖,霍艳艳.基于H5的欧美影视剧信息检索网站的设计与实现[J].电子技术与软件工程,2019(1):37-39. 被引量：1
5符志强,刘磊安,马轩.科技政策推广APP的设计与实现[J].福建电脑,2019,35(1):47-48. 被引量：1
6朱伟明,李浩.基于个性化服务的O2O服装品牌运营节点研究[J].上海视觉,2016(1):36-41.
7藕杰.基于评论数据的品牌笔记本客户满意度影响因素贝叶斯网络分析[J].江西电力职业技术学院学报,2019,32(4):21-22.
8尹忠东,涂菁菁,徐永海.基于宽度学习的风光容量配置研究[J].电测与仪表,2019,56(13):45-50. 被引量：3
9谢志敏,宋爽,张彤彤,李翀.面向海洋气象的数据汇聚平台[J].科研信息化技术与应用,2019,10(2):42-50. 被引量：1
10糜小夫.基于密码学的网络多模态信息动态加密系统设计[J].现代电子技术,2020,43(4):51-53. 被引量：5

同被引文献6

1竺洪平.网页数据抓取中的几个关键技术问题[J].宁波教育学院学报,2016,18(2):66-69. 被引量：1
2徐志,金伟.Python爬虫技术的网页数据抓取与分析[J].数字技术与应用,2020,38(10):30-32. 被引量：11
3张俊威,肖潇.基于Python爬虫技术的网页数据抓取与分析研究[J].信息系统工程,2021,34(2):155-156. 被引量：8
4刘玉玲,郑力新.新冠肺炎疫情数据的抓取及可视化研究[J].电子设计工程,2021,29(7):40-44. 被引量：4
5谢蓉蓉,徐慧,郑帅位,马刚.基于网络爬虫的网页大数据抓取方法仿真[J].计算机仿真,2021,38(6):439-443. 被引量：15
6龙香妤.基于网络爬虫技术的数据抓取程序的设计[J].技术与市场,2021,28(10):41-43. 被引量：4

引证文献1

1熊传玉,徐尤华.在线文档数据抓取与汇总功能的实现[J].南方金属,2022(5):56-58. 被引量：3

二级引证文献3

1骆慧伦,曹海,高攀.福建气象会商调度管理系统设计与实现[J].信息记录材料,2023,24(5):205-209.
2谢永盛,韦林兵,王晓亮,蓝海江,银文通.在线文档多条件数据汇总及核对的实现[J].办公自动化,2023,28(23):1-4.
3薛颜波,黄昊,刘亚娟.基于SVG的电子病历编辑器的研发及应用[J].中国数字医学,2024,19(4):28-32.

1冉朝霞.基于微博话题形成与扩散的舆论反转研究[J].文化学刊,2021(6):222-224. 被引量：1
2薛美琴.网络爬虫刑法规制的边界[J].网络法律评论,2020,20(1):227-248. 被引量：1
3刁羽,薛红.基于电子资源行为小数据的协同过滤推荐系统研究——以电子资源校外访问系统为例[J].图书馆学研究,2021(19):21-28. 被引量：12
4刘舆,曾德贤,胡远方,周尚辉.基于知识图谱的卫星情报分析方法研究[J].情报探索,2021(11):1-7. 被引量：2

现代工业经济和信息化

2021年第10期

浏览历史

内容加载中请稍等...

一种网页结构化数据的抓取方法被引量：1

参考文献6

二级参考文献30

共引文献28

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种网页结构化数据的抓取方法 被引量：1

参考文献6

二级参考文献30

共引文献28

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种网页结构化数据的抓取方法被引量：1