基于WebKit的网络爬虫被引量：3

A WebKit based web crawler

下载PDF

导出

摘要以AJAX技术为代表的Web应用新技术的出现,赋予了JavaScript更加丰富的功能。但也导致更多的URL以数据形式存在于JavaScript代码中,给网络爬虫的URL提取带来了新的挑战。为了解决这一问题,在此提出了一种基于WebKit的网络爬虫,以WebKit作为爬虫的前端来解析并执行JavaScript。一是实现JavaScript对网页DOM的修改,从而将存在于此类代码中的URL转换成HTML形式并以静态分析方法来提取;二是定位JavaScript页面导航的代码并且劫持输入导航方法及对象的变量以提取变量中的URL。这充分降低了客户端脚本给爬虫带来的障碍,从而更好地提取网页中的URL。 With the emergence of the new web application technologies symbolized by the AJAX technology,the richer functions has been attached to JavaScript,but this also leads to more URL existing in the form of data in JavaScript codes and brings new challenges to the URL extraction of Web crawler.To solve these problems,a WebKit-based web crawler is proposed in this paper.JavaScript is parsed and executed by taking WebKit engine as the front end of the crawler,with which the DOM modification on the web page of JavaScript is implemented to convert URL existing in those codes into HTML style and extract them by static analysis method,and also the page navigation codes of JavaScript is positioned and the input navigation method is intercepted to extract URL in these variables.These two methods has sufficiently reduced the barriers caused by client side script,so URL in the web page can be extracted more perfectly.

作者郭津丞冯超张磊

机构地区国防科学技术大学电子科学与工程学院

出处《现代电子技术》 2013年第18期62-64,68,共4页 Modern Electronics Technique

关键词网络爬虫浏览器引擎 WEBKIT JAVASCRIPT web crawler browser engine WebKit JavaScript

分类号 TN964-34 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献12

1Wikipedia. Web crawler [EB/OL]. [2013-05-30]. http ://en.wiki- pedia.org/wiki/Web_crawler. 被引量：1
2University of Toronto. HTML and XHTML document type defi- nitions [EB/OL]. [2013-04-23]. http://www.utoronto.ca/webdocs/ HTMLdocs/HTML_Spec/html.html. 被引量：1
3Wikipedia. Regular expression [EB/OL]. [2013-04-23]. http://en. wikipedia.org/wiki/Regular_expression. 被引量：1
4World Wide Web Consortium. Document object model [EB/OL]. [2013-04-23]. http ://www.w3.org/DOM. 被引量：1
5ALVAREZ M, RAPOSO J, PAN A, et al. DeepBot: a focused crawler for accessing hidden web content [C]// Proceedings of DEECS 2007. New York, USA: ACM, 2007: 18-25. 被引量：1
6彭轲,廖闻剑.基于浏览器服务的网络爬虫[J].硅谷,2009,2(4). 被引量：7
7刘兵.基于JavaScript等多链接分析的主题爬虫设计实现[J].许昌学院学报,2010,29(2):87-90. 被引量：4
8范轩苗,郑宁,范渊.一种基于Ajax的爬虫模型的设计与实现[J].计算机应用与软件,2010,27(1):96-99. 被引量：3
9I WebKit Open Source Project. The WebKit open source project [EB/OL]. [2013-03-24]. http://www.webkit.org. 被引量：1
10WebKit Open Source Project. JavaScriptCore [EB/OL]. [2013- 03-24]. http ://trac.webkit.org/wiki/JavaScriptCore. 被引量：1

二级参考文献16

1印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量：53
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
3Raghavan S, Garcia-Molina H. Crawling the hidden web [ C ]//Roma, Italy:Prec. of the 27th International Conference on Very Large Data- Bases(VLDB) ,2001:129 - 139. 被引量：1
4Barbosa L, Freire J. Anadaptive crawler for locating hidden-web entry points [ C ]//Alberta, Canada: Proc. of the 16th international conference on World Wide Web,2007:441 -450. 被引量：1
5Ntoulas A, Zerfos P, Cho J. Downloading textual hidden web content through key word queries [ C ]//North California, USA : Proc. of the 5th ACM/IEEE-CS joint conference on Digital libraries,2005:100- 109. 被引量：1
6Alvarez M, Raposo J, Pan A, et al. Crawling the Content Hidden Behind Web Forms [ J]. Lecture Notes in Computer Science,2007,4702:322 -333. 被引量：1
7Alvarez M, Pan A, Raposo J, et al. Crawling Web Pages with Support for Client-Side Dynamism[ C ]//HongKong, China: Proc. of the 7th International Conference on Web Age Information Management (WAIM06). 2006 : 252 - 262. 被引量：1
8Moailla. Tutorial: Embedding Rhino [ EB/OL]. 2006 - 11 - 14. http ://www. mozilla, org/rhino/tutorial, html. 被引量：1
9Mozilla. Rhino documentation [ EB/OL]. 2008 - 4 - 14. http ://developer. rnozilla, org/en/docs/Rhino documentation. 被引量：1
10Liu H Y, Milios E, Janssen J. Focused Crawling by Learning HMM from User' s Topic - specific Browsing[ C ]. Proceedings of the web intelligence. IEEE/WIC/ACM International Conference on Web intelligence. Washington DC, USA:IEEE Computer Society ,2004. 被引量：1

共引文献9

1张睿涵,林振荣,李建民,衷湾.基于主题定制的专利网络爬虫的设计与实现[J].计算机与现代化,2011(7):52-55. 被引量：2
2刘寿强,孟敬.基于JavaLucene的分级鉴权资源管理系统的研究与实现[J].计算机安全,2012(4):8-12.
3谷茂恒.全国省市体育局官方网站建设的现状分析[J].现代企业教育,2014(16):539-540.
4田晓辉.面向垂直的搜索引擎的设计[J].福建电脑,2014,30(11):29-30.
5贺杰.基于Webdriver爬虫技术的研究[J].科技广场,2016(10):27-31. 被引量：1
6韩子寅,司凯威.视听类移动应用软件监看系统设计与实现[J].广播电视信息,2016,23(12):50-53.
7王雪瑞,刘渊.面向国内直播行业的分布式弹幕爬虫研究[J].计算机应用与软件,2018,35(2):134-140. 被引量：5
8何苗,张蕴.基于Selenium框架的定向网络数据获取的设计与实现[J].工业控制计算机,2020,33(6):45-47. 被引量：3
9白琳,李雨蝶,尹世民.基于营销传播视角的“弹幕+”模式研究评述[J].河南科技大学学报（社会科学版）,2020,38(6):38-44. 被引量：4

同被引文献14

1彭轲,廖闻剑.基于浏览器服务的网络爬虫[J].硅谷,2009,2(4). 被引量：7
2廖凯,雒江涛,张治中.利用正则表达式实现Megaco协议解析[J].通信技术,2008,41(11):81-82. 被引量：1
3刘兵.基于JavaScript等多链接分析的主题爬虫设计实现[J].许昌学院学报,2010,29(2):87-90. 被引量：4
4钱程,阳小兰.一种支持Ajax框架的网络爬虫的设计与实现[J].计算机与数字工程,2012,40(4):69-71. 被引量：3
5陆亮,李东.支持AJAX的网络爬虫设计与实现[J].智能计算机与应用,2013,3(6):57-59. 被引量：2
6李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67. 被引量：51
7钱晨,张晓静.网络Flash爬虫搜索方法比较研究[J].中国教育技术装备,2014(14):32-34. 被引量：1
8张焕国,韩文报,来学嘉,林东岱,马建峰,李建华.网络空间安全综述[J].中国科学：信息科学,2016,46(2):125-164. 被引量：147
9魏少鹏,夏小玲.基于Chrome扩展的爬虫系统设计与实现[J].软件导刊,2016,15(3):76-80. 被引量：5
10邓珮,孙朔.基于因子分析的图像语义研究[J].包装工程,2017,38(20):112-115. 被引量：5

引证文献3

1孙龙,李彦.基于AJAX的深网爬虫设计[J].现代计算机,2017,23(19):72-75.
2王雪瑞,刘渊.面向国内直播行业的分布式弹幕爬虫研究[J].计算机应用与软件,2018,35(2):134-140. 被引量：5
3杨松,刘佳欣.基于Python多重解析的图像爬虫的设计与实现[J].工业控制计算机,2021,34(2):99-101. 被引量：3

二级引证文献8

1刘欣雨.基于弹幕的突发信息安全类事件舆情分析——以“滴滴平台下架”事件为例[J].情报工程,2022,8(4):85-109. 被引量：1
2梁建胜,谭思敏.基于分布式禁忌人工蜂群算法的云视频直播优化算法[J].计算机应用与软件,2019,36(12):122-130. 被引量：2
3贾小云,杜晓旭.多维布隆算法在Redis指纹自动过期中的应用[J].计算机应用与软件,2020,37(8):33-38. 被引量：1
4白琳,李雨蝶,尹世民.基于营销传播视角的“弹幕+”模式研究评述[J].河南科技大学学报（社会科学版）,2020,38(6):38-44. 被引量：4
5熊国梁,麦强盛.基于Python的国家社科基金项目爬虫的设计和实现——以贫困为主题的立项信息为例[J].信息与电脑,2021,33(9):181-184.
6李志涵,伯磊,王雪蓓,路原野,马一然.基于物联网的校园疫情监控系统设计与实现[J].物联网技术,2022,12(2):76-79. 被引量：6
7邓子云.通用的行业网站资讯集成平台的设计与实现[J].工业技术与职业教育,2022,20(2):10-14.
8弓丽栋,尹建华.基于Octoparse的IPE环境数据采集[J].计算机技术与发展,2022,32(4):200-204.

1刘小卫,何海洋.基于WebKit的数字电视终端软件[J].中国数字电视,2011(9):68-69. 被引量：1
2appFlash利用Google Swiffy创建iOS应用[J].硅谷,2011(15):122-122.
3仲晓,廖建新.基于Webkit的网站加载过程监控系统的设计[J].电信工程技术与标准化,2013,26(11):88-92.
4张军强,李炜,沈奇威.一种爬虫监控系统的设计与实现[J].电信工程技术与标准化,2014,27(12):74-78. 被引量：2
5易图通助力国内首款基于Android系统平台的导航手机上市[J].世界汽车,2009(12):132-132.
6冯昀.爬虫技术在网站信息拨测系统中的应用[J].广西通信技术,2012(4):10-11. 被引量：1
7杨兆文,崔金志.新技术在有线电视反向通道中的应用探究[J].华东科技（学术版）,2013(9):13-13.
8陈嫦娟.宽带无线接入的探讨及其应用[J].中国无线电,2004(6):27-29. 被引量：1
9吴均.3种混频电路的实验探讨[J].四川师范大学学报（自然科学版）,1997,20(5):109-115.
10金开泰电子推出新版变辱墨综合测试仪／元件分析仪[J].国际电子变压器,2005(4):94-94.

现代电子技术

2013年第18期

浏览历史

内容加载中请稍等...

基于WebKit的网络爬虫被引量：3

参考文献12

二级参考文献16

共引文献9

同被引文献14

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于WebKit的网络爬虫 被引量：3

参考文献12

二级参考文献16

共引文献9

同被引文献14

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于WebKit的网络爬虫被引量：3