摘要
随着爬虫技术的不断完善,其功能越来越强大,也导致数据窃取问题越来越严重。很多网站都采用了反爬虫技术,因此为了正常获取数据,需要一些反爬虫策略。文章设计和实现面向定向网站的网络爬虫程序,使其能满足不同的性能要求,并阐述了定向网站爬虫的细节和应用环节。爬虫可以针对不同的主题网站分析构造URL并去重,多线程技术让爬虫具备更强大的抓取能力。
With the continuous improvement of crawler technology,more and more powerful functions,and more and more serious data theft problems,many websites have adopted anticrawler technology,so in order to obtain data normally,some anticrawler technology is needed.This paper designs and implements a web crawler program oriented to the directional website,and meets different performance requirements,including the details and applications of the directional website crawler Link.For different theme websites,analyze and construct URL to remove duplication.The multi-threading technology which makes the crawler have more powerful grasping ability.
作者
肖新凤
张绛丽
邓祖民
XIAO Xinfeng;ZHANG Jiangli;DENG Zumin(Guangdong Polytechnic of Environmental Protection Engineering,Foshan 528216,China)
出处
《现代信息科技》
2020年第14期73-75,78,共4页
Modern Information Technology
基金
广东省高职高专云计算与大数据专业委员会2019年度课题(GDYJSKT19-26)
中国职业技术教育学会教学工作委员会2019—2020年度职业教育教学改革课题研究1910110)
广东环境保护工程职业学院质量工程项目(J421320022202)
校企合作项目“环保管家”大数据服务平台建设(JQFW20200109-01)。