摘要
随着信息时代的发展,搜索引擎成为互联网常用工具,搜索引擎通过关键词返回用户查询结果,信息爆炸时代信息查找变得困难。借助Python语言框架基础,通过分析现有Web crawler运行机理,创建针对性强的网络爬虫。阐明了爬虫技术的原理,论述了NOSQL数据库对目标信息数据存储中的关键作用。提出了爬虫技术开发涉及关键问题,重点介绍了通过更换Cookie伪装解决现有问题,采用并分析了Scrapy解决方案。
出处
《电脑编程技巧与维护》
2022年第9期85-87,118,共4页
Computer Programming Skills & Maintenance