摘要
为提高分布式网络爬虫的速度和性能,文章应用Storm云平台,提出了分布式网络爬虫系统的设计方案。首先,针对传统单机网络爬虫技术过于落后,无法满足现代化日益增长的数据抓取使用需求等问题,严格遵循系统设计原则,运用Storm云平台等技术,完成了系统框架设计、系统数据库以及种子URL文档、模拟登录、URL优化链接、网页下载等模块的设计,确保系统功能实现效果。最后,对系统设计方案的执行效果进行了测试。结果表明:文章提出的系统设计方案具有较高的可靠性和可行性,各个功能模块运行良好,其准确率达到百分之百,使得本系统具有可靠性高、稳定性强、数据处理效率高等特点,完全符合预期的设计标准和要求。
出处
《电脑知识与技术》
2024年第20期89-91,共3页
Computer Knowledge and Technology