期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于CheerIO的MEAN Stack气象数据网络爬虫研究 被引量:6
1
作者 胡戎 冯仲科 蒋君志伟 《农业机械学报》 EI CAS CSCD 北大核心 2016年第6期275-282,共8页
为全面、即时搜集分散于互联网上游离的气象数据,满足各行业、各领域、各学科科研部门的数据需求,提出使用Google MEAN Stack全栈技术开发基于Cheer IO的高效定向爬虫,充分利用Node.js高性能I/O的特性,实现气象信息的快速搜集。同时将... 为全面、即时搜集分散于互联网上游离的气象数据,满足各行业、各领域、各学科科研部门的数据需求,提出使用Google MEAN Stack全栈技术开发基于Cheer IO的高效定向爬虫,充分利用Node.js高性能I/O的特性,实现气象信息的快速搜集。同时将技术栈与地理信息系统技术、数据可视化技术以及云计算技术相结合,通过地理信息系统的数据存储、查询、自动制图、统计分析等功能对信息进行分析和处理,在阿里云平台上构建了一个能抓取并存储海量数据、提供实时气象数据的应用系统,提供便捷的检索、查询功能,有较强的实用性。本文结合气象数据爬虫的解决方案,对MEAN Stack数据爬虫的开发框架、项目架构以及爬虫核心技术(抓取目标策略、网页分析算法、多线程并发运算等)进行了深入分析研究与实现。 展开更多
关键词 CheerIO MEAN STACK 定向爬虫 大气气象数据
下载PDF
基于Python3爬虫获取最新上架图书的实现 被引量:1
2
作者 吴剑冰 《电脑编程技巧与维护》 2018年第4期31-33,39,共4页
在大数据时代,利用网络爬虫自动定向采集多网页有用的信息,并将爬取信息储存至数据库,Excel,Word等,可以根据网页历史数据来确定爬虫爬取网页更新信息的周期,大大增加了信息的更新及时性。基于Python3.5定向爬取当当网最新上架图书,存... 在大数据时代,利用网络爬虫自动定向采集多网页有用的信息,并将爬取信息储存至数据库,Excel,Word等,可以根据网页历史数据来确定爬虫爬取网页更新信息的周期,大大增加了信息的更新及时性。基于Python3.5定向爬取当当网最新上架图书,存储图书基本信息到Word文档,并且可对比历史爬取记录,更新新书信息。 展开更多
关键词 Python3语言 网络爬虫 定向爬虫 主题爬虫
下载PDF
Python代理IP定向采集爬虫的设计与实现 被引量:2
3
作者 白杨 《中国新通信》 2019年第1期35-36,共2页
论文使用Python编程语言,实现了一个基于Scrapy的代理IP定向采集爬虫,可以自动抓取互联网上的代理IP相关信息、进行结构化处理、存储为特定格式并进行可视化展示,以对科学研究与实际应用提供数据支撑。
关键词 Scrapy 代理IP 定向爬虫 PYTHON SQLITE
下载PDF
基于WebDriver技术的定向网络爬虫研究 被引量:1
4
作者 刘洋 田儒贤 唐兰文 《电脑知识与技术》 2020年第3期34-36,共3页
近年来,随着互联网与通信技术的迅猛发展,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,各种开发网站技术也呈现出层出不穷的趋势,异步加载技术因此得到了广泛的应用。如何高效完整的获取异步加载数据显得极为重要。以车型... 近年来,随着互联网与通信技术的迅猛发展,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,各种开发网站技术也呈现出层出不穷的趋势,异步加载技术因此得到了广泛的应用。如何高效完整的获取异步加载数据显得极为重要。以车型CCC证书网站为研究对象,采用WebDriver模拟网页浏览技术请求网站,能够对验证码进行识别,绕过爬虫检测,获取到同Ajax异步加载技术相同的数据。 展开更多
关键词 WebDriver 定向爬虫 CCC证书网站
下载PDF
定向网络信息采集系统的研究 被引量:1
5
作者 熊菲 刘云 李勇 《电脑与电信》 2008年第9期24-26,共3页
通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统。该系统针对目标网站,抓取主题及回复网页。获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化。同时本文提出了主题重要... 通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统。该系统针对目标网站,抓取主题及回复网页。获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化。同时本文提出了主题重要性评估模型,分析主题对回复的吸附力,分配系统资源,指引新回复的抓取。系统连续运行8小时,获得的有效网页总数在通用爬虫的1.2倍以上。 展开更多
关键词 信息采集 定向爬虫 面向主题 主题重要性
下载PDF
基于Selenium的定向网络爬虫设计与实现 被引量:6
6
作者 杜彬 《金融科技时代》 2016年第7期35-39,共5页
随着数据挖掘在银行中的推广应用,大量、多样的数据作为数据挖掘的基石变得愈发重要,它能产生更大的价值,并为业务部门的决策提供强有力的支持。中国邮政储蓄银行江苏省分行基于Selenium开发了一套定向网络爬虫,通过定义的流程自动化地... 随着数据挖掘在银行中的推广应用,大量、多样的数据作为数据挖掘的基石变得愈发重要,它能产生更大的价值,并为业务部门的决策提供强有力的支持。中国邮政储蓄银行江苏省分行基于Selenium开发了一套定向网络爬虫,通过定义的流程自动化地采集指定网页的数据,并利用Tesseract-OCR对简单的验证码进行识别。 展开更多
关键词 金融科技 数据挖掘 SELENIUM 定向网络爬虫 Tesseract-OCR
下载PDF
基于云计算的定向搜索监控研究 被引量:2
7
作者 屈振新 朱文昌 《计算机工程与科学》 CSCD 北大核心 2013年第1期82-87,共6页
传统的搜索引擎不能代替用户实行实时监控,为了解决这个问题,提出了定向搜索监控技术,用户可以根据自己的需求定制任务,包括指定搜索范围和搜索主题,系统按用户定义周期监控,并将结果及时主动地反馈给用户。以Google云平台Google App En... 传统的搜索引擎不能代替用户实行实时监控,为了解决这个问题,提出了定向搜索监控技术,用户可以根据自己的需求定制任务,包括指定搜索范围和搜索主题,系统按用户定义周期监控,并将结果及时主动地反馈给用户。以Google云平台Google App Engine作为开发平台,利用其提供的多项云服务,有效地解决了计划任务管理、多任务触发以及高并发等问题。重写了通用网络爬虫,通过算法改进提出了定向网络爬虫模型,定向网络爬虫与云端强大的服务器相结合,极大地缩短了爬行时间,提高了搜索监控效率。云平台和搜索监控技术的结合是平台即服务思想的一次成功实验。 展开更多
关键词 Google云平台 定向 搜索 监控 计划任务管理 定向网络爬虫
下载PDF
Web数据的深度定向采集 被引量:1
8
作者 夏天 《山东大学学报(理学版)》 CAS CSCD 北大核心 2011年第5期34-38,共5页
通过模拟人类访问网页的浏览行为,提取定向爬行子页面集限定爬虫的爬行方向;引入页面继承关系,并通过爬行条目的属性继承实现跨页面复合对象的数据关联关系;设计实现了支持深度定向采集的通用爬行流程。面向天涯热帖的舆情采集实验结果... 通过模拟人类访问网页的浏览行为,提取定向爬行子页面集限定爬虫的爬行方向;引入页面继承关系,并通过爬行条目的属性继承实现跨页面复合对象的数据关联关系;设计实现了支持深度定向采集的通用爬行流程。面向天涯热帖的舆情采集实验结果表明:该方法可以在整体处理流程不变的前提下,实现复杂对象的数据采集,并具有较高的采集效率。 展开更多
关键词 深度采集 定向网络爬虫 公共网络舆情
原文传递
基于Selenium定向网络爬虫的设计与实现
9
作者 柯财富 《电子技术(上海)》 2022年第10期38-39,共2页
阐述Selenium对定向网络爬虫设计的方案及其实现策略,在Selenium支持下,探讨浏览器驱动模块、页面元素解析模块、验证码识别模块在定向网络爬虫设计框架与技术中的应用。
关键词 计算机工程 定向网络爬虫 SELENIUM
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部