期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
基于Python网络爬虫技术的数据采集系统研究 被引量:27
1
作者 钟机灵 《信息通信》 2020年第4期96-98,共3页
从互联网里采集数据是解决数据来源问题的关键,研究开发基于Python网络爬虫技术的数据采集系统实现了主题数据的自动采集。利用urllib、Beautiful Soup、threading库设计开发了包含数据爬取、异常处理、robots协议管理及多线程管理等模... 从互联网里采集数据是解决数据来源问题的关键,研究开发基于Python网络爬虫技术的数据采集系统实现了主题数据的自动采集。利用urllib、Beautiful Soup、threading库设计开发了包含数据爬取、异常处理、robots协议管理及多线程管理等模块的系统模型框架。通过具体案例应用,介绍了数据采集过程,相比传统手工数据采集,较大提高了工作效率。 展开更多
关键词 网络爬虫 数据采集 Python技术
下载PDF
基于网络爬虫技术的大数据采集系统设计 被引量:18
2
作者 罗春 《现代电子技术》 2021年第16期115-119,共5页
受到网络中的冗余数据干扰,采集系统采集到的信息混杂,导致数据采集速度过慢,文中针对该问题,设计一种基于网络爬虫技术的大数据采集系统。硬件部分设计了多通道数据采集板,使用双级联锁相环结构控制采集板硬件,设计硬件连接电路,并安... 受到网络中的冗余数据干扰,采集系统采集到的信息混杂,导致数据采集速度过慢,文中针对该问题,设计一种基于网络爬虫技术的大数据采集系统。硬件部分设计了多通道数据采集板,使用双级联锁相环结构控制采集板硬件,设计硬件连接电路,并安置硬件连接线路。软件部分利用网络爬虫技术设定数据采集规则,提取融合采集数据并筛选,根据不同采集数据信息间的二元互信息,定义信息数据相关量,对采集到的大数据信息进行排序,最终完成对大数据采集系统的设计。文中选用已知参数的PC机,搭建实验环境,并采用两种传统大数据采集系统与文中设计的大数据采集系统进行实验,结果表明,文中设计的大数据采集系统数据采集速度最快。 展开更多
关键词 大数据采集 网络爬虫技术 数据采集板 硬件连接 软件设计 仿真实验
下载PDF
基于WEB挖掘的网络爬虫设计与实现 被引量:9
3
作者 肖毅 张林 聂笑一 《计算机系统应用》 2013年第9期60-63,共4页
从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功能的基础上,提出一个现代网站通用的挖掘模型,并利用该模型设计一种网络爬虫.经实例证明,该爬虫能高效爬... 从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功能的基础上,提出一个现代网站通用的挖掘模型,并利用该模型设计一种网络爬虫.经实例证明,该爬虫能高效爬取更多的各种页面数据. 展开更多
关键词 数据挖掘 web爬虫 挖掘技术
下载PDF
网络爬虫技术在交通信息获取中的应用综述 被引量:10
4
作者 秦雅琴 马玲玲 《武汉理工大学学报(交通科学与工程版)》 2020年第3期456-461,共6页
互联网上的有关交通的网页文本数据常常是非结构化、分散性的,面对不断增长的海量信息,如何从中提取出有用的交通信息具有一定难度.传统的信息采集处理方法很难高效准确地完成海量信息处理.由此,网络爬虫技术则显示出其优越性.文中介绍... 互联网上的有关交通的网页文本数据常常是非结构化、分散性的,面对不断增长的海量信息,如何从中提取出有用的交通信息具有一定难度.传统的信息采集处理方法很难高效准确地完成海量信息处理.由此,网络爬虫技术则显示出其优越性.文中介绍了网络爬虫技术的基本内容,总结了各类交通信息获取方法的研究,从不同方面综述了国内外应用网络爬虫技术解决交通信息获取问题的研究历史和现状,展望了网络爬虫技术在交通中的应用前景. 展开更多
关键词 交通工程 交通信息 网络爬虫技术 综述
下载PDF
Python环境下利用Selenium与JavaScript逆向技术爬虫研究 被引量:8
5
作者 时春波 李卫东 +2 位作者 秦丹阳 张海啸 吴峥嵘 《河南科技》 2022年第10期20-23,共4页
针对使用调试检测、数据加密等技术的网站,解析工具Beautiful Soup难以对网页进行解析爬取数据。本研究基于Python环境,结合JavaScript逆向技术、Beautiful Soup网页解析等网络爬虫技术,利用中间人攻击工具Mitmproxy(man-in-the-middle ... 针对使用调试检测、数据加密等技术的网站,解析工具Beautiful Soup难以对网页进行解析爬取数据。本研究基于Python环境,结合JavaScript逆向技术、Beautiful Soup网页解析等网络爬虫技术,利用中间人攻击工具Mitmproxy(man-in-the-middle attack proxy)在本地指定设备端口开启本地代理,拦截并修改网页响应。同时,运用Web自动化工具Selenium来启动浏览器,设置使用代理服务器,连接到本地Mitmproxy代理,访问被修改的响应网页进行网页调试和解析,并对加密数据进行还原,解决网络爬虫中调试检测和数据加密难题,从而爬取数据。 展开更多
关键词 网络爬虫 JavaScript逆向技术 网络代理 SELENIUM
下载PDF
在线课程平台用户付费行为影响因素研究——基于腾讯课堂数据的实证分析 被引量:9
6
作者 贾非 谢苗苗 杨涵舒 《消费经济》 北大核心 2018年第5期72-77,共6页
本文针对学习者的付费行为展开讨论,分析了学习者为商业化在线课程付费行为的影响因素。与以往基于问卷调查获得样本的方式不同,本文以腾讯课堂为例,运用网络爬虫技术获得样本,最大限度的保证了样本的大量性、随机性与客观性。实证分析... 本文针对学习者的付费行为展开讨论,分析了学习者为商业化在线课程付费行为的影响因素。与以往基于问卷调查获得样本的方式不同,本文以腾讯课堂为例,运用网络爬虫技术获得样本,最大限度的保证了样本的大量性、随机性与客观性。实证分析结果表明,开课机构的权威性、简单的课程名称、价格较高的精品课程、良好的课程服务都将显著促进学习者的付费行为;特别是课程名称和课程价格对课程收入的非线性影响关系表明,简单的课程名称和较高的课程价格将加倍扩大课程的收入增长。 展开更多
关键词 在线课程 付费行为 付费意愿 网络爬虫技术
原文传递
科技信息的网络动态监测和信息自动获取技术研究 被引量:6
7
作者 赵燕平 朱东华 《科学学研究》 CSSCI 北大核心 2003年第z1期230-237,共8页
文章综述了国内外基于Robot的Web信息检索(IR)、定题检索、智能信息检索及其代理以及相关的信息自动获取技术的有关理论、方法和技术,探讨了适合技术预测与评估的需要、用于科学领域专题信息采集的、网络科技信息智能获取的方法和策略... 文章综述了国内外基于Robot的Web信息检索(IR)、定题检索、智能信息检索及其代理以及相关的信息自动获取技术的有关理论、方法和技术,探讨了适合技术预测与评估的需要、用于科学领域专题信息采集的、网络科技信息智能获取的方法和策略。构建了网络科技信息动态监测和信息自动获取系统的总体框架,实现了一个基于Web的系统原型(简称BIT),并分析了该系统的特点。 展开更多
关键词 科技预测 技术管理 信息检索 定题检索 智能检索 智能代理 web crawler AGENT
下载PDF
滥用爬虫技术的刑事风险与刑法应对 被引量:7
8
作者 邱波 《信息安全研究》 2020年第9期830-838,共9页
当前爬虫技术已经异化,出现大量非法收集个人信息、窃取商业秘密、窃取数据等违法犯罪现象.从现实案例来看,爬虫技术的使用存在多个方面的社会风险,比如个人信息遭受泄露、计算机信息系统数据被非法收集、公共利益受到损害以及危及国家... 当前爬虫技术已经异化,出现大量非法收集个人信息、窃取商业秘密、窃取数据等违法犯罪现象.从现实案例来看,爬虫技术的使用存在多个方面的社会风险,比如个人信息遭受泄露、计算机信息系统数据被非法收集、公共利益受到损害以及危及国家安全.现行刑法对滥用爬虫技术的规制体现在责任形式上主要是故意犯罪,过失犯罪只能通过其他罪名来间接体现,且效用非常有限.立法机关应当高度关注滥用计算机技术的过失犯罪问题,对于产生严重后果的行为应立法确认过失犯罪.面对网络空间主权的出现,刑法对危害国家安全、公共安全的罪名应当作出适当调整.与此同时,在人工智能时代应体现刑法的积极应对,为顺应现代科技发展,也需要对个人信息保护范围进行适当扩充. 展开更多
关键词 爬虫技术 滥用行为 个人信息 刑法规制 人工智能
下载PDF
网络爬虫技术原理及其应用研究 被引量:7
9
作者 顾勤 《信息与电脑》 2021年第4期174-176,共3页
随着互联网技术的发展,人们在生活和工作中对于网络信息的依赖性也越来越大。网络爬虫技术是搜索引擎中的重要模块,会影响网页库更新的及时性和全面性,对此展开对网络爬虫技术的相关研究和分析,对于推动搜索引擎的优化升级具有重要的意... 随着互联网技术的发展,人们在生活和工作中对于网络信息的依赖性也越来越大。网络爬虫技术是搜索引擎中的重要模块,会影响网页库更新的及时性和全面性,对此展开对网络爬虫技术的相关研究和分析,对于推动搜索引擎的优化升级具有重要的意义。基于此,本文对网络爬虫技术的基本原理展开分析,并提出网络爬虫技术在实际应用中的注意事项以及未来的发展趋势,旨在推动互联搜索引擎技术实现快速发展,以更好地为网络社会服务。 展开更多
关键词 网络爬虫技术 原理 应用
下载PDF
餐饮业服务质量在线评论的聚焦维度:基于网络爬虫技术的实证研究 被引量:7
10
作者 卢长宝 庄晓燕 《天津商业大学学报》 2016年第4期14-22,共9页
在线评论的影响越来越大,对提升大众餐饮业服务质量有着不可忽视的重要作用。借助网络爬虫技术,抓取与大众餐饮服务有关的1 036条在线评论,并根据其内容对SERVQUAL模型相关指标在大众餐饮业服务质量上的聚焦维度进行了分析。研究发现,在... 在线评论的影响越来越大,对提升大众餐饮业服务质量有着不可忽视的重要作用。借助网络爬虫技术,抓取与大众餐饮服务有关的1 036条在线评论,并根据其内容对SERVQUAL模型相关指标在大众餐饮业服务质量上的聚焦维度进行了分析。研究发现,在SERV QUAL模型的一级指标上,大众餐饮消费者最关注的是有形性,其次是保证性、反应性和可靠性,而关注较低的是移情性;在二级指标上,最受关注的5项指标分别是服务材料、服务设施、礼貌的员工、提供承诺服务和让顾客知道服务时间。在此基础上,根据SERVQUAL模型的一二级指标的聚焦情况,构建了适合评价大众餐饮业服务质量的SERVQUAL模型。 展开更多
关键词 在线评论 SERVQUAL模型 网络爬虫技术 大众餐饮业
下载PDF
基于网络爬虫技术的大众体育社交媒体传播特征及推动力分析——以中国排球运动的微博传播为例
11
作者 孙高峰 杜秀全 《冰雪体育创新研究》 2024年第7期34-36,共3页
体育项目的发展离不开公众参与,而其影响力扩大则必然通过媒体传播方可实现。以中国排球运动的微博传播为例,运用网络爬虫技术搜集相关字段信息;基于议程设置理论与二级传播理论,采用SPSS数据分析工具,对该运动项目在社交媒体平台上所... 体育项目的发展离不开公众参与,而其影响力扩大则必然通过媒体传播方可实现。以中国排球运动的微博传播为例,运用网络爬虫技术搜集相关字段信息;基于议程设置理论与二级传播理论,采用SPSS数据分析工具,对该运动项目在社交媒体平台上所呈现出的传播特征进行讨论;进一步地对该运动项目在社交媒体平台的传播动能进行分析。通过该文,对社交媒体在大众体育传播中所扮演角色有更清晰的认知,并丰富体育媒介传播的理论体系。 展开更多
关键词 体育媒介 传播效应 社交媒体 网络爬虫技术
原文传递
基于数据挖掘的退库信息异常告警方法
12
作者 赵夏 殷大新 刘睿 《无线互联科技》 2024年第13期107-110,共4页
鉴于目前退库信息异常告警方法存在的误警率较高问题,文章提出一种基于数据挖掘的退库信息异常告警方法。首先,利用网络爬虫技术爬取退库信息,并对无效信息进行识别和清除。其次,对退库信息进行标准化处理,将需要变化的数据项从原有空... 鉴于目前退库信息异常告警方法存在的误警率较高问题,文章提出一种基于数据挖掘的退库信息异常告警方法。首先,利用网络爬虫技术爬取退库信息,并对无效信息进行识别和清除。其次,对退库信息进行标准化处理,将需要变化的数据项从原有空间转换至统一的标准数据空间。再次,运用数据挖掘技术提取退库信息的异常特征,并运用赋权法对这些异常特征进行融合,以量化退库信息的异常程度及告警等级。最后,根据量化结果作出相应的告警行为,从而实现基于数据挖掘的退库信息异常告警。实验结果表明,该方法的设计误警率不超过1%,在退库信息异常告警领域具有广阔的应用前景。 展开更多
关键词 数据挖掘 退库信息 异常 告警 网络爬虫技术 赋权法
下载PDF
工业遗存“日常化”更新提升城市综合价值的实施路径
13
作者 俞楠 《城市建筑》 2024年第16期160-162,共3页
随着近二十年来中国城市的深度开发,对工业遗存的土地和建筑进行更新利用已成为城市存量发展研究的重要课题。围绕工业遗存塑造高质量的日常生活场景,可持续地提升土地经济价值是城市建设领域的系统性需求。文章提出工业遗存更新“日常... 随着近二十年来中国城市的深度开发,对工业遗存的土地和建筑进行更新利用已成为城市存量发展研究的重要课题。围绕工业遗存塑造高质量的日常生活场景,可持续地提升土地经济价值是城市建设领域的系统性需求。文章提出工业遗存更新“日常化”的概念,从面向未来的城市可持续发展角度出发,研究梳理出基于“日常化”视角的工业遗存更新实施路径。 展开更多
关键词 工业遗存 日常化 综合增值 网络爬虫技术
下载PDF
基于深度哈希算法的学生画像个性化推荐系统的设计与实现
14
作者 钟亚妹 薛慧丽 《河北省科学院学报》 CAS 2024年第1期39-45,共7页
为了提升学生画像个性化推荐的效果,研究设计了一种基于深度哈希算法的学生画像个性化推荐系统。通过使用深度哈希算法结合经过处理的学生信息,进行了学生信息特征标签的提取,并构建了学生画像标签维度模型,从而提升了学生画像的生动性... 为了提升学生画像个性化推荐的效果,研究设计了一种基于深度哈希算法的学生画像个性化推荐系统。通过使用深度哈希算法结合经过处理的学生信息,进行了学生信息特征标签的提取,并构建了学生画像标签维度模型,从而提升了学生画像的生动性。根据学生画像标注的学生特征,在学校课程资源特征数据集中进行搜索匹配,并根据排序后的检索结果生成推荐结果。实验结果表明,该系统能够有效地采集和预处理学生信息,并成功构建学生画像,完成学生画像的个性化推荐。 展开更多
关键词 深度哈希算法 学生画像 个性化推荐 学生行为属性 网络爬虫技术 标签维度模型
下载PDF
Web在线爬虫的设计与实现 被引量:4
15
作者 韩前进 《软件》 2018年第9期86-92,共7页
为了方便用户简单高效的获取互联网数据,提出一种结合Web技术与爬虫技术的在线轻量级网络爬虫。该爬虫可在Web页面上进行配置,用户提交配置到远程服务器,服务器端爬虫程序进行数据抓取分析,最后由Web应用将结果返回到页面进行预览,同时... 为了方便用户简单高效的获取互联网数据,提出一种结合Web技术与爬虫技术的在线轻量级网络爬虫。该爬虫可在Web页面上进行配置,用户提交配置到远程服务器,服务器端爬虫程序进行数据抓取分析,最后由Web应用将结果返回到页面进行预览,同时支持生成数据结果接口URL,方便用户调用服务器上爬虫程序爬到的数据。 展开更多
关键词 网络爬虫 搜索引擎 web技术
下载PDF
大数据背景下全球船舶停泊点的数据挖掘分析 被引量:5
16
作者 叶仁道 姜玲 张瑜 《杭州电子科技大学学报(社会科学版)》 2018年第1期13-17,共5页
为有效挖掘分析全球停泊点信息,利用Hadoop、Spark大数据处理平台存储、分析全球海量船舶自动识别系统的历史动态船舶数据,根据船舶在停泊点附近具有航速低、停泊时间长的特征对网格化的经纬度数据进行筛选,进而采用密度聚类算法与网络... 为有效挖掘分析全球停泊点信息,利用Hadoop、Spark大数据处理平台存储、分析全球海量船舶自动识别系统的历史动态船舶数据,根据船舶在停泊点附近具有航速低、停泊时间长的特征对网格化的经纬度数据进行筛选,进而采用密度聚类算法与网络爬虫技术确定全球停泊点位置,将所得停泊点结果可视化并与Marinetraffic网页中停泊点参照位置进行比对分析。研究表明:全球共挖掘出5 149个港口和19 804个停泊点,可视化结果显示其均分布在海岸沿线且几乎覆盖了全球区域。同时,挖掘所得停泊点位置与Marinetraffic网页停泊点参照位置基本吻合。因此,全球停泊点结果较为准确。该思路对AIS船舶数据的渔区挖掘、模式识别以及运行轨迹等研究与应用具有借鉴意义。 展开更多
关键词 全球停泊点 密度聚类算法 网络爬虫技术 数据可视化
下载PDF
2000-2019年中国海外电力项目信息数据集 被引量:5
17
作者 蒋瑜 邬明权 +1 位作者 黄长军 牛铮 《中国科学数据(中英文网络版)》 CSCD 2019年第4期10-17,共8页
电力短缺是“一带一路”区域发展中国家所面临的主要问题之一。自“一带一路”倡议提出以来,中国企业在“一带一路”沿线电力短缺的国家和地区投资、建设了大量的电力项目。“一带一路”海外项目分布广泛,且数量持续增长,但大量的项目... 电力短缺是“一带一路”区域发展中国家所面临的主要问题之一。自“一带一路”倡议提出以来,中国企业在“一带一路”沿线电力短缺的国家和地区投资、建设了大量的电力项目。“一带一路”海外项目分布广泛,且数量持续增长,但大量的项目信息较为分散,不利于信息挖掘,亟需将这些项目信息进行收集汇总。本文利用网络爬虫技术获取海外电力项目信息,并通过部委、使馆、经济商务部参赞机构文件、中英文当地新闻报道、学者、非政府组织进行的案例研究和实地研究对项目信息进行进一步补充和完善,编制成了中国海外电力项目信息数据集。本数据集包括来自亚洲、非洲、欧洲、美洲、大洋洲76个国家的383个电力项目,每个项目信息包含项目编号、项目状态、集团公司、二级单位、项目名称、规模、所属地区、所在国家、项目类型、中标信息。本数据集能反映中国海外电力项目的分布规律,以及近年来的海外电力投资建设的发展态势,可为我国电力企业“走出去”提供依据,为“一带一路”海外电力项目发展规划、政府部门决策提供参考。 展开更多
关键词 一带一路 电力项目 数据集 网络爬虫
下载PDF
投资者情绪与股票收益——来自移动互联网的实证研究 被引量:5
18
作者 梅立兴 张灿 何鲁 《南方经济》 CSSCI 北大核心 2019年第3期36-53,共18页
移动互联网的高速发展使得越来越多的投资者通过移动互联网获取信息并做出投资决策。文章利用网络爬虫技术收集来自移动互联网的用户讨论信息,研究来自移动互联网的用户情绪对股票收益的影响,实证结果显示:移动互联网用户情绪存在显著... 移动互联网的高速发展使得越来越多的投资者通过移动互联网获取信息并做出投资决策。文章利用网络爬虫技术收集来自移动互联网的用户讨论信息,研究来自移动互联网的用户情绪对股票收益的影响,实证结果显示:移动互联网用户情绪存在显著不对称特征,其更倾向于表现积极乐观的情绪,且其正负面情绪差异大于PCs端;同时,移动互联网用户情绪越乐观,下一期股票收益越高。进一步实证结果表明,处于较差信息环境(如散户持股较高,分析师跟踪人数较少)的公司,移动互联网用户情绪对其股票收益的影响更加显著;此外,对于流动性越差的公司,移动互联网用户情绪对其股票收益的影响也越显著。文章研究结论为移动互联网时代的投资者优化投资决策提供了新的视角,也是对行为金融学中传统媒体定价领域的重要补充。 展开更多
关键词 网络爬虫 投资者情绪 股票收益 移动互联网 噪声交易
下载PDF
基于网络爬虫技术的网页SQL注入漏洞检测方法 被引量:1
19
作者 程亚维 王东霞 《信息与电脑》 2023年第4期236-238,共3页
为提高网页结构化查询语言(Structured Query Language,SQL)注入漏洞检测精度和检测效率,引入网络爬出技术,开展对其检测方法的设计研究。引入了一种SQL注入漏洞扫描程序,可抓取网页,并计算页面相似度;检测时模拟SQL注入漏洞攻击,对网页... 为提高网页结构化查询语言(Structured Query Language,SQL)注入漏洞检测精度和检测效率,引入网络爬出技术,开展对其检测方法的设计研究。引入了一种SQL注入漏洞扫描程序,可抓取网页,并计算页面相似度;检测时模拟SQL注入漏洞攻击,对网页SQL注入漏洞扩展过程建模;利用网络爬虫技术,检测SQL可注入点,并深度挖掘漏洞。通过对比实验证明,设计的检测方法正确检测数量较多,检测耗时较短,具备极高的应用价值。 展开更多
关键词 网络爬虫技术 结构化查询语言(SQL) 漏洞检测 注入漏洞 页面相似度
下载PDF
基于逆向技术的深层网络爬虫与数据分析 被引量:1
20
作者 邢羽琪 杨柽 《软件工程》 2023年第12期41-45,共5页
大数据时代,各行各业对数据采集的需求日益增多,其中使用JavaScript加密技术进行数据采集的需求广泛,但也存在不少瓶颈。文章采用JavaScript逆向爬虫技术还原参数加密过程,动态构造出某购物网站商品评价的统一资源定位系统(Uniform Reso... 大数据时代,各行各业对数据采集的需求日益增多,其中使用JavaScript加密技术进行数据采集的需求广泛,但也存在不少瓶颈。文章采用JavaScript逆向爬虫技术还原参数加密过程,动态构造出某购物网站商品评价的统一资源定位系统(Uniform Resource Locator,URL),实现了指定分类下多商品评价数据的动态采集,为同类加密数据的采集提供了新的思路。使用SnowNLP[基于Python的中文自然语言处理(NLP)库]对采集到的乐高评论数据进行情感分析发现,约66%的购买者对商品给出了积极评论;情感分布呈极性,高段集中在0.8~1.0,低段集中在0.0~0.2;词云分析显示出购买者群体比较注重商品的快递包装外观。以上结论可为在线商家提升经营管理水平提供参考。 展开更多
关键词 深层网络爬虫 JavaScript加密 逆向技术 AJAX 数据挖掘
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部