期刊文献+
共找到2,625篇文章
< 1 2 132 >
每页显示 20 50 100
高性能网络爬虫:研究综述 被引量:91
1
作者 周德懋 李舟军 《计算机科学》 CSCD 北大核心 2009年第8期26-29,53,共5页
网络爬虫是一种自动下载网络资源的程序,是搜索引擎的基础构件之一。系统地介绍了网络爬虫的工作原理和发展现状,详细地阐述了一个高性能、可伸缩、分布式的网络爬虫的系统架构和所面临的关键问题。
关键词 网络爬虫 高性能 可伸缩 分布式
下载PDF
基于Python的新浪微博数据爬虫 被引量:61
2
作者 周中华 张惠然 谢江 《计算机应用》 CSCD 北大核心 2014年第11期3131-3134,共4页
目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、... 目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。 展开更多
关键词 新浪微博 爬虫 PYTHON 并行 大数据
下载PDF
小型果园升降作业平台的设计与试验 被引量:60
3
作者 刘大为 谢方平 +1 位作者 李旭 王小龙 《农业工程学报》 EI CAS CSCD 北大核心 2015年第3期113-121,共9页
针对南方丘陵山区水果生产中采摘、疏花等作业环节劳动强度大、机械设备少、人工作业效率低,已有设备在丘陵山区作业时通过性不强、易失稳等问题,设计制造了一种小型履带自走式剪叉升降作业平台,该机器具有较小的底盘尺寸,能够控制回转... 针对南方丘陵山区水果生产中采摘、疏花等作业环节劳动强度大、机械设备少、人工作业效率低,已有设备在丘陵山区作业时通过性不强、易失稳等问题,设计制造了一种小型履带自走式剪叉升降作业平台,该机器具有较小的底盘尺寸,能够控制回转支承进行方位调节,通过液压油缸实现升降、角度调整,使得载人工作台可调平,以提高机器稳定性能。对样机进行了模拟工作环境下的爬坡角度、转弯半径、调平以及倾翻稳定性能测试,相关指标达到了设计要求。结果表明,样机可升降高度1.2 m,最大行驶速度0.25 m/s,最小转弯半径0.75 m,不同负载和升降高度下平台的坡地静态倾翻角集中在(15°-30°)之间等,满足了工作要求。同时,样机外形尺寸较小,操控简便,适合南方果园种植模式和使用要求。 展开更多
关键词 农业机械 调平 果园 升降平台 履带行走装置 载人工作台 试验
下载PDF
Deep Web爬虫研究与设计 被引量:28
4
作者 郑冬冬 赵朋朋 崔志明 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1896-1902,共7页
随着W eb的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由D eep W eb后台数据库动态产生的。在这种情况下,信息集成就更加需要W eb爬虫来自动获取这些页面以进一步地处理数据。为了帮助用户完成这样的任务,提... 随着W eb的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由D eep W eb后台数据库动态产生的。在这种情况下,信息集成就更加需要W eb爬虫来自动获取这些页面以进一步地处理数据。为了帮助用户完成这样的任务,提出一种用于搜集D eep W eb页面的爬虫的设计方法。此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自W eb站点的导航模式来识别自动填写表单时所需进行的路径导航。通过对来自不同领域的D eep W eb站点的大量实验,验证了此方法是非常有效的。 展开更多
关键词 DEEPWEB 导航模式 领域本体知识库 爬虫
原文传递
论爬虫抓取数据行为的法律边界 被引量:51
5
作者 李慧敏 孙佳亮 《电子知识产权》 CSSCI 2018年第12期58-67,共10页
网络爬虫技术最早应用于搜索引擎,如今已广泛运用于诸多领域,随之而来的法律风险也引起业界的关注。介绍网络爬虫技术概念及基本原理,考察该技术的现实应用,通过对既有案件整理、归纳,梳理爬虫抓取数据行为产生的法律风险,对爬虫抓取数... 网络爬虫技术最早应用于搜索引擎,如今已广泛运用于诸多领域,随之而来的法律风险也引起业界的关注。介绍网络爬虫技术概念及基本原理,考察该技术的现实应用,通过对既有案件整理、归纳,梳理爬虫抓取数据行为产生的法律风险,对爬虫抓取数据行为的法律边界进行明确。主张在数字经济时代,界定行为法律边界需要兼顾权利人、网络服务提供者和社会公众利益,重点把握技术中立原则的适用边界、防止技术恶意使用行为;结合具体商业模式和行业特征,判断数据竞争手段的合理性;把握数据合理保护与防止垄断的平衡,警惕数据垄断行为。 展开更多
关键词 网络爬虫 数据抓取 信息网络传播权 不正当竞争 数据垄断
下载PDF
“985工程”高校图书馆微信公众号研究 被引量:53
6
作者 周海晨 陆和建 《大学图书馆学报》 CSSCI 北大核心 2017年第1期46-52,共7页
从"985工程"高校图书馆微信公众号推送文章及其相关数据出发,采用基于Python语言的爬虫程序获取36所高校推文数据作为样本数据,使用Tableau绘制有关图表,并结合微信传播指数(WeChat Communication Index,WCI),分析"985工... 从"985工程"高校图书馆微信公众号推送文章及其相关数据出发,采用基于Python语言的爬虫程序获取36所高校推文数据作为样本数据,使用Tableau绘制有关图表,并结合微信传播指数(WeChat Communication Index,WCI),分析"985工程"高校图书馆微信公众号推送文章的特征及规律,由此提出改进建议。 展开更多
关键词 高校图书馆 微信 爬虫程序 PYTHON WCI
下载PDF
基于Python爬虫技术的网页数据抓取与分析研究 被引量:48
7
作者 熊畅 《数字技术与应用》 2017年第9期35-36,共2页
基于Python爬虫技术简单易用的特点,利用python语言编写爬虫程序对国家广播电视总局电视剧电子政务平台的电视剧备案数据进行了爬取。并对爬取的电视剧备案数据进行了统计分析,得出相关结论。
关键词 PYTHON 爬虫 数据分析
下载PDF
基于爬虫的XSS漏洞检测工具设计与实现 被引量:28
8
作者 沈寿忠 张玉清 《计算机工程》 CAS CSCD 北大核心 2009年第21期151-154,共4页
通过对XSS漏洞的研究,剖析其产生、利用的方式,在此基础上针对XSS漏洞的检测机制进行进一步的分析和完善。结合网络爬虫的技术,研究设计并实现了一款XSS漏洞的检测工具(XSS-Scan),并与当前比较流行的一些软件做了分析比较,证明利用该工... 通过对XSS漏洞的研究,剖析其产生、利用的方式,在此基础上针对XSS漏洞的检测机制进行进一步的分析和完善。结合网络爬虫的技术,研究设计并实现了一款XSS漏洞的检测工具(XSS-Scan),并与当前比较流行的一些软件做了分析比较,证明利用该工具可以对Web网站进行安全审计,检测其是否存在XSS漏洞。 展开更多
关键词 XSS漏洞 WEB安全 漏洞 网络爬虫
下载PDF
履带式管道机器人及侧倾问题的研究 被引量:8
9
作者 彭商贤 刘斌 +1 位作者 龚进峰 谢少荣 《机器人》 EI CSCD 北大核心 2000年第4期247-250,共4页
本文探讨了几种典型管道机器人的行走机理 ,介绍了我所研制的履带式管道机器人系统结构 。
关键词 移动机器人 履带式管道机器人 侧倾问题 PR-1型
下载PDF
重大公共卫生事件中的舆情分析方法研究——以新冠肺炎疫情为例 被引量:18
10
作者 韩珂珂 邢子瑶 +2 位作者 刘哲 刘峻明 张晓东 《地球信息科学学报》 CSCD 北大核心 2021年第2期331-340,共10页
2019年12月以来,新冠肺炎疫情迅速席卷全球,截至北京时间2020年5月10日16时40分,全球累计确诊病例4 115 662例,已成为全球聚焦的主要话题。微博等社交媒体平台成为此次疫情相关信息传播的重要渠道和公众情绪的有效传感器之一。对微博信... 2019年12月以来,新冠肺炎疫情迅速席卷全球,截至北京时间2020年5月10日16时40分,全球累计确诊病例4 115 662例,已成为全球聚焦的主要话题。微博等社交媒体平台成为此次疫情相关信息传播的重要渠道和公众情绪的有效传感器之一。对微博信息进行深入挖掘分析不但能研判舆情特点,更有助于政府对公众的情绪进行针对性疏导,合理管控舆情。因此,本文采集了2020年1月18日到2020年1月28日期间关于新冠肺炎的33万余条新浪微博数据,基于Louvain和Kmeans的空间聚类、改进的BTM主题词提取等算法,将用户关注热点信息和情感特征作为地域标签,构建了反映情感特征、地域关联与热点关注在内的舆情评价方法,实现了基于位置的信息融合,能够分析不同区域的舆情特点与关注主题差异。研究表明:基于BERT词向量的BTM主题词提取方法可以有效弥补传统主题词提取的计算量大、数据冗余等缺点,在热点挖掘时具有更强的表达能力;不同区域关注热点具有一定的差异性,结合省级、市级及基于Louvain-Kmeans的空间聚类的多尺度舆情分析方法,可以全方位展现不同区域舆情特点。本文提出的舆情分析方法可以有效反映不同区域的舆情特征,为重大公共卫生事件的舆情分析提供参考。 展开更多
关键词 新冠肺炎 微博 情感分析 空间聚类 舆情 主题词提取 热点挖掘 爬虫
原文传递
履带式苎麻联合收割机的设计与试验 被引量:18
11
作者 李显旺 黄继承 +3 位作者 张彬 王锦国 沈成 汪志兵 《中国农机化学报》 北大核心 2013年第1期123-125,133,共4页
针对国内苎麻种植特点,在已有设计研究的基础上研制了一种适合于中国苎麻主产区收获作业的履带式苎麻收割机。整机侧向配置,采用半喂入稻麦联合收获机底盘,并配有液压无级变速系统,作业组件包括分禾装置、扶禾装置、割刀传动装置、横向... 针对国内苎麻种植特点,在已有设计研究的基础上研制了一种适合于中国苎麻主产区收获作业的履带式苎麻收割机。整机侧向配置,采用半喂入稻麦联合收获机底盘,并配有液压无级变速系统,作业组件包括分禾装置、扶禾装置、割刀传动装置、横向输送装置、纵向强制输送装置和集秆箱等。该机采用双动刀切割装置结合三组链条输送器夹持输送,提高了整机的作业质量和稳定性。通过田间试验表明:切割率可到达93.5%,输送率可到达85.6%,平均生产率为0.94hm2/h,各项性能指标均到达设计要求。 展开更多
关键词 苎麻 联合收割机 履带式
下载PDF
爬取公开数据行为的刑法规制误区与匡正--从全国首例“爬虫”入刑案切入 被引量:17
12
作者 石经海 苏桑妮 《北京理工大学学报(社会科学版)》 CSSCI 北大核心 2021年第4期154-164,172,共12页
全国首例"爬虫"入刑案表现出司法实践过度规制爬取公开数据行为的现象。司法实践以技术判断为主导,扩张适用非法获取计算机信息系统数据罪。在立法规定以数据控制者的技术授权为依据认定爬取行为形式违法性的情况下,以数据的... 全国首例"爬虫"入刑案表现出司法实践过度规制爬取公开数据行为的现象。司法实践以技术判断为主导,扩张适用非法获取计算机信息系统数据罪。在立法规定以数据控制者的技术授权为依据认定爬取行为形式违法性的情况下,以数据的技术属性取代法律属性判断行为的法益侵害性,从而扩大本罪的适用范围。从法秩序统一原理和安全与发展并重的数据安全观来看,技术判断主导下的罪名扩张适用,不应成为刑法规制数据爬取行为的立场。相反,规制数据爬取行为应当坚守刑法谦抑性精神,将刑法规制手段的行使,限定在保护刑法已类型化规定的重要数据和维护计算机系统正常运行的范围内。其中,对于爬取刑法已类型化保护的公开作品数据行为,基于个案全部事实应受刑罚处罚的,应认定为侵犯著作权罪;对于爬取刑法未类型化规定的其他公开数据行为,不能适用非法获取计算机信息系统数据罪,但在爬取公开数据行为扰乱计算机系统正常运行且应受刑罚处罚时,可认定为破坏计算机信息系统罪。 展开更多
关键词 爬虫 爬取 公开数据 数据安全 非法获取计算机信息系统数据罪
下载PDF
履带运输车行走驱动液压系统的设计 被引量:16
13
作者 田富 李向阳 李龙 《液压与气动》 北大核心 2014年第1期70-73,共4页
由于履带行走机构具有牵引力大、接地比压低、爬坡能力强、转弯半径小等优点,在工程领域得到了广泛应用。基于北方重工320 t履带运输车,详细介绍了该履带车行走驱动液压系统的设计、参数选择以及液压元件的型号确定等方面的内容,可为类... 由于履带行走机构具有牵引力大、接地比压低、爬坡能力强、转弯半径小等优点,在工程领域得到了广泛应用。基于北方重工320 t履带运输车,详细介绍了该履带车行走驱动液压系统的设计、参数选择以及液压元件的型号确定等方面的内容,可为类似设计提供参考。 展开更多
关键词 履带运输车 行走驱动 液压系统 设计
下载PDF
基于Python爬虫的电影评论情感倾向性分析 被引量:15
14
作者 涂小琴 《现代计算机(中旬刊)》 2017年第12期52-55,共4页
通过对豆瓣网站评分高(9.1分)的与评分(5.2分)两部电影进行电影评论的搜集,利用Python网络爬虫获取这些评论数据并清理。利用PMI算法,对TF-IDF算法进行改进,并对评论进行分类,得出PMI最高的15个分词,最后对分词进行分析统计,得出分析结果。
关键词 PYTHON 爬虫 情感分析 影评
下载PDF
DR-150型全液压履带取样钻机的研究 被引量:15
15
作者 王汉宝 刘秀美 梁健 《探矿工程(岩土钻掘工程)》 2010年第1期27-30,共4页
为解决区域地质、环境地质及农业地质填图工作,特别是在钻探验证工程中孔位浅,分布散等问题,设计一款新型的适合于工地常搬迁、快速迁移的集成化、模块化轻便取样钻机,其需具有能更好的解决工程施工中存在的问题、提高钻探施工质量和效... 为解决区域地质、环境地质及农业地质填图工作,特别是在钻探验证工程中孔位浅,分布散等问题,设计一款新型的适合于工地常搬迁、快速迁移的集成化、模块化轻便取样钻机,其需具有能更好的解决工程施工中存在的问题、提高钻探施工质量和效率、实现钻探设备的整体搬迁和多种钻探工艺组合配套施工工艺等优点。 展开更多
关键词 DR-150型全液压钻机 取样 履带式
下载PDF
搜索引擎Google的体系结构及其核心技术研究 被引量:8
16
作者 王德峰 李东 《哈尔滨商业大学学报(自然科学版)》 CAS 2006年第1期84-87,共4页
Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的r... Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率. 展开更多
关键词 搜索引擎 PAGERANK GOOGLE 网络爬行机器人 排序
下载PDF
煤矿坑道钻机用履带式泥浆泵车及其应用 被引量:15
17
作者 李栋 姚克 +2 位作者 张占强 方鹏 许超 《煤田地质与勘探》 CAS CSCD 北大核心 2016年第1期128-131,共4页
为实现煤矿坑道钻机钻进时搬迁便捷、作业安全、配套设备高度集成化,研制了煤矿坑道钻机用BLY 260/9型履带式泥浆泵车。泵车采用整体履带式结构,将钻机配套用附属装置集成到有动力、可自主行走的履带平台上。在晋煤集团成庄矿和寺河矿... 为实现煤矿坑道钻机钻进时搬迁便捷、作业安全、配套设备高度集成化,研制了煤矿坑道钻机用BLY 260/9型履带式泥浆泵车。泵车采用整体履带式结构,将钻机配套用附属装置集成到有动力、可自主行走的履带平台上。在晋煤集团成庄矿和寺河矿的现场试验表明,泥浆泵车配套坑道钻机尤其是定向钻机,技术方案先进可靠,瓦斯抽采钻孔施工效果良好,为煤矿坑道钻机的设备配置提供了一种有效的解决方法。 展开更多
关键词 履带式 泥浆泵车 煤矿 坑道钻机
下载PDF
利用超链接信息改进网页爬行器的搜索策略 被引量:8
18
作者 赫枫龄 左万利 《吉林大学学报(信息科学版)》 CAS 2005年第1期59-63,共5页
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的。爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它... 网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的。爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高。为此,给出了利用超链接信息改进网页爬行器搜索策略的算法。该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行。实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%。 展开更多
关键词 爬行器 网络搜索引擎 宽度优先搜索 超链接
下载PDF
国内省级公共图书馆微信公众号推送文章研究:基于Tableau与WCI的分析 被引量:14
19
作者 闻波 周海晨 王栩 《图书馆杂志》 CSSCI 北大核心 2018年第4期58-65,共8页
本文利用基于python语言的爬虫,采集了2015.9.1—2016.8.31间的全国30所省级公共图书馆微信公众号推送文章及其相关信息作为原始数据,选用数据可视化分析软件Tableau与微信传播指数WCI进行了整体、个体层面分析,根据分析结果提... 本文利用基于python语言的爬虫,采集了2015.9.1—2016.8.31间的全国30所省级公共图书馆微信公众号推送文章及其相关信息作为原始数据,选用数据可视化分析软件Tableau与微信传播指数WCI进行了整体、个体层面分析,根据分析结果提出均衡分配维持黏性、善用指数合理评价、建设制度明确规范、原创为主转载热文等措施。 展开更多
关键词 省级公共图书馆 微信 爬虫 WCI
下载PDF
基于Python的招聘网站信息爬取与数据分析 被引量:13
20
作者 刘晓知 《电子测试》 2020年第12期75-76,110,共3页
文章通过对Python爬虫的具体设计与数据分析具体流程进行了简述,并对涉及到的相关技术进行了诠释,并给出具体分析结果,通过应用Python爬虫定向抓取网站当中的相关招聘信息数据,之后对所爬取的招聘信息数据进行处理,并及时存入到数据库当... 文章通过对Python爬虫的具体设计与数据分析具体流程进行了简述,并对涉及到的相关技术进行了诠释,并给出具体分析结果,通过应用Python爬虫定向抓取网站当中的相关招聘信息数据,之后对所爬取的招聘信息数据进行处理,并及时存入到数据库当中,并对招聘数据信息进行综合处理与分析,结合不同的区域、职业要求、学历要求等相关基础条件,合理分析某一具体职业的具体薪资状况,并将所得的分析数据结果进行展示。 展开更多
关键词 PYTHON 爬虫 可视化 招聘网站 信息爬取 数据分析
下载PDF
上一页 1 2 132 下一页 到第
使用帮助 返回顶部