期刊文献+
共找到177篇文章
< 1 2 9 >
每页显示 20 50 100
爬取公开数据行为的刑法规制误区与匡正--从全国首例“爬虫”入刑案切入 被引量:17
1
作者 石经海 苏桑妮 《北京理工大学学报(社会科学版)》 CSSCI 北大核心 2021年第4期154-164,172,共12页
全国首例"爬虫"入刑案表现出司法实践过度规制爬取公开数据行为的现象。司法实践以技术判断为主导,扩张适用非法获取计算机信息系统数据罪。在立法规定以数据控制者的技术授权为依据认定爬取行为形式违法性的情况下,以数据的... 全国首例"爬虫"入刑案表现出司法实践过度规制爬取公开数据行为的现象。司法实践以技术判断为主导,扩张适用非法获取计算机信息系统数据罪。在立法规定以数据控制者的技术授权为依据认定爬取行为形式违法性的情况下,以数据的技术属性取代法律属性判断行为的法益侵害性,从而扩大本罪的适用范围。从法秩序统一原理和安全与发展并重的数据安全观来看,技术判断主导下的罪名扩张适用,不应成为刑法规制数据爬取行为的立场。相反,规制数据爬取行为应当坚守刑法谦抑性精神,将刑法规制手段的行使,限定在保护刑法已类型化规定的重要数据和维护计算机系统正常运行的范围内。其中,对于爬取刑法已类型化保护的公开作品数据行为,基于个案全部事实应受刑罚处罚的,应认定为侵犯著作权罪;对于爬取刑法未类型化规定的其他公开数据行为,不能适用非法获取计算机信息系统数据罪,但在爬取公开数据行为扰乱计算机系统正常运行且应受刑罚处罚时,可认定为破坏计算机信息系统罪。 展开更多
关键词 公开数据 数据安全 非法获计算机信息系统数据罪
下载PDF
融合反馈信息与内容相关度的PageRank改进算法 被引量:9
2
作者 郭庆宝 贾代平 《计算机工程与设计》 CSCD 北大核心 2011年第12期4071-4074,共4页
为了提高网页排序算法的效率,提高搜索引擎的检索质量,提出了融合反馈信息与内容相关度的PageRank改进算法。利用向量空间模型计算网页之间的主题相关性,得到网页的主题相关度权值。通过对网页被点击次数进行统计分析,得到网页点击量的... 为了提高网页排序算法的效率,提高搜索引擎的检索质量,提出了融合反馈信息与内容相关度的PageRank改进算法。利用向量空间模型计算网页之间的主题相关性,得到网页的主题相关度权值。通过对网页被点击次数进行统计分析,得到网页点击量的增量权值。将这两个权值结合共同影响网页的PR(PageRank)值分配。通过仿真实验得到运用该算法后的实验结果,与其它算法的实验结果进行了比较,验证了该算法优于其它算法。 展开更多
关键词 网页级别 主题相关性 用户主观行为 点击量
下载PDF
基于Python的招聘网站数据爬取与分析
3
作者 高凤毅 葛苏慧 +2 位作者 林喜文 任红霞 魏秋怡 《电脑编程技巧与维护》 2023年第9期70-72,共3页
随着高校毕业生人数逐渐增加,从众多招聘信息中准确分析出有用信息,整体了解某个岗位在某个城市当前的就业情况,对于高校毕业生客观了解社会需求具有重要的价值。通过爬取某招聘网站中“爬虫工程师”这一岗位的信息,展示了爬取不同城市... 随着高校毕业生人数逐渐增加,从众多招聘信息中准确分析出有用信息,整体了解某个岗位在某个城市当前的就业情况,对于高校毕业生客观了解社会需求具有重要的价值。通过爬取某招聘网站中“爬虫工程师”这一岗位的信息,展示了爬取不同城市这一岗位信息的过程,对爬取到的岗位信息进行数据规范处理,按城市、学历要求等因素,分别对处理后的数据进行可视化呈现,并对可视化结果进行分析,帮助毕业生了解当前某个岗位对学历的要求,以及不同城市的岗位数量等。 展开更多
关键词 数据 分析 招聘信息 可视化
下载PDF
基于门户网站数据采集的应用研究
4
作者 聂得欣 《河南财政税务高等专科学校学报》 2023年第4期93-96,共4页
数据采集是数据分析的起点,采集数据的准确性和完整性直接决定数据分析的质量。以爬取实际门户网站数据为例,探索高效完成门户网站网页数据采集的基本思路和常规采集方案,最终实现数据采集的网络爬虫。实验结果表明该方案能高效完成门... 数据采集是数据分析的起点,采集数据的准确性和完整性直接决定数据分析的质量。以爬取实际门户网站数据为例,探索高效完成门户网站网页数据采集的基本思路和常规采集方案,最终实现数据采集的网络爬虫。实验结果表明该方案能高效完成门户网站网页数据采集,可满足常规门户网站的网页数据采集需求。 展开更多
关键词 数据采集 数据分析
下载PDF
面向高危风险漏洞修复行为的系统研究 被引量:2
5
作者 李静力 《自动化技术与应用》 2019年第1期39-45,共7页
本文采用自适应窗口爬取策略,基于入口URL对系统进行爬取。在注入点的寻找上,设计了具有更强的通配性的URL匹配模式,有效的改进了在URL重写模式下很多检测工具无法检测出漏洞的问题;并且增加了对Cookie和Session的支持。扫描器对可能的... 本文采用自适应窗口爬取策略,基于入口URL对系统进行爬取。在注入点的寻找上,设计了具有更强的通配性的URL匹配模式,有效的改进了在URL重写模式下很多检测工具无法检测出漏洞的问题;并且增加了对Cookie和Session的支持。扫描器对可能的注入点,构造有针对性的攻击测试,实施模拟攻击,一旦发现包含特定漏洞的页面,扫描器会将该漏洞的详细信息保存下来,并呈现在报表中,最后自动形成对目标站点的检测报告。 展开更多
关键词 注入点 URL匹配 漏洞
下载PDF
基于Python对人工智能类招聘信息的爬取与分析 被引量:1
6
作者 罗燕 《石家庄职业技术学院学报》 2022年第6期9-17,共9页
通过Python爬虫技术,从51Job上爬取与人工智能相关的招聘信息.爬取时采用二级深度爬行策略,确保数据的全面性.结合自然语言处理技术,对数据进行重复值、岗位名、工资、工作地点、行业、公司人数等规范化和精确化处理.从热门招聘岗位、... 通过Python爬虫技术,从51Job上爬取与人工智能相关的招聘信息.爬取时采用二级深度爬行策略,确保数据的全面性.结合自然语言处理技术,对数据进行重复值、岗位名、工资、工作地点、行业、公司人数等规范化和精确化处理.从热门招聘岗位、行业、城市、公司规模等进行挖掘与分析.根据结果,在课程设置、师资建设、设施建设、校企合作、就业指导等方面对高校人工智能类专业建设提出了相关建议. 展开更多
关键词 人工智能 PYTHON 数据挖掘 招聘信息 专业建设
原文传递
基于窗口队列的信道信息增量智能爬取仿真 被引量:1
7
作者 徐金梅 《计算机仿真》 北大核心 2019年第11期190-194,共5页
针对现有信息增量爬取方法存在的爬取收获率较低的问题,提出了一种基于窗口队列的信道信息增量智能爬取方法,由于计算机网络信号通常会受到外界环境因素的影响,所以为了防止这种情况的出现,首先需要利用小波变换的方式去除信道中的噪声... 针对现有信息增量爬取方法存在的爬取收获率较低的问题,提出了一种基于窗口队列的信道信息增量智能爬取方法,由于计算机网络信号通常会受到外界环境因素的影响,所以为了防止这种情况的出现,首先需要利用小波变换的方式去除信道中的噪声,然后通过判定信道信息增量相关度的方式计算主题相关性,将语义相似度计算加入到信息增量相关度的计算当中,考虑子节点相关度的情况对当前增量的相关度做加权处理,根据加权得分对信道信息增量进行排序和更新,保证了抓取时网络爬虫的爬行路线能够维持在高相关度的信息增量中,避免抓取无效信息,有助于爬虫穿越隧道,实现信道信息增量智能爬取。实验结果证明,所提方法可以在高收获率、高召回率的情况下完成对信道信息增量的智能爬取,且增量爬取的用时非常短。 展开更多
关键词 窗口队列 信道信息增量
下载PDF
基于Hadoop的电商评论获取与研究
8
作者 李臣龙 陶皖 《九江学院学报(自然科学版)》 CAS 2019年第3期64-68,共5页
随着大数据技术和产业的发展,电商产品的大数据分析成为电商和客户共同关注的热点。因此,研究商品评论的特征提取、生成情感标签,对人们快速掌握商品特征具有重要意义。文章基于Hadoop搭建爬虫框架,研究实现了实时采集、分析、展示数据... 随着大数据技术和产业的发展,电商产品的大数据分析成为电商和客户共同关注的热点。因此,研究商品评论的特征提取、生成情感标签,对人们快速掌握商品特征具有重要意义。文章基于Hadoop搭建爬虫框架,研究实现了实时采集、分析、展示数据的方法,为大数据研究提供了可靠数据依据。 展开更多
关键词 HADOOP WebMagic JSON
下载PDF
采用大数据分析建设工程市场信息的新方法
9
作者 李爽 高兰兰 +1 位作者 陈军 王康 《云南水力发电》 2021年第3期213-216,221,共5页
随着招投标过程信息化的快速发展,越来越多的招标、评标、中标信息统一集中在相应交易中心平台网站上进行公示,使采用大数据手段分析建设工程信息成为了可能。采用Web Scraper插件爬取网页内容简便、高效、准确。大数据的介入能很大程... 随着招投标过程信息化的快速发展,越来越多的招标、评标、中标信息统一集中在相应交易中心平台网站上进行公示,使采用大数据手段分析建设工程信息成为了可能。采用Web Scraper插件爬取网页内容简便、高效、准确。大数据的介入能很大程度遏制非法围标、串标行为,保证公共资源交易过程的公平、公正,有效打击权力寻租。同时大数据分析以定量、可视化的成果展示了建设工程的市场行为趋势,为政府的宏观调控提供更精确的数据性指导性意见。 展开更多
关键词 web scraper 新基建 建设工程 大数据 市场信息分析
下载PDF
数据爬取的正当性及其边界 被引量:118
10
作者 许可 《中国法学》 CSSCI 北大核心 2021年第2期166-188,共23页
旨在实现数据再利用的数据流通机制是数据要素市场的关键环节。数据流通包括多方合意的数据共享,也包括单方非合意的数据爬取。尽管数据爬取占据互联网流量甚巨,但随着数据中蕴含的个人权益、经济利益和公共安全问题的凸显,数据爬取的... 旨在实现数据再利用的数据流通机制是数据要素市场的关键环节。数据流通包括多方合意的数据共享,也包括单方非合意的数据爬取。尽管数据爬取占据互联网流量甚巨,但随着数据中蕴含的个人权益、经济利益和公共安全问题的凸显,数据爬取的法律纠纷与日俱增。我国一概禁止数据爬取的执法和司法,忽略了蕴含其中的数据流通价值。为此,有必要跳出数据权属的无穷论争,在承认数据爬取作为一项法律权益的前提下,运用权益权衡的方法,发现社会伤害最小的法律规则。凭借着阿历克西"权重公式"和数据权益的细化,爬取企业数据、政府数据、个人数据的正当性边界得以划定,我国《数据安全法》和《个人信息保护法》的相关规则亦可得以完善。 展开更多
关键词 数据流通 数据 权衡法则 数据权属 数据再利用
原文传递
保护与竞争:治理数据爬取行为的竞争法功能实现 被引量:44
11
作者 陈兵 《政法论坛》 CSSCI 北大核心 2021年第6期18-28,共11页
数据爬取是获取用户数据资源的一种重要的手段,在促进企业数据竞争的同时,也给数据保护带来了挑战。当前,我国对数据爬取行为的治理主要依靠竞争法治理。从技术中立的角度讲,数据爬取行为具有竞争中性的属性。通过对相关数据爬取案件的... 数据爬取是获取用户数据资源的一种重要的手段,在促进企业数据竞争的同时,也给数据保护带来了挑战。当前,我国对数据爬取行为的治理主要依靠竞争法治理。从技术中立的角度讲,数据爬取行为具有竞争中性的属性。通过对相关数据爬取案件的发生场景、行为方式、后果评价以及审理理路的比较,发现在司法实践中尚缺乏对数据爬取行为正当性分析的竞争法模式,存在同案不同判的现象。为此,建议从数据爬取行为发生的实践逻辑出发,识别数据爬取所涉及的多元利益,结合《数据安全法》《个人信息保护法》中有关数据发展与安全,个人信息处理者(平台)权利、义务及责任的相关规定,统筹数据安全保护与数据竞争发展的关系,依法促进以"保护与竞争"为基调的数据爬取行为竞争法治理理念、规则、方式的完善,认为竞争法功能的实现,需要其他法律制度与法律工具的协力。 展开更多
关键词 数据 数据保护 数据竞争 竞争治理 协同治理
原文传递
公开商业数据爬取行为的规制路径 被引量:21
12
作者 任浏玉 《知识产权》 CSSCI 北大核心 2022年第7期110-126,共17页
公开商业数据源于个人数据,形成于数据收集技术,是独立于个人数据的数据类型。劳动说与激励说无法成为公开商业数据赋权保护的正当性基础,赋权保护路径既违背传统权利生成过程且实践效果存疑,并最终可能导致权利泛化。然而,如果摒弃赋... 公开商业数据源于个人数据,形成于数据收集技术,是独立于个人数据的数据类型。劳动说与激励说无法成为公开商业数据赋权保护的正当性基础,赋权保护路径既违背传统权利生成过程且实践效果存疑,并最终可能导致权利泛化。然而,如果摒弃赋权保护路径,完全放任公开商业数据被肆意爬取,可能会破坏市场竞争秩序,从而阻碍市场竞争。反不正当竞争法不预设具体利益而只判断行为正当与否的“行为谴责式”判断范式,完全契合规制爬取公开商业数据行为的谦抑性。现阶段由于我国《反不正当竞争法》类型化条款无法提供救济,适用一般条款规制爬取公开商业数据行为是较为妥当的方案。 展开更多
关键词 公开商业数据 数据赋权 数据 反不正当竞争法一般条款
下载PDF
数据爬取的刑法规制 被引量:21
13
作者 孙杰 《政法论丛》 CSSCI 北大核心 2021年第3期115-125,共11页
以网络爬虫为代表的现代网络技术在带来数据分享与利用的公开性与便捷性的同时,也不可避免地伴随着技术滥用的风险。对此,"技术中立"的口号亦不能逾越法律的红线。从刑事法的角度,对于爬取数据行为需要从行为的"非法性&q... 以网络爬虫为代表的现代网络技术在带来数据分享与利用的公开性与便捷性的同时,也不可避免地伴随着技术滥用的风险。对此,"技术中立"的口号亦不能逾越法律的红线。从刑事法的角度,对于爬取数据行为需要从行为的"非法性"与对象的"层次性"两个维度进行规制。对于爬取行为的非法性,需要结合技术原理合理划定计算机的访问权限,并应注意反爬机制的规范目的与善意访问的除罪化;对于爬取数据的层次性,则需要注意数据与信息的层次区分与法益归属,厘清数据安全与信息安全的法益内涵,并对针对复数法益的一次性侵害行为适用想象竞合的原则予以处理。 展开更多
关键词 网络 数据 刑事风险 刑法规制
下载PDF
基于Scrapy的GitHub数据爬虫 被引量:18
14
作者 赵本本 殷旭东 王伟 《电子技术与软件工程》 2016年第6期199-202,共4页
作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算... 作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。 展开更多
关键词 网络 数据 Scrapy GitHub PYTHON NOSQL
下载PDF
数据爬取的不正当竞争认定规则研究 被引量:13
15
作者 周樨平 《南大法学》 2023年第2期87-102,共16页
平台对平台内数据享有什么权益是判断数据爬取行为正当性的前提问题。平台对不同形态的数据投入的劳动和资金具有显著的不同,应进行分类保护。用户直接生成展示在网页上的数据,具有原始性和公开性的特征,应采用竞争性权益的保护方式;而... 平台对平台内数据享有什么权益是判断数据爬取行为正当性的前提问题。平台对不同形态的数据投入的劳动和资金具有显著的不同,应进行分类保护。用户直接生成展示在网页上的数据,具有原始性和公开性的特征,应采用竞争性权益的保护方式;而平台进行适度处理可供商业化利用并采用密码等保护措施仅向特定人提供的数据,可采用财产性权益的保护路径,对数据爬取不正当竞争行为的认定应由此而展开。司法实践中形成的“三重授权”规则是财产性权益的保护方式,而“实质性替代”和“破坏性利用”规则是竞争性权益的保护方式,我国在构建数据不正当竞争的法律规则时,应总结司法经验并对其进行优化和完善。 展开更多
关键词 数据 不正当竞争 数据权益
下载PDF
基于LSTM-DA神经网络的农产品价格指数短期预测模型 被引量:14
16
作者 贾宁 郑纯军 《计算机科学》 CSCD 北大核心 2019年第S11期62-65,71,共5页
农产品价格一直是维持社会经济生活安定的重点关注领域,由于农产品预测价格与影响因素之间存在非线性关系,递归神经网络虽然适用于时间序列的预测,但是针对长时间的跨度,其预测效果有限。基于此,根据农产品价格特点,设计了一种LSTM-DA(L... 农产品价格一直是维持社会经济生活安定的重点关注领域,由于农产品预测价格与影响因素之间存在非线性关系,递归神经网络虽然适用于时间序列的预测,但是针对长时间的跨度,其预测效果有限。基于此,根据农产品价格特点,设计了一种LSTM-DA(Long Short-Term Memory-Double Attention,双重注意力机制与长短期记忆网络融合)神经网络模型。它将卷积注意力网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)和注意力机制相结合,针对不同成分的影响因子通过卷积注意力网络进行特征提取,调节其对应的权重并馈送至长短期记忆网络模型中以呈现时间序列的影响,在此基础上,将结果再次送入注意力机制进行权重调节,最终将得到的结果用于农产品价格指数的短期预测。实验前,采用多线程机制从多个农业信息平台中爬取海量的价格、天气等相关数据,在对其进行解析和清洗的基础上,将其存入分布式文件系统(Hadoop Distributed File System,HDFS)中;实验时,采用长短期记忆网络作为基线。实验结果表明,与传统的单一模型相比,此模型不仅可以提升预测精度,而且预测的农产品价格指数可以准确地描述未来一周内蔬菜类产品的整体趋势。 展开更多
关键词 卷积注意力网络 长短期记忆网络 注意力机制 网络数据 价格预测
下载PDF
基于网页分块的Shark-Search算法 被引量:7
17
作者 陈军 陈竹敏 《山东大学学报(理学版)》 CAS CSCD 北大核心 2007年第9期62-66,共5页
Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的S... Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高. 展开更多
关键词 Shark-Search算法 主题 页面分块 相关性计算
下载PDF
基于Python的招聘网站信息爬取与数据分析 被引量:13
18
作者 刘晓知 《电子测试》 2020年第12期75-76,110,共3页
文章通过对Python爬虫的具体设计与数据分析具体流程进行了简述,并对涉及到的相关技术进行了诠释,并给出具体分析结果,通过应用Python爬虫定向抓取网站当中的相关招聘信息数据,之后对所爬取的招聘信息数据进行处理,并及时存入到数据库当... 文章通过对Python爬虫的具体设计与数据分析具体流程进行了简述,并对涉及到的相关技术进行了诠释,并给出具体分析结果,通过应用Python爬虫定向抓取网站当中的相关招聘信息数据,之后对所爬取的招聘信息数据进行处理,并及时存入到数据库当中,并对招聘数据信息进行综合处理与分析,结合不同的区域、职业要求、学历要求等相关基础条件,合理分析某一具体职业的具体薪资状况,并将所得的分析数据结果进行展示。 展开更多
关键词 PYTHON 可视化 招聘网站 信息 数据分析
下载PDF
恶意数据爬取行为的刑法规制研究 被引量:13
19
作者 蒋巍 《学术论坛》 CSSCI 北大核心 2020年第3期48-54,共7页
恶意数据爬取行为对政府机关、企事业单位和个人的数据安全带来了极大的风险,威胁到各主体的合法权益。由于我国在相关立法、惩罚机制、技术防范等方面较为滞后,导致犯罪成本偏低,并且当前恶意数据爬取行为呈蔓延趋势,亟需予以关注和回... 恶意数据爬取行为对政府机关、企事业单位和个人的数据安全带来了极大的风险,威胁到各主体的合法权益。由于我国在相关立法、惩罚机制、技术防范等方面较为滞后,导致犯罪成本偏低,并且当前恶意数据爬取行为呈蔓延趋势,亟需予以关注和回应。文章梳理分析国内外恶恶意数据爬取行为的刑法规制理论和司法实践,发现无论是在理论研究还是司法实践方面都存在一定的不足,较少涉足规制的本质问题,诸如如何提高法律的遏制力和震慑力,加大不法分子的犯罪成本。鉴于此,文章以数据爬取的刑事立法保护和司法保护现状分析为切入点,以国内典型案例为实践依据,分析滥用数据爬取技术的刑事法律风险,并对恶意数据爬取行为刑法规制进行思考并提出建议。 展开更多
关键词 数据行为 信息安全 犯罪构成 刑法规制
下载PDF
基于SVM的主题爬虫技术研究 被引量:12
20
作者 李璐 张国印 李正文 《计算机科学》 CSCD 北大核心 2015年第2期118-122,共5页
随着互联网的快速发展,网络信息呈现海量和多元化的趋势。如何为互联网用户快速、准确地提取其所需信息,已成为搜索引擎面临的首要问题。传统的通用搜索引擎虽然能够在较大的信息范围内获取目标,但在某些特定领域无法给用户提供专业而... 随着互联网的快速发展,网络信息呈现海量和多元化的趋势。如何为互联网用户快速、准确地提取其所需信息,已成为搜索引擎面临的首要问题。传统的通用搜索引擎虽然能够在较大的信息范围内获取目标,但在某些特定领域无法给用户提供专业而深入的信息。提出基于SVM分类的主题爬虫技术,其将基于文字内容和部分链接信息的主题相关度预测算法、SVM分类算法和HITS算法相结合,解决了特定信息检索的难题。实验结果表明,使用基于SVM分类算法的爬取策略,能够较好地区分主题相关网页和不相关网页,提高了主题相关网页的收获率和召回率,进而提高了搜索引擎的检索效率。 展开更多
关键词 SVM 主题 策略 HITS
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部