期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
一种面向大规模URL过滤的多模式串匹配算法 被引量:13
1
作者 刘燕兵 邵妍 +2 位作者 王勇 刘庆云 郭莉 《计算机学报》 EI CSCD 北大核心 2014年第5期1159-1169,共11页
对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该... 对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该算法在经典的SOG算法基础上,针对URL规则的特点,提出了最优窗口选择、模式串分组规约这两种优化技术,大幅度提高了SOG算法的匹配速度,在大规模URL规则集上效果尤其显著.该文设计的算法非常适合于大规模(100万级)URL实时在线匹配的应用环境. 展开更多
关键词 多模式串匹配 url过滤 最优窗口选择 模式串分组规约 信息安全 网络安全
下载PDF
Web内容过滤实现方法的研究 被引量:4
2
作者 马文斌 王庆 《计算机工程》 CAS CSCD 北大核心 2004年第B12期588-589,628,共3页
介绍了Web内容过滤的技术原理以及如何通过防火墙实现的方法。通过所设计的"内容过滤模型"体现出"用防火墙实现内容过 滤"的优势。该模型把URL过滤和文本关键词过滤二种技术相结合。在不降低过滤精度的基础上提高... 介绍了Web内容过滤的技术原理以及如何通过防火墙实现的方法。通过所设计的"内容过滤模型"体现出"用防火墙实现内容过 滤"的优势。该模型把URL过滤和文本关键词过滤二种技术相结合。在不降低过滤精度的基础上提高了过滤速度。还论述了对经典过滤算法 以及参数设置的改进,最后以实例介绍在防火墙上的实现方法。 展开更多
关键词 内容过滤 关键词匹配 url过滤 关键词权重 防火墙
下载PDF
基于概率模型的主题爬虫的研究和实现 被引量:7
3
作者 白玉昭 梁久祯 《计算机工程与科学》 CSCD 北大核心 2013年第1期160-165,共6页
在现有多种主题爬虫的基础上,提出了一种基于概率模型的主题爬虫。它综合抓取过程中获得的多方面的特征信息来进行分析,并运用概率模型计算每个URL的优先值,从而对URL进行过滤和排序。基于概率模型的主题爬虫解决了大多数爬虫抓取策略... 在现有多种主题爬虫的基础上,提出了一种基于概率模型的主题爬虫。它综合抓取过程中获得的多方面的特征信息来进行分析,并运用概率模型计算每个URL的优先值,从而对URL进行过滤和排序。基于概率模型的主题爬虫解决了大多数爬虫抓取策略单一这个缺陷,它与以往主题爬虫的不同之处是除了使用主题相关度评价指标外,还使用了历史评价指标和网页质量评价指标,较好地解决了"主题漂移"和"隧道穿越"问题,同时保证了资源的质量。最后通过多组实验验证了其在主题网页召回率和平均主题相关度上的优越性。 展开更多
关键词 主题爬虫 概率模型 url过滤 url排序 优先值
下载PDF
网络竞争情报主题采集技术研究 被引量:5
4
作者 田雪筠 《图书与情报》 CSSCI 北大核心 2014年第5期132-137,共6页
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与... 文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。 展开更多
关键词 竞争情报 主题爬虫 链接过滤 主题过滤
下载PDF
基于Heritrix的网络爬虫研究与应用 被引量:4
5
作者 刘高军 夏景隆 《软件导刊》 2013年第5期123-125,共3页
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信... 主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。 展开更多
关键词 网络爬虫 主题搜索引擎 HERITRIX url地址去重 BKDRHash算法
下载PDF
基于动态主题库的主题爬虫 被引量:4
6
作者 金明珠 丁岳伟 《计算机应用》 CSCD 北大核心 2009年第B12期44-46,共3页
通过对基于不同策略过滤URL的主题爬虫的研究,提出了一种基于动态主题库的主题爬虫。它能够在运行期间实时地更新主题库,提高了对URL过滤的准确度。实验表明,所提的主题爬虫能够在相对较少的时间中,检索尽量少的网络空间,抓取到较多与... 通过对基于不同策略过滤URL的主题爬虫的研究,提出了一种基于动态主题库的主题爬虫。它能够在运行期间实时地更新主题库,提高了对URL过滤的准确度。实验表明,所提的主题爬虫能够在相对较少的时间中,检索尽量少的网络空间,抓取到较多与主题相关的网页。 展开更多
关键词 主题爬虫 动态主题库 url过滤 主题相关度 未知字段
下载PDF
基于统计模型的主题爬虫的研究与实现 被引量:3
7
作者 金明珠 丁岳伟 《计算机工程与设计》 CSCD 北大核心 2010年第16期3700-3704,共5页
在研究了现存的主题爬虫的基础上,提出了一种基于统计模型的主题爬虫,它对抓取过程中可获得的信息进行分析,并运用统计模型计算的结果过滤URL,有效地解决了偏好特定主题的用户检索和Web信息的索引等相关问题。实验结果表明,与基于链接... 在研究了现存的主题爬虫的基础上,提出了一种基于统计模型的主题爬虫,它对抓取过程中可获得的信息进行分析,并运用统计模型计算的结果过滤URL,有效地解决了偏好特定主题的用户检索和Web信息的索引等相关问题。实验结果表明,与基于链接和网页内容分析的主题爬虫相比,该主题爬虫能够在检索较少的网页时,抓取到较多的与主题相关的网页,提高了抓取精度。 展开更多
关键词 统计模型 主题爬虫 url过滤 特征信息 字段
下载PDF
基于农业领域的网络爬虫 被引量:2
8
作者 吴菊英 贾炅昊 冯秀芳 《电脑开发与应用》 2012年第8期30-32,共3页
以农业环境为背景,在搜索引擎基础而又非常重要的部分——网络爬虫的基础上,提出了改进的爬虫设计,其中采用了主题相关性判断和网页选择器筛选的方法,并且通过建立对应的农产品词库,结果表明在农业领域的搜索相关性上有大幅度的提高。
关键词 网络爬虫 url过滤 农业搜索 主题相关性 聚焦模型
下载PDF
Web语料抓取中基于相似度的URL过滤规则生成算法
9
作者 陈荟慧 舒云星 林丽 《模式识别与人工智能》 EI CSCD 北大核心 2014年第7期631-637,共7页
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方... Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响. 展开更多
关键词 url相似度 Web语料爬取 url过滤 语料分类
下载PDF
基于网络设备的网页过滤的设计 被引量:1
10
作者 文敬斌 杨忠孝 孙林 《通信技术》 2011年第2期78-80,共3页
为实现统一高效的网页内容过滤,提出了一种在网络设备上对网页进行过滤的方法。采用URL(Uniform Resource Location)过滤与内容过滤相结合的方式;通过设置黑白名单和老化机制,来改进URL过滤;考虑网页的结构化特性,通过改进特征的权值的... 为实现统一高效的网页内容过滤,提出了一种在网络设备上对网页进行过滤的方法。采用URL(Uniform Resource Location)过滤与内容过滤相结合的方式;通过设置黑白名单和老化机制,来改进URL过滤;考虑网页的结构化特性,通过改进特征的权值的计算公式,并采用K近邻(KNN)分类算法,改进内容过滤。实例的分析表明:该方法能够在满足用户延迟要求的情况下,对网页进行比较精确的过滤。 展开更多
关键词 黑白名单 url过滤 内容过滤 K近邻法
原文传递
面向移动终端的URL过滤方法 被引量:1
11
作者 刘夏 刘萍 +1 位作者 刘燕兵 谭建龙 《计算机工程与应用》 CSCD 北大核心 2011年第18期68-72,共5页
在移动终端内容安全检测中",黑名单"过滤是一种常用的手段,但有限的存储空间制约了它的应用。根据"黑名单"过滤特点研究了一种多串匹配算法的改进,以Aho-Corasick算法为例,采用两种启发式策略从不等长的URL串中提... 在移动终端内容安全检测中",黑名单"过滤是一种常用的手段,但有限的存储空间制约了它的应用。根据"黑名单"过滤特点研究了一种多串匹配算法的改进,以Aho-Corasick算法为例,采用两种启发式策略从不等长的URL串中提取具有代表性的、等长的模式子串,并使用双数组进一步压缩。在Nokia 5230上的测试表明,该算法的存储空间是经典AC算法的0.7%,而速度可达到95%以上。 展开更多
关键词 移动终端 AHO-CORASICK算法 空间压缩 启发式策略 url过滤
下载PDF
一种改进的双重过滤模型算法
12
作者 郭新志 钟家民 《安阳工学院学报》 2009年第2期59-60,64,共3页
在互联网中存在着为数众多的不良信息。针对这种现状,许多公司与研究机构都提出了自已的过滤模型。在研究过去过滤模型的基础上,提出了一种改进的双重过滤模型算法。
关键词 url过滤 内容过滤 关键词匹配
下载PDF
基于URL过滤与内容过滤的网络净化模型 被引量:5
13
作者 李石君 李洲 +1 位作者 余军 张科 《计算机技术与发展》 2006年第1期5-7,16,共4页
在信息时代里,信息爆炸似地增长着,而为数众多的不良信息充斥其中。针对这种现状,许多的公司与研究机构都提出了自己的过滤模型。文中在研究过去模型的基础上,提出了一种高效可靠的网络净化模型。该模型在运用WCCP协议的前提下,结合了UR... 在信息时代里,信息爆炸似地增长着,而为数众多的不良信息充斥其中。针对这种现状,许多的公司与研究机构都提出了自己的过滤模型。文中在研究过去模型的基础上,提出了一种高效可靠的网络净化模型。该模型在运用WCCP协议的前提下,结合了URL过滤和内容过滤这两种过滤方法对网络信息进行过滤,改进了传统的URL过滤算法。 展开更多
关键词 WCCP协议 ORE过滤 内容过滤 缓存
下载PDF
基于哈希表的高性能URL过滤器研究 被引量:3
14
作者 郑卫斌 张德运 +2 位作者 丁会宁 李继华 高磊 《小型微型计算机系统》 CSCD 北大核心 2005年第2期178-180,共3页
防火墙通过 URL 过滤控制对因特网信息资源的访问 .为了在高速防火墙上实现 URL 过滤 ,本文提出了位图法以改进URL过滤器的哈希表数据结构 ,提高哈希表查找速度 ;提出了快速压缩法 ,降低过滤器的空间占用 .经过位图法和快速压缩法改进 ... 防火墙通过 URL 过滤控制对因特网信息资源的访问 .为了在高速防火墙上实现 URL 过滤 ,本文提出了位图法以改进URL过滤器的哈希表数据结构 ,提高哈希表查找速度 ;提出了快速压缩法 ,降低过滤器的空间占用 .经过位图法和快速压缩法改进 ,并应用高速缓存优化后 ,采用实验对 U RL 过滤器进行性能评价 ,发现 URL 过滤的平均时间下降了 2 5 3.7% ,空间下降了2 5 .7% . 展开更多
关键词 url过滤 哈希表 数据结构 防火墙
下载PDF
一种去除重复URL的算法 被引量:4
15
作者 苏国荣 杨岳湘 邓劲生 《广西师范大学学报(自然科学版)》 CAS 北大核心 2010年第1期122-126,共5页
通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进... 通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。 展开更多
关键词 布隆过滤器 散列函数 url 网页去重
下载PDF
Web全文检索中间件的设计与应用 被引量:2
16
作者 张维刚 徐永东 +1 位作者 雷小强 何辉 《计算机应用》 CSCD 北大核心 2011年第8期2261-2264,共4页
为了更好地为Web站内检索提供服务,对Web全文检索的关键技术进行了研究,设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页;对抓取结果采用基于Bloom-Filter的大规模URL去重算法来进行高效消重;应用... 为了更好地为Web站内检索提供服务,对Web全文检索的关键技术进行了研究,设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页;对抓取结果采用基于Bloom-Filter的大规模URL去重算法来进行高效消重;应用所提出的新的基于标签的正文提取方法来进行网页正文提取,实验结果表明该正文提取方法是有效可行的;此外,为了改善用户的搜索体验,该中间件还提供了一些个性化搜索辅助功能。最后,实现了一个完整的博客搜索系统Boso(博搜)来验证中间件的性能,结果说明该中间件是可以投入实际应用的。 展开更多
关键词 Web全文检索 中间件 url去重 网页标签 正文提取
下载PDF
垃圾邮件综合过滤法在校园网中的应用 被引量:1
17
作者 花小朋 蓝少华 《信息安全与通信保密》 2007年第10期69-70,73,共3页
文章根据校园网邮件服务器的实际运行环境,给出了几种常用垃圾邮件过滤算法相结合的综合过滤方法,实际应用表明该综合方法具有比较好的过滤性能。
关键词 邮件过滤 黑白名单 规则过滤 贝叶斯过滤 url过滤
原文传递
基于分层结构保留的增量网络爬虫算法 被引量:3
18
作者 胡廉民 张泽斌 +2 位作者 徐威迪 黄翰 李英 《计算机应用研究》 CSCD 北大核心 2013年第8期2381-2385,共5页
为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网... 为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下,实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据,结果表明,改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此,分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。 展开更多
关键词 网络爬虫 url过滤器 层次结构保存 频率模型
下载PDF
基于Bloom Filter的大规模网页去重策略研究 被引量:15
19
作者 丁振国 吴宝贵 辛友强 《现代图书情报技术》 CSSCI 北大核心 2008年第3期45-50,共6页
针对大规模信息采集,运用Bloom Filter及其改进算法,在误差允许的条件下,通过URL散列运算可以有效地对同源网页进行去重。实践证明,通过对其参数进行合理的调整,可以达到满意的结果。
关键词 布隆过滤器 散列函数 url 网页去重
下载PDF
一种新型的基于URL过滤的反垃圾邮件技术 被引量:3
20
作者 吴峻 李洋 《计算机应用研究》 CSCD 北大核心 2008年第5期1537-1539,共3页
在深入分析了传统垃圾邮件过滤技术不足的基础上,提出并实现了一种新型的基于URL过滤的垃圾邮件过滤技术(URLbased spamfiltering,UBSF)。该方法通过对比从到来邮件中提取的URL与URL库中存储的URL信息的相似性来判定垃圾邮件。通过语料... 在深入分析了传统垃圾邮件过滤技术不足的基础上,提出并实现了一种新型的基于URL过滤的垃圾邮件过滤技术(URLbased spamfiltering,UBSF)。该方法通过对比从到来邮件中提取的URL与URL库中存储的URL信息的相似性来判定垃圾邮件。通过语料库以及构建实际系统原型的测试,表明该方法具有准确性高、误报率低以及实时处理速度快的优点。 展开更多
关键词 网络安全 垃圾邮件过滤 url过滤的垃圾邮件过滤技术 统一资源定位符库
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部