期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
一个网页过滤改进算法的应用与实现 被引量:1
1
作者 程基鹏 《电脑知识与技术》 2009年第11X期9192-9194,共3页
该文在介绍网页过滤技术的基础上,针对非法网页采取给敏感关键词加入"干扰"的特点,提出了一种关键词匹配的改进算法,经测试,该算法取得了良好的效果。
关键词 过滤算法 网页过滤 关键词匹配
下载PDF
基于自然语言处理的多级网页过滤器研究 被引量:2
2
作者 康海燕 任俊玲 +1 位作者 陈昕 王鹤沩 《信息安全与技术》 2011年第10期66-69,共4页
针对现有网页过滤系统的不足和实时网络信息过滤的新挑战,提出新一代多级网页智能过滤解决方案:主要采用Mimefilte r技术,结合多级过滤方法对网页进行过滤。利用分类算法对已知的训练样本进行学习,提取特征向量,构造二值分类器。然后运... 针对现有网页过滤系统的不足和实时网络信息过滤的新挑战,提出新一代多级网页智能过滤解决方案:主要采用Mimefilte r技术,结合多级过滤方法对网页进行过滤。利用分类算法对已知的训练样本进行学习,提取特征向量,构造二值分类器。然后运用此分类器,对新的网页进行过滤,将过滤的结果提交给用户,用户可对过滤结果进行评价反馈,系统再根据反馈对过滤器进行调整。基于上述方法和理论,在Java EE 6+MySQL5.1平台上设计并开发了一个多级网页过滤系统。它能在提高信息安全度和不降低信息共享度之间找到一个平衡点。实验证明了多级过滤相结合的网页过滤器是可行的、高效的。 展开更多
关键词 网页过滤 Mimefilter技术 黑白/名单 自然语言处理
下载PDF
基于扩展主题特征库的领域主题爬虫 被引量:2
3
作者 吴岳廷 李石君 《计算机工程与设计》 北大核心 2015年第5期1342-1347,共6页
在领域主题爬虫中,为提高网页爬取的效率和准确性,将扩展主题特征库(extended topic feature library,ETFL)引入进爬虫的网页过滤算法中。将网页抽象为标签块节点集,通过主题特征库扩展算法对静态特征项进行扩充生成扩展主题特征库,利... 在领域主题爬虫中,为提高网页爬取的效率和准确性,将扩展主题特征库(extended topic feature library,ETFL)引入进爬虫的网页过滤算法中。将网页抽象为标签块节点集,通过主题特征库扩展算法对静态特征项进行扩充生成扩展主题特征库,利用网页主题特征项提取算法从页面中抽取出特征项,在爬虫抓取网页的过程中,通过基于扩展主题特征库的网页相关性判断方法对页面进行过滤。该算法弥补了传统的基于静态关键词项的网页过滤算法对页面语义层次处理的缺失。实际项目运行结果表明,在领域主题爬虫中引入扩展主题库能够有效提高网页抓取精度,具有较高可用性。 展开更多
关键词 主题特征库 网页过滤 标签块 相关性 语义
下载PDF
基于支持向量机与余弦夹角法的中文网页过滤的研究与设计 被引量:2
4
作者 胡迪 陈运 +1 位作者 杨义先 陈悦 《成都信息工程学院学报》 2011年第5期527-532,共6页
为了进一步准确过滤对青少年危害较大的色情网页,在汉语词法分析系统添加去禁用词功能实现中文分词,通过改进的词频-逆文档频率及文档频率-互信息方法完成特征提取,从而实现基于支持向量机的过滤方案。并在给出的余弦夹角公式的基础上,... 为了进一步准确过滤对青少年危害较大的色情网页,在汉语词法分析系统添加去禁用词功能实现中文分词,通过改进的词频-逆文档频率及文档频率-互信息方法完成特征提取,从而实现基于支持向量机的过滤方案。并在给出的余弦夹角公式的基础上,提出了一种基于余弦夹角法的中文网页过滤方案。结合两种方案,实验证明在统一资源符总库存在条件下方案对色情等网页过滤效果进一步提高。 展开更多
关键词 信息处理 网页过滤 支持向量机 余弦夹角法 特征提取
下载PDF
基于字频分布的中文网页编码识别算法 被引量:2
5
作者 侯整风 张浩 张娜 《计算机工程》 CAS CSCD 2014年第12期199-204,共6页
编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关... 编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。 展开更多
关键词 中文编码 网页过滤 高频字符 模式匹配 有限状态自动机
下载PDF
行业动态信息采集系统关键问题解决方案 被引量:2
6
作者 黎柯 蔡永香 +3 位作者 干佳林 王居远 杨鼎 胡森勇 《测绘科学》 CSCD 北大核心 2016年第3期161-166,共6页
为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对... 为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对不同风格网站网页的清洗,并建立索引提供信息检索机制,给测绘行业人士提供准确可靠的信息服务,为相关研究提供参考。 展开更多
关键词 Heritrix和Lucene 信息爬取 网页清洗 全文检索
原文传递
公共计算机实验室软件系统管理与实践
7
作者 屈艳华 张海涛 王剑锋 《河北科技师范学院学报(社会科学版)》 2009年第2期40-43,共4页
通过对河北科技师范学院公共计算机实验室课程设置、机房安排、软件划分等内容的合理规划,软件的安装、测试、优化和完善等方面技术手段的应用,硬盘保护卡功能的有效运用以及网络技术的综合使用及多种手段的优化比较,构建了完整的高校... 通过对河北科技师范学院公共计算机实验室课程设置、机房安排、软件划分等内容的合理规划,软件的安装、测试、优化和完善等方面技术手段的应用,硬盘保护卡功能的有效运用以及网络技术的综合使用及多种手段的优化比较,构建了完整的高校公共计算机实验室软件系统管理模式,实现了对高校公共机房实验室设备的充分利用和高效维护,以及对公共机房软件系统的科学管理。 展开更多
关键词 软件规划 系统安装 网络拷贝 端口隔离 网页过滤
下载PDF
一种对Web遗留系统透明的单点登录方案 被引量:4
8
作者 龙毅宏 李常友 +1 位作者 唐志红 刘旭 《信息安全与通信保密》 2010年第10期67-69,72,共4页
单点登录(Single Sign On,SSO)给用户带来极大的方便,但Web遗留系统(Legacy)往往由于无法进行修改而不能提供SSO支持。提出的面向Web遗留系统的透明单点登录解决方案,利用Web过滤器技术,结合安全断言标记语言(SAML)协议和安全的口令代填... 单点登录(Single Sign On,SSO)给用户带来极大的方便,但Web遗留系统(Legacy)往往由于无法进行修改而不能提供SSO支持。提出的面向Web遗留系统的透明单点登录解决方案,利用Web过滤器技术,结合安全断言标记语言(SAML)协议和安全的口令代填,可以在不需要修改原有系统的情况下,实现单点登录,而且能实现自动账户绑定。这里提出的方案是一种解决Web遗留系统单点登录问题的既简单又有效的方案。 展开更多
关键词 单点登录 web过滤器 安全断言标记语言 身份鉴别 web遗留系统
原文传递
ISA Server2006应用程序过滤的兼容性问题分析
9
作者 周军 《电脑与电信》 2007年第3期36-39,共4页
本文分析了ISA Server2006在应用过程中出现的应用程序过滤兼容性问题,并提出了一套有效的解决方案。
关键词 ISA SERVER 2006 HTTP筛选器 web筛选器 应用程序筛选器 HTTP应用层过滤
下载PDF
基于Jetty的网页防篡改技术的设计和实现 被引量:1
10
作者 罗红飞 孟庆生 徐中干 《网络安全技术与应用》 2010年第5期4-6,共3页
本文提出并实现了架设在符合J2EE标准的Web服务器上的网页防篡改系统,该系统主要采用Java语言开发和实现,能够对目前各种主流操作系统平台上的网页内容进行实时监控,发现网页被篡改时能及时恢复并报警,有效的保护目标网站的安全。
关键词 核心内嵌 散列函数 篡改 网页保护 jetty解析
原文传递
面向终端用户的网页过滤模板动态生成技术研究 被引量:2
11
作者 徐慧 窦子辉 +1 位作者 杨林 陈雪 《计算机科学》 CSCD 北大核心 2012年第S2期90-93,共4页
为了满足网络终端用户对网页噪音的过滤需求,提出一种面向终端用户的动态模板网页过滤系统模型,它基于模板并利用用户反馈自动进化过滤系统。设计了模板生成算法,模拟实验验证了该算法的有效性。
关键词 网页过滤 动态模板 DOM树
下载PDF
嗅探模式Web过滤器设计与实现
12
作者 王天竹 孙良旭 李林林 《辽宁科技大学学报》 CAS 2011年第3期259-263,共5页
对比Web过滤器的嵌入和嗅探工作模式,分析嗅探工作模式的部署方式和工作原理,使用原始套接字编程技术捕获网络数据包,按照IP、TCP和HTTP协议进行协议分析。当客户端向服务器端发送的HTTP请求信息时,使用Boyer-Moore算法对预定义的模式... 对比Web过滤器的嵌入和嗅探工作模式,分析嗅探工作模式的部署方式和工作原理,使用原始套接字编程技术捕获网络数据包,按照IP、TCP和HTTP协议进行协议分析。当客户端向服务器端发送的HTTP请求信息时,使用Boyer-Moore算法对预定义的模式进行模式匹配,并通过直接和间接两种方式实现先于服务器端在客户端显示Web信息。实际运行测试效果说明,嗅探模式Web过滤器在模式匹配速度和反馈过滤信息上都达到嵌入式Web过滤器的运行效果。 展开更多
关键词 嗅探 web过滤 BOYER-MOORE算法 TCP/IP协议栈
下载PDF
基于Hibernate的关联检索策略研究应用
13
作者 陈恋 邢永康 《计算机工程与设计》 CSCD 北大核心 2008年第19期4914-4916,共3页
Hibernate是现今广泛使用的对象关系映射持久化工具。对实体对象所关联对象的检索,Hibernate提供了3种检索方式:立即检索,延迟检索和预先抓取。分析了Hibernate不同关联检索策略的性能,结合Web应用请求响应模式的特性,探讨了Web应用中... Hibernate是现今广泛使用的对象关系映射持久化工具。对实体对象所关联对象的检索,Hibernate提供了3种检索方式:立即检索,延迟检索和预先抓取。分析了Hibernate不同关联检索策略的性能,结合Web应用请求响应模式的特性,探讨了Web应用中性能较好的对象关联数据检索实现方式:使用Filter组件管理Hibernate事务,简化了数据库检索操作的复杂性,提高检索性能。 展开更多
关键词 HIBERNATE 持久化 对象关系映射 关联检索 webfilter
下载PDF
非法网页过滤的研究与实现 被引量:8
14
作者 周威成 马素霞 《计算机应用》 CSCD 北大核心 2003年第10期108-110,共3页
文中介绍了文本分类中常用的KNN(KNearestNeighbor)算法,将KNN算法应用到了非法网页过滤中,提出了一种非法网页过滤解决方案。基于Linux操作系统实现了此方案,并采用国际通用的相关评估方法对本方案的应用进行了测定和评估。评估结果显... 文中介绍了文本分类中常用的KNN(KNearestNeighbor)算法,将KNN算法应用到了非法网页过滤中,提出了一种非法网页过滤解决方案。基于Linux操作系统实现了此方案,并采用国际通用的相关评估方法对本方案的应用进行了测定和评估。评估结果显示,文中提出的方案在非法网页过滤中可以取得很好的过滤效果。 展开更多
关键词 KNN算法 信息过滤 非法网页过滤
下载PDF
防干扰的不良网页过滤算法研究 被引量:3
15
作者 赖勇浩 谢赞福 《计算机工程》 CAS CSCD 北大核心 2007年第11期98-99,共2页
提出了一种通过优化词典匹配判定文本性质的改进算法。通过基于实时分析文本内容来判定文本性质,每秒可分析20万个汉字,实时有效地识别网页上的不良文本。可抗干扰的不良网页过滤器是基于防干扰预处理原理和防误判算法设计开发的,使识别... 提出了一种通过优化词典匹配判定文本性质的改进算法。通过基于实时分析文本内容来判定文本性质,每秒可分析20万个汉字,实时有效地识别网页上的不良文本。可抗干扰的不良网页过滤器是基于防干扰预处理原理和防误判算法设计开发的,使识别率95%以上、误判率降低1%以下,为进一步防堵垃圾信息提供了基础。 展开更多
关键词 网页过滤算法 防至扰预处理 词典匹配算法
下载PDF
基于少量示例的个性化Web信息自动获取系统(英文) 被引量:1
16
作者 张春元 康耀红 雷景生 《郑州大学学报(理学版)》 CAS 2006年第4期44-49,共6页
基于关键词的搜索引擎满足了人们一定的需要,但由于其通用的性质,并不能满足用户的个性化需求,为此,设计并实现了一个基于示例的个性化Web信息自动获取系统.该系统采用了一种新的基于少量Web示例网页和语料库词频统计的特征抽取算法和... 基于关键词的搜索引擎满足了人们一定的需要,但由于其通用的性质,并不能满足用户的个性化需求,为此,设计并实现了一个基于示例的个性化Web信息自动获取系统.该系统采用了一种新的基于少量Web示例网页和语料库词频统计的特征抽取算法和过滤阈值设定方法.实验结果表明,较基于关键词的搜索引擎而言,该系统能充分考虑用户的兴趣偏好(示例),长期、主动地向用户提供更加准确的Web信息获取服务. 展开更多
关键词 个性化web信息获取 web信息过滤 特征抽取 少量web文档示例
下载PDF
基于特征倾向性的网页特征提取方法研究 被引量:3
17
作者 沈凤仙 朱巧明 《计算机工程与设计》 CSCD 北大核心 2009年第16期3894-3896,共3页
网页包含的信息很丰富,传统的TFIDF公式很难满足内容过滤系统的要求。针对网页过滤技术中的特征选择方法存在的问题,加入语义信息,改进TFIDF公式,提出了一种比较适合网页过滤的特征选择方法。该方法综合考虑特征的长度、在网页中的位置... 网页包含的信息很丰富,传统的TFIDF公式很难满足内容过滤系统的要求。针对网页过滤技术中的特征选择方法存在的问题,加入语义信息,改进TFIDF公式,提出了一种比较适合网页过滤的特征选择方法。该方法综合考虑特征的长度、在网页中的位置信息,并且将情感色彩这种语义信息附加到特征上。实验结果表明,该方法在网页过滤系统中取得了较好的效果,尤其是实时内容过滤系统中,具有一定的实用价值。 展开更多
关键词 网页过滤 特征提取 语义倾向 情感分析 中文信息处理
下载PDF
粗糙集理论和DT_SVM在Web信息过滤中的应用 被引量:1
18
作者 衣治安 刘杨 《计算机工程》 CAS CSCD 北大核心 2008年第15期208-210,共3页
针对Web信息过滤问题,提出一种将粗糙集理论和决策树SVM(DT_SVM)相结合进行数据分类、过滤的新方法。该方法运用改进的启发式相对属性约简算法消除冗余、降低样本空间维数,通过聚类和DT_SVM相结合来训练SVM,将多分类问题转化为二值分类... 针对Web信息过滤问题,提出一种将粗糙集理论和决策树SVM(DT_SVM)相结合进行数据分类、过滤的新方法。该方法运用改进的启发式相对属性约简算法消除冗余、降低样本空间维数,通过聚类和DT_SVM相结合来训练SVM,将多分类问题转化为二值分类问题,提高了训练速度及过滤精度。实验表明,该算法得到了较高的查全率、查准率,体现了将粗糙集理论与DT_SVM算法结合的优越性。 展开更多
关键词 web信息过滤 粗糙集理论 DT_SVM算法 属性约简 聚类
下载PDF
改进的Web文本自适应过滤策略 被引量:1
19
作者 沈凤仙 朱巧明 刘粉香 《计算机与现代化》 2010年第9期48-52,共5页
面对实时网络信息过滤的新挑战,自适应信息过滤基本上能够解决问题。针对现有自适应系统的不足,本文提出提高模板准确性的学习和过滤阈值优化的新方法。改进的过滤策略过滤初期采用SVM算法,中后期采用改进的自适应模板过滤法。模板的更... 面对实时网络信息过滤的新挑战,自适应信息过滤基本上能够解决问题。针对现有自适应系统的不足,本文提出提高模板准确性的学习和过滤阈值优化的新方法。改进的过滤策略过滤初期采用SVM算法,中后期采用改进的自适应模板过滤法。模板的更新采用改进的模板系数调整策略,并引入特征衰减因子来提高过滤的准确率。该系统运行于一个校园网关上,取得了较好的结果。 展开更多
关键词 网页过滤 自适应信息过滤 语义倾向
下载PDF
针对爬虫的域名链接过滤算法 被引量:1
20
作者 文阳 陈文宇 +1 位作者 袁野 朱建 《图书情报工作》 CSSCI 北大核心 2014年第20期125-130,共6页
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时... 认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。 展开更多
关键词 网络爬虫 链接过滤 域名过滤 主题过滤
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部