期刊文献+
共找到109篇文章
< 1 2 6 >
每页显示 20 50 100
Web网页识别中的特征选择问题研究 被引量:29
1
作者 朱明 王军 王俊普 《计算机工程》 CAS CSCD 北大核心 2000年第8期35-37,共3页
对Web网页识别中有关特征选择的两个重要问题进行了较为深入的探讨.提出了一种新的描述特征选择方法,并将其与3种已有的描述特征选择方法进行实验比较,证实其有效性;此外还对5种在文本归类中,具有代表性的识别特征选择方法在... 对Web网页识别中有关特征选择的两个重要问题进行了较为深入的探讨.提出了一种新的描述特征选择方法,并将其与3种已有的描述特征选择方法进行实验比较,证实其有效性;此外还对5种在文本归类中,具有代表性的识别特征选择方法在Web网页识别中的实际应用效果进行了评估比较,并发现信息增益和统计方法,选择识别特征效果最佳. 展开更多
关键词 特征选择 网页分类 机器学习 web 网页识别
下载PDF
基于决策支持向量机的中文网页分类器 被引量:19
2
作者 贺海军 王建芬 +1 位作者 周青 曹元大 《计算机工程》 CAS CSCD 北大核心 2003年第2期47-48,共2页
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减... 提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 决策 支持向量机 中文网页分类器 决策树 统计学习理论
下载PDF
恶意网页识别研究综述 被引量:40
3
作者 沙泓州 刘庆云 +3 位作者 柳厅文 周舟 郭莉 方滨兴 《计算机学报》 EI CSCD 北大核心 2016年第3期529-542,共14页
近年来,随着互联网的迅速发展以及网络业务的不断增长,恶意网页给人们的个人隐私和财产安全造成的威胁日趋严重.恶意网页识别技术作为抵御网络攻击的核心安全技术,可以帮助人们有效避免恶意网页引起的安全威胁,确保网络安全.文中从理论... 近年来,随着互联网的迅速发展以及网络业务的不断增长,恶意网页给人们的个人隐私和财产安全造成的威胁日趋严重.恶意网页识别技术作为抵御网络攻击的核心安全技术,可以帮助人们有效避免恶意网页引起的安全威胁,确保网络安全.文中从理论分析和方法设计两方面介绍了恶意网页识别的最新研究成果.在理论分析层面,从恶意网页的基本概念和形式化定义出发,对恶意网页识别的应用场景、基本框架及评价方法进行全面的归纳,并总结了恶意网页识别的理论依据及性能评价指标.在方法设计层面,对具有影响力的恶意网页识别方法进行了介绍和归类,对不同类别的识别方法进行了定性分析和横向比较.在总结恶意网页识别研究现状的基础上,从客观环境的变化以及逃逸技术的升级两方面深入探讨了当前恶意网页识别面临的技术挑战.最后总结并展望了恶意网页识别的未来发展方向. 展开更多
关键词 恶意网页识别 网页分类 机器学习 逃逸技术
下载PDF
基于SVM的中文网页分类方法的研究 被引量:22
4
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机工程与设计》 CSCD 北大核心 2007年第8期1893-1895,共3页
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取... 中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 支持向量机 特征提取 核函数 网页 文本分类
下载PDF
基于支持向量机的中文网页自动分类 被引量:12
5
作者 贾泂 梁久祯 《计算机工程》 EI CAS CSCD 北大核心 2005年第10期145-147,共3页
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向量机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。
关键词 支持向量机 统计学习 优化 网页 文本分类
下载PDF
中文网页分类的研究与实现 被引量:13
6
作者 程传鹏 《中原工学院学报》 CAS 2007年第1期61-64,共4页
描述了一个完整的中文网页分类系统的设计和实现过程,重点介绍了网页分类中的网页净化、特征加权、KNN分类等关键技术.并结合网页的特征,对分类中的特征加权公式进行了一定的改进.实验结果表明改进后的特征加权公式取得了较高的分类准确率.
关键词 网页分类 网页净化 特征加权 KNN分类
下载PDF
一种基于节点密度分割和标签传播的Web页面挖掘方法 被引量:13
7
作者 张乃洲 曹薇 李石君 《计算机学报》 EI CSCD 北大核心 2015年第2期349-364,共16页
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中... 获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 展开更多
关键词 页面分割 节点密度 标签传播 DOM树 块分类 社会计算 社交网络
下载PDF
网页分类浏览器CBrowser的设计与实现 被引量:2
8
作者 傅赛香 严小卫 《计算机应用》 CSCD 北大核心 2001年第12期8-10,共3页
目前的浏览器只起着一种解释和显示网页的作用 ,难以适应各种各样的网络信息服务。从浏览器的自动化和智能化出发 ,设计并实现了一个具有网页自动分类功能的浏览器。
关键词 WWW 网页分类浏览器 CBrowser 设计 计算机网络
下载PDF
基于图的Co-Training网页分类 被引量:9
9
作者 侯翠琴 焦李成 《电子学报》 EI CAS CSCD 北大核心 2009年第10期2173-2180,2219,共9页
本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了... 本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越. 展开更多
关键词 半监督 CO-TRAINING 归纳式 网页分类
下载PDF
基于分块的网页主题信息自动提取算法 被引量:6
10
作者 殷贤亮 李猛 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第10期39-41,共3页
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用... 对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率. 展开更多
关键词 网页分块 主题信息 自动提取 特征选择 网页分类
下载PDF
可分性判据在中文网页分类中的应用 被引量:5
11
作者 秦兵 郑实福 +2 位作者 刘挺 张刚 李生 《微处理机》 2002年第1期26-28,共3页
提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度... 提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法、贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化,因而具有较高的分类精确率和召回率。 展开更多
关键词 可分性判据 贝叶斯方法 文本概率模型 中文网页分类 计算机网络
下载PDF
基于提取网站层次结构的网页分类方法 被引量:4
12
作者 邓健爽 郑启伦 彭宏 《计算机应用》 CSCD 北大核心 2006年第5期1134-1136,共3页
网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构... 网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法,提取网站隐含的层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的,并且已经成功应用到电子商务智能搜索和挖掘系统中。 展开更多
关键词 网页分类 网站层次结构 URL聚类
下载PDF
基于语义关联树的分类查询扩展算法 被引量:4
13
作者 任永功 范丹 武佳林 《计算机科学》 CSCD 北大核心 2009年第9期238-241,277,共5页
查询扩展技术中引入语义计算是一个重要的研究方向。针对现有解决方法普遍存在缺少主题知识、引入无关词以及筛选函数不恰当的问题,提出了一种结合主题选取与局部反馈方法的语义关联树模型,从语义的角度进行分类查询扩展。在传统方法基... 查询扩展技术中引入语义计算是一个重要的研究方向。针对现有解决方法普遍存在缺少主题知识、引入无关词以及筛选函数不恰当的问题,提出了一种结合主题选取与局部反馈方法的语义关联树模型,从语义的角度进行分类查询扩展。在传统方法基础上结合Web文本分类语料库进行了有主题的分类扩展,并改进了扩展词筛选函数,增加了阈值限定,有效控制了噪音。结合用户交互与局部反馈的方法不但减少了传统相关反馈中用户的工作量而且弥补了单纯局部反馈高度依赖于初次检索结果的缺陷。在SMART平台的实验结果表明,该方法相比一般的查询扩展算法查全率及查准率均有所提高。 展开更多
关键词 语义关联树 主题选取 查询扩展 web文本分类
下载PDF
基于支持向量机的搜索引擎垃圾网页检测研究 被引量:5
14
作者 贾志洋 李伟伟 +1 位作者 高炜 夏幼明 《云南民族大学学报(自然科学版)》 CAS 2011年第3期173-176,共4页
搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以... 搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以网页的内容特征作为支持向量,根据网页之间的链接具有相似性的特点定义了惩罚函数,使用样本集学习,得出了线性支持向量机网页分类器,并对分类器的分类效果进行了测试.实验结果表明基于支持向量机的分类器的效果明显好于使用内容特征构建的决策树分类器. 展开更多
关键词 垃圾网页 垃圾网页检测 机器学习 网页分类 支持向量机
下载PDF
任意网页的主题信息抽取研究 被引量:6
15
作者 张儒清 郭岩 +2 位作者 刘悦 俞晓明 程学旗 《中文信息学报》 CSCD 北大核心 2017年第5期127-137,共11页
目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自... 目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自动抽取"四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合。实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架。 展开更多
关键词 任意网页 主题信息 网页分类 实用价值
下载PDF
基于改进K最近邻分类算法的不良网页并行识别 被引量:6
16
作者 徐雅斌 李卓 陈俊伊 《计算机应用》 CSCD 北大核心 2013年第12期3368-3371,3379,共5页
互联网中,黄色、暴力、赌博、反动等不良网页大量存在。如果不进行有效过滤,将给搜索服务带来不良的影响。采用改进的K最近邻分类算法来提高识别的准确率,并在虚拟化平台上通过开源的Hadoop软件所提供的MapReduce模型进行分布式并行处... 互联网中,黄色、暴力、赌博、反动等不良网页大量存在。如果不进行有效过滤,将给搜索服务带来不良的影响。采用改进的K最近邻分类算法来提高识别的准确率,并在虚拟化平台上通过开源的Hadoop软件所提供的MapReduce模型进行分布式并行处理。对比实验结果表明,所采用的识别方法的识别准确率和识别效率都有较大的提高。 展开更多
关键词 不良网页 文本分类 K最近邻分类算法 HADOOP MAPREDUCE
下载PDF
基于BERT的黑灰产网页分类方法研究
17
作者 李春霞 崔艳海 +1 位作者 彭艳兵 周天河 《中国科技纵横》 2024年第11期18-20,共3页
本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表... 本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表明,该方法在分类准确度方面明显优于传统机器学习算法和独立的BERT模型。 展开更多
关键词 网页分类 BERT 数据不平衡 深度学习
下载PDF
基于结构和文本特征的网页分类技术研究 被引量:5
18
作者 顾敏 郭庆 +4 位作者 曹野 朱峰 顾彦慧 周俊生 曲维光 《中国科学技术大学学报》 CAS CSCD 北大核心 2017年第4期290-296,共7页
Web网页中含有丰富的信息资源,通过网页分类可以更好地对其内容进行抽取和管理,方便用户阅读.针对网页复杂的结构信息和丰富的文本内容,提出了一种基于网页文本和结构的网页分类方法,利用众创相关网页的结构特点和文本信息,选择联合特... Web网页中含有丰富的信息资源,通过网页分类可以更好地对其内容进行抽取和管理,方便用户阅读.针对网页复杂的结构信息和丰富的文本内容,提出了一种基于网页文本和结构的网页分类方法,利用众创相关网页的结构特点和文本信息,选择联合特征和原子特征相结合的方法进行分类.实验表明,这种方法有一定的可行性,且比单一使用文本信息进行分类的方法具有更高的正确率和召回率. 展开更多
关键词 网页分类 朴素贝叶斯 原子特征 联合特征
下载PDF
基于文字链接比的网页分类的研究 被引量:1
19
作者 高波 张忠能 查志琴 《计算机工程与应用》 CSCD 北大核心 2004年第27期151-153,共3页
对于Web内容挖掘来说,对挖掘对象进行初步的识别是非常重要的,首先必须把含有具体内容的网页识别出来,才能进一步进行有效的分析。论文提出了链接比的概念,以此来分析网页的特征,然后进行有监督的学习,从而导出相关的规则,再用该规则对... 对于Web内容挖掘来说,对挖掘对象进行初步的识别是非常重要的,首先必须把含有具体内容的网页识别出来,才能进一步进行有效的分析。论文提出了链接比的概念,以此来分析网页的特征,然后进行有监督的学习,从而导出相关的规则,再用该规则对新的网页进行分类。 展开更多
关键词 Hub网页 内容网页 链接比 网页分类
下载PDF
一种改进的页面相似性度量方法 被引量:4
20
作者 张霞 王建东 顾海花 《计算机工程与应用》 CSCD 北大核心 2010年第19期141-144,147,共5页
Web信息检索是指从大量Web文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。为了更准确地找到相似文档,借助于两个页面的单词覆盖程度,提出一种改进的Web页面检索度量方法,并在KNN分类实验中得到验证。
关键词 web页面检索 相似性 文本分类
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部