-
题名基于注意力机制和集成学习的网页黑名单判别方法
被引量:2
- 1
-
-
作者
周超然
赵建平
马太
周欣
-
机构
长春理工大学计算机科学技术学院
-
出处
《计算机应用》
CSCD
北大核心
2021年第1期133-138,共6页
-
基金
吉林省科技发展计划项目(20190303133SF)
吉林省教育厅“十三五”科学技术项目(JJKH20200796KJ)。
-
文摘
搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,得到的返回列表往往包含广告和失效网页等噪声信息,而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,提出了一种基于注意力机制和集成学习的网页黑名单判别方法,并采用本方法构建了一种基于集成学习和注意力机制的卷积神经网络(EACNN)模型来过滤无用的网页。首先,根据网页上不同种类的HTML标签数据,构建多个基于注意力机制的卷积神经网络(CNN)基学习器;然后,采用基于网页结构特征的集成学习方法对不同基学习器的输出结果执行不同的权重计算,从而实现EACNN的构建;最后,将EACNN的输出结果作为网页内容分析结果,从而实现网页黑名单的判别。所提方法通过注意力机制来关注网页语义信息,并通过集成学习的方式引入网页结构特征。实验结果表明,与支持向量机(SVM)、K近邻(KNN)、CNN、长短期记忆(LSTM)网络、GRU、结合注意力机制的卷积神经网络(ACNN)等基线模型相比,所提模型在所构建的面向地理信息领域的判别数据集上具有最高的准确率(0.97)、召回率(0.95)和F1分值(0.96),验证了EACNN在网页黑名单判别工作中的优势。
-
关键词
网页黑名单
判别模型
网页结构特征
语义信息
注意力机制
集成学习
深度学习
-
Keywords
web page blacklist
discrimination model
web structural feature
semantic information
attention mechanism
ensemble learning
deep learning
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-