-
题名基于CNN和BiLSTM的钓鱼URL检测技术研究
被引量:6
- 1
-
-
作者
卜佑军
张桥
陈博
张稣荣
王方玉
-
机构
中国人民解放军战略支援部队信息工程大学
郑州大学中原网络安全研究院
-
出处
《郑州大学学报(工学版)》
CAS
北大核心
2021年第6期14-20,共7页
-
基金
国家重点研发计划项目(2017YFB0803201)
国家自然科学基金资助项目(61572519)。
-
文摘
为了解决日益严峻的网络钓鱼问题,提出一种基于卷积神经网络(CNN)和双向长短记忆网络(BiLSTM)的钓鱼URL检测方法CNN-BiLSTM。该方法首先基于敏感词分词的方法对URL分词,根据特殊字符和敏感词对URL进行单词级别划分,对其中的非敏感词进行字符级别划分,以获取特殊字符和敏感词的有效信息,提升利用URL数据信息的程度;然后将分词后的URL输入到CNN和BiLSTM中,通过CNN获取URL的空间局部特征,通过BiLSTM获取URL的双向长距离依赖特征,基于自动提取的特征检测钓鱼网页。实验结果表明:基于CNN和BiLSTM的钓鱼URL检测方法能够达到较好的检测效果,其准确率达到了98.84%,精确率达到了99.71%,召回率达到了98.04%,F1值达到了98.86%。此方法相对于传统的机器学习和黑名单检测方法,无须人工提取特征且能识别新出现的钓鱼网页。
-
关键词
钓鱼url
url分词
卷积神经网络
双向长短记忆网络
-
Keywords
phishing url
url segmentation
CNN
BiLSTM
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于MPAN的钓鱼URL检测方法
被引量:3
- 2
-
-
作者
张桥
卜佑军
陈博
曹东伟
张稣荣
-
机构
郑州大学中原网络安全研究院
信息工程大学
-
出处
《信息工程大学学报》
2021年第4期443-449,共7页
-
基金
国家重点研发计划资助项目(2017YFB0803201,2017YFB0803204,2016YFB0801200)
国家自然科学基金资助项目(61572519,61802429,61521003)
+1 种基金
上海市科学技术委员会科研计划项目(16DZ1120503)
中国博士后基金资助项目(44595)。
-
文摘
为解决日益严峻的网络钓鱼问题,提出一种基于消息传递注意力网络(Message Passing Attention Network,MPAN)的钓鱼URL检测方法。此方法相对于传统的机器学习和黑名单检测方法,无需人工提取特征且能识别新出现的钓鱼网页。首先基于敏感词分词的方法对URL分词,以提升利用URL数据信息的程度。然后通过MPAN获取URL中长距离、非连续的单词交互信息,基于自动提取的特征检测钓鱼网页。实验结果表明,基于MPAN的钓鱼网页检测方法能够达到较高的准确率、召回率、F1值。
-
关键词
消息传递注意力网络
钓鱼url
机器学习
黑名单
url分词
-
Keywords
message passing attention network
phish url
machine learning
blacklist
url segmentation
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名一种轻量级中文搜索引擎模型的设计与实现
- 3
-
-
作者
黄宇达
魏霞
王迤冉
-
机构
西南科技大学计算机科学与技术学院
周口职业技术学院信息工程系
周口师范学院计算机科学与技术学院
-
出处
《计算机技术与发展》
2012年第9期201-204,209,共5页
-
基金
河南省科技基础与前沿技术研究计划项目(112300410307)
-
文摘
首先详细介绍了一种建构在PC Windows平台上的轻量级中文搜索引擎系统模型的总体设计,然后采用基于多线程技术的广度优先遍历法及最大匹配法和最小匹配法相结合的中文分词法等技术进行了各个主要功能模块的具体设计和实现,对模型进行了基于多线程的网络爬虫、用户接口等测试。测试实验结果表明:构建并实现的轻量级中文搜索引擎系统模型能较好地实现一个简单中文搜索引擎所具有的基本功能,系统界面简单实用,具有较高的资源检索率并能够保证检索结果的准确性。
-
关键词
网络爬虫
url库
中文分词
倒排文件索引
多线程
-
Keywords
Web crawler
url library
Chinese word segmentation
inverted file index
multi-threaded
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-