面向DGA域名多分类的深度学习集成模型

A deep learning ensemble model for DGA domain names multi-classification

下载PDF

导出

摘要现代僵尸网络广泛采用域名生成算法(domain generation algorithm,DGA),以生成大量随机域名。通过这些域名,僵尸主机可以与其命令和控制(command and control,C&C)服务器通信,并躲避黑名单和逆向工程等传统防御措施。近年来,基于循环神经网络(recurrent neural network,RNN)的深度学习模型,如长短时记忆(long short-term memory,LSTM)和门控循环单元(gated recurrent unit,GRU),被引入到DGA域名的实时检测中,这些模型只需使用域名,而无需人工的特征提取或附加信息。为了尽可能充分地提取域名序列内部的信息,提出了一种由并行的卷积神经网络(parallel convolutional neural network,PCNN)和含注意力机制的双向GRU(bidirectional GRU,BiGRU)组成的集成模型。与只学习单向时序信息的GRU不同,BiGRU学习双向时序信息。PCNN可以设置不同的卷积核大小,学习域名的局部序列信息。注意力机制用于对域名序列进行加权,学习域名字符组合在域名中的重要程度,挑选出关键的全局时序特征,有效增强捕获关键特征的能力。实验结果表明,提出的集成模型的F1分数最高,为0.9343,次优模型为0.9241,最低的卷积神经网络(convolutional neural network,CNN)模型仅为0.8546。相比单一结构的CNN和LSTM模型,以及结合注意力机制的LSTM模型,集成模型具有更好的多分类效果。 Domain generation algorithms(DGAs)are widely used in modern botnets to generate a large number of domain names through which bots can communicate with their command and control(C&C)servers,and avoid traditional defensive measures such as blacklist and reverse engineering.In recent years,recurrent neural network(RNN)based on deep learning models,such as long short-term memory(LSTM)and gated recurrent unit(GRU),have been introduced to detect DGA domains in real time using only domain names without manual feature extraction or additional information.In order to extract the information inside domain name sequence as far as possible,this paper propose an ensemble model,which consists of the parallel convolutional neural network(PCNN)layer and the BiGRU with attention mechanism layer.BiGRU learns bidirectional time serial information as opposed to unidirectional time serial information learned by GRU.PCNN can set different convolution kernel sizes to learn local sequence information of domain names.The attention mechanism is used to weight the domain name sequence,learn the importance of the domain name character combination in the domain name,select the key global time serial features,and effectively enhance the ability to capture the key features.Experimental results show that the proposed ensemble model achieved highest F 1-scores of 0.9343,while the sub optimal model achieved 0.9241,and the CNN model achieved lowest 0.8546.Compared with CNN and LSTM models with single structure and LSTM model with attention mechanism,the ensemble model has better multi-classification effect.

作者王天宇王春东 WANG Tianyu;WANG Chundong(School of Computer Science and Engineering,Tianjin University of Technology,Tianjing 300384,China)

机构地区天津理工大学计算机科学与工程学院

出处《天津理工大学学报》 2024年第5期94-101,共8页 Journal of Tianjin University of Technology

基金科技助力经济2020重点专项(SQ2020YFF0413781)。

关键词域名生成算法恶意域名检测深度学习注意力机制 domain generation algorithm malicious domain names detection deep learning attention mechanism

分类号 TP309.2 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1刘小洋,刘加苗,刘超,张宜浩.融合字符级滑动窗口和深度残差网络的僵尸网络DGA域名检测方法[J].电子学报,2022,50(1):250-256. 被引量：11
2裴兰珍,赵英俊,王哲,罗赟骞.采用深度学习的DGA域名检测模型比较[J].计算机科学,2019,46(5):111-115. 被引量：17
3杜鹏,丁世飞.基于混合词向量深度学习模型的DGA域名检测方法[J].计算机研究与发展,2020,57(2):433-446. 被引量：21
4应伟志,于青.基于BGRU-CapsNet的情感分析算法研究[J].天津理工大学学报,2021,37(5):7-12. 被引量：2
5王紫音,于青.基于BERT-BiGRU模型的文本分类研究[J].天津理工大学学报,2021,37(4):40-46. 被引量：9

二级参考文献22

1诸葛建伟,韩心慧,周勇林,叶志远,邹维.僵尸网络研究[J].软件学报,2008,19(3):702-715. 被引量：157
2赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：546
3王海龙,龚正虎,侯婕.僵尸网络检测技术研究进展[J].计算机研究与发展,2010,47(12):2037-2048. 被引量：22
4刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：261
5沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.恶意网页识别研究综述[J].计算机学报,2016,39(3):529-542. 被引量：40
6吴冬茵,桂林,陈钊,徐睿峰.基于深度表示学习和高斯过程迁移学习的情感分析方法[J].中文信息学报,2017,31(1):169-176. 被引量：13
7丁世飞,张楠,史忠植.拉普拉斯多层极速学习机[J].软件学报,2017,28(10):2599-2610. 被引量：8
8汪鑫,武杨,卢志刚.基于威胁情报平台的恶意URL检测研究[J].计算机科学,2018,45(3):124-130. 被引量：10
9赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：62
10曾凯,丁世飞.图像超分辨率重建的研究进展[J].计算机工程与应用,2017,53(16):29-35. 被引量：39

共引文献51

1杜淑颖,杜鹏,丁世飞.基于CNN的假冒域名识别方法研究[J].中国科学技术大学学报,2020,50(7):1019-1025. 被引量：3
2赵珂雨,陈婉莹.一种基于stacking集成学习的DGA域名检测方法[J].数据通信,2020(6):19-24.
3赵颖.基于转移学习的小样本数据深度学习研究[J].长江工程职业技术学院学报,2019,36(3):14-17. 被引量：1
4罗海波,陈星池,董建虎.DGA域名检测方法选优方案[J].新一代信息技术,2020,3(8):10-16.
5王志强,李舒豪,池亚平,张健毅.基于深度学习的恶意DGA域名检测[J].计算机工程与设计,2021,42(3):601-606. 被引量：15
6刘伯成,王浩宇,李向军,肖聚鑫,肖楚霁,孔珂.基于Deep-IndRNN的DGA域名检测方法[J].南昌大学学报（理科版）,2020,44(6):598-609. 被引量：2
7张瑞,王晓菲.基于混合深度学习模型的软件漏洞检测方法[J].电脑知识与技术,2021,17(18):72-73. 被引量：1
8顾兆军,杨文瑾,周景贤.基于迁移学习的小样本DGA恶意域名检测方法[J].计算机工程与应用,2021,57(14):103-109. 被引量：4
9罗海波,陈星池,董建虎.基于DGA域名检测方法的选优方案研究[J].新一代信息技术,2021,4(8):36-42.
10陈晓玲,唐丽玉,胡颖,江锋,彭巍,冯先超.基于ALBERT模型的园林植物知识实体与关系抽取方法[J].地球信息科学学报,2021,23(7):1208-1220. 被引量：7

1汪绪先,黄缙华,翟优,李础南,王宇,张宇鹏,张翼鹏,杨立群,李舟军.域名生成算法检测技术综述[J].计算机科学,2024,51(8):371-378.
2王晓东.基于3D打印技术的逆向工程模具设计与制造研究[J].造纸装备及材料,2024,53(8):65-67.
3杨垚,于坤茹,马超,韦贤理,黎玉萍,李星垣,曹小冬.药用氯化钇[^(90)Y]溶液中锶[^(90)Sr]分析方法[J].同位素,2024,37(5):413-418.
4张考,何凯琳,杨沛豪.基于模糊强化学习的电力变压器故障诊断算法研究[J].综合智慧能源,2024,46(10):48-55.
5张家慧,熊镁铃,李佳佳,荣雨乐,邹宇彤,钟琴.基于深度学习的老年人跌倒检测工具研究进展[J].护理研究,2024,38(20):3633-3637.
6蔡家铱,成思源,何金瀚,杨雪荣.一种基于设计意图识别的风力机叶片逆向建模方法[J].机床与液压,2024,52(19):83-88.
7张雯.基于循环经济导向的国有企业成本管理研究[J].中国管理信息化,2024,27(18):35-37.
8彭鹏,万民惠,张领先,陈满,谭启鹏,李勇琦.基于多尺度TCN的锂离子电池RUL预测[J].电池,2024,54(5):649-654.
9董磊,张磊,许帅康,张荣强.古典家具复杂三维曲面数据测量与模型重建研究[J].家具与室内装饰,2024,31(8):65-71.
10王见.逆向工程技术在农业机械设计中的应用[J].河北农机,2024(17):34-36.

天津理工大学学报

2024年第5期

浏览历史

内容加载中请稍等...

面向DGA域名多分类的深度学习集成模型

参考文献5

二级参考文献22

共引文献51

相关作者

相关机构

相关主题

浏览历史