基于变分自编码器的不平衡样本异常流量检测被引量：5

Detection of Abnormal Flow of Imbalanced Samples Based on Variational Autoencoder

下载PDF

导出

摘要随着机器学习技术的快速发展,越来越多的机器学习算法被用于攻击流量的检测与分析,然而攻击流量往往只占网络流量中极小的一部分,在训练机器学习模型时存在训练集正负样本不平衡的问题,从而影响模型训练效果。针对不平衡样本问题,文中提出了一种基于变分自编码器的不平衡样本生成方法,其核心思想是在对少数样本进行扩充时,不是对全部进行扩充,而是分析这些少数样本,对其中最容易对机器学习产生混淆效果的少数边界样本进行扩充。首先,利用KNN算法筛选出少数类样本中与多数类样本最近的样本;其次,使用DBSCAN算法对KNN算法筛选出的部分样本进行聚类处理,生成一个或多个子簇;然后,设计变分自编码网络模型,对DBSCAN算法区分出的一个或多个子簇中的少数类样本进行学习扩充,并将扩充后的样本加入原有样本中用于构建新的训练集;最后,利用新构建的训练集来训练决策树分类器,从而实现异常流量的检测。选择召回率和F1分数作为评价指标,分别以原始样本、SMOTE生成样本、SMOTE改进方法生成样本和文中所提方法生成样本为训练集进行对比实验。实验结果表明,在4种异常类型中,采用所提算法构造训练集训练的决策树分类器在召回率和F1分数上都有提升,F1分数相比原始样本及SMOTE方法最高提升了20.9%。 With the rapid development of machine learning technology,more and more machine learning algorithms are used to detect and analyze attack traffic.However,attack traffic often accounts for a very small portion of network traffic.When training machine learning models,there is often a problem of imbalance between the positive and negative samples of the training set,which affects model training effect.Aiming at the problem of imbalanced samples,an imbalanced sample generation method based on variational auto-encoder is proposed.The idea is that when expanding imbalanced samples,not all of them are expanded.But imbalanced samples are analyzed,and a small number of boundary samples that are most likely to have confusion effects on machine learning are expanded.First,the KNN algorithm is used to screen the samples that are closest to the majority of samples;second,DBSCAN algorithm is used to cluster the partial samples selected by the KNN algorithm to generate one or more sub-clusters;then,a VAE network model is designed to learn and expand the few samples in one or more sub-clusters distinguished by the DBSCAN algorithm.The expanded samples are added to the original samples to build a new training set;finally,the newly constructed training set is used to train decision tree classifier to detect abnormal traffic.The recall rate and F1 score are selected as the evaluation indicators.The original sample,the SMOTE-generated sample and our sample are compared.The experimental results show that the decision tree classifier trained using the proposed method in this paper has improved the recall rate and F1 score among the four types of anomalies.The F1 score is up to 20.9%,which is higher than the original sample and the SMOTE method.

作者张仁杰陈伟杭梦鑫吴礼发 ZHANG Ren-jie;CHEN Wei;HANG Meng-xin;WU Li-fa(School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

机构地区南京邮电大学计算机学院、软件学院、网络空间安全学院

出处《计算机科学》 CSCD 北大核心 2021年第7期62-69,共8页 Computer Science

基金国家重点研发计划(2019YFB2101704)。

关键词异常流量过采样变分自编码器不平衡样本 KNN DBSCAN Abnormal flow Oversampling Variational auto-encoder Imbalanced sample KNN DBSCAN

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,41(1):48-59. 被引量：385
2张玉清,董颖,柳彩云,雷柯楠,孙鸿宇.深度学习应用于网络空间安全的现状、趋势与展望[J].计算机研究与发展,2018,55(6):1117-1142. 被引量：69
3张玉清,周威,彭安妮.物联网安全综述[J].计算机研究与发展,2017,54(10):2130-2143. 被引量：118
4莫赞,盖彦蓉,樊冠龙.基于GAN-AdaBoost-DT不平衡分类算法的信用卡欺诈分类[J].计算机应用,2019,39(2):618-622. 被引量：24
5曾旭禹,杨燕,王淑营,何太军,陈剑波.一种基于深度学习的混合推荐算法[J].计算机科学,2019,46(1):126-130. 被引量：17
6康松林,樊晓平,刘乐,李宏,李明娟.ENN-ADASYN-SVM算法检测P2P僵尸网络的研究[J].小型微型计算机系统,2016,37(2):216-220. 被引量：7
7马红强,马时平,许悦雷,吕超,辛鹏,朱明明.基于改进栈式稀疏去噪自编码器的图像去噪[J].计算机工程与应用,2018,54(4):199-204. 被引量：17
8翟正利,梁振明,周炜,孙霞.变分自编码器模型综述[J].计算机工程与应用,2019,55(3):1-9. 被引量：67
9史加荣,马媛媛.深度学习的研究进展与发展[J].计算机工程与应用,2018,54(10):1-10. 被引量：49

二级参考文献105

1杨博,赵鹏飞.推荐算法综述[J].山西大学学报（自然科学版）,2011,34(3):337-350. 被引量：87
2钟诚,杨锋,陈国良.基于概率模糊认知图的混合入侵检测方法[J].小型微型计算机系统,2006,27(5):783-787. 被引量：3
3KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Imagenet classification with deep convolutional neural networks[C]∥Advances in Neural Information Processing Systems.Red Hook,NY:Curran Associates,2012:1097-1105. 被引量：1
4DAHL G E,YU D,DENG L,et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J].Audio,Speech,and Language Processing,IEEE Transactions on,2012,20(1):30-42. 被引量：1
5ZEN H,SENIOR A,SCHUSTER M.Statistical parametric speech synthesis using deep neural networks[C]∥Acoustics,Speech and Signal Processing(ICASSP),20131EEE International Conference on.Piscataway,NJ:IEEE,2013:7962-7966. 被引量：1
6BAHDANAU D,CHO K,BENGIO Y.Neural machine translation by jointly learning to align and translate[J].CoRR,2014:abs/1409.0473. 被引量：1
7ZEILER M D,FERGUS R.Visualizing and understanding convolutional neural networks[J].CoRR,2013:abs/1311.2901. 被引量：1
8SERMANET P,EIGEN D,ZHANG X,et al.Overfeat:integrated recognition,localization and detection using convolutional networks[J].CoRR,2013:abs/1312.6229. 被引量：1
9RUSSAKOVSKY O,DENG J,SU H,et al.Image Net large scale visual recognition challenge[J].CoRR,2014:abs/1409.0575. 被引量：1
10LIN M,CHEN Q,YAN S.Network in network[J].CoRR,2013:abs/1312.4400. 被引量：1

共引文献736

1崔文泉,余厚莹,侯晓天.不均衡数据情形的基于聚焦损失的CGAN的集成分类方法[J].中国科学技术大学学报,2020,50(7):968-976.
2张钊光,蒋庆磊,詹瑜滨,侯修群,郑英,崔运佳.基于VAE-GAN数据增强算法的小样本滚动轴承故障分类方法[J].原子能科学技术,2023,57(S01):228-237. 被引量：3
3严晓明.卷积优化的变分自编码聚类方法[J].计算机系统应用,2020(10):222-227.
4严嘉钰,贝世之,章乐.基于VAE-GAN算法的信用卡欺诈检测模型[J].北京电子科技学院学报,2022,30(4):70-81.
5李本岳,李伟荣,潘华峰,王宏,王奇.人工智能对中医诊断的影响[J].世界科学技术-中医药现代化,2020,22(5):1624-1628. 被引量：23
6张格,林岚,吴水才.脑群体图中图卷积神经网络应用研究综述[J].生命科学仪器,2021,19(4):23-30. 被引量：2
7高嵩.深度学习在机场能见度预测中的应用[J].计算机产品与流通,2020,0(4):260-260. 被引量：2
8王昱兴,袁博.从大数据杀熟到隐私泄露:软硬件视角下隐私问题的伦理分析与思考[J].科学．经济．社会,2021,39(3):72-81. 被引量：6
9贾雪芳,李润玮.深度学习与人工智能[J].内江科技,2020(6):78-78.
10张超群,韦川源,梁刚,黑小龙,朱旭东.基于深度学习技术的恶意攻击的分析与识别[J].计算机应用研究,2020,37(S01):283-286. 被引量：6

同被引文献41

1程华利,樊可清.异音检测的机器学习方法及其在电机质检中的应用[J].测控技术,2015,34(4):55-58. 被引量：6
2夏栋梁,刘玉坤,鲁书喜.基于蚁群算法和改进SSO的混合网络入侵检测方法[J].重庆邮电大学学报（自然科学版）,2016,28(3):406-413. 被引量：10
3郝洪涛,倪凡凡,丁文捷.基于声音信号的托辊故障诊断方法[J].噪声与振动控制,2019,39(3):187-192. 被引量：17
4韩威,李昌,周松斌,刘伟鑫,邱泽帆.基于NMF的罐装食品真空度声学检测方法[J].自动化与信息工程,2019,40(2):1-4. 被引量：1
5韩威,周松斌,刘忆森,李昌,刘伟鑫.基于麦克风阵列的罐装食品真空度在线检测[J].中国测试,2019,45(7):128-133. 被引量：2
6胡碧辉,邹晨阳,陈芳.岩质边坡地表变形监测数据处理与时效变形分析[J].水利规划与设计,2019,0(10):113-115. 被引量：9
7李少波,姚勇,桂桂,李想,胡建军.基于CNN与多通道声学信号的齿轮故障诊断[J].中国测试,2019,45(10):1-5. 被引量：12
8高忠石,苏旸,柳玉东.基于PCA-LSTM的入侵检测研究[J].计算机科学,2019,46(S11):473-476. 被引量：23
9李小剑,谢晓尧,徐洋.网络流量异常检测方法:SSAE-IWELM-AdaBoost[J].武汉大学学报（理学版）,2020,66(2):126-134. 被引量：9
10刘辉.基于主成分分析和多层感知机神经网络的入侵检测方法研究[J].软件工程,2020,23(7):10-12. 被引量：7

引证文献5

1邹彤彤,杨涛,周勇,王仲平,余来斌,王东凯,肖荣,出晓娟.基于KNN算法的隧道地表变形监测数据异常检测分析[J].科学技术创新,2021(28):95-97. 被引量：6
2汪祖民,王冬昊,梁霞,邹启杰,秦静,高兵.基于DBSCAN_GAN_XGBoost的网络入侵检测方法[J].郑州大学学报（工学版）,2022,43(3):44-51. 被引量：17
3李辉,李文根,关佶红.双编码半监督异常检测模型[J].计算机科学,2023,50(7):53-59. 被引量：1
4张翼英,王德龙,渠慧颖,张傲,张磊.面向不平衡数据和特征冗余的网络入侵检测[J].天津科技大学学报,2023,38(5):57-63. 被引量：1
5韩威,熊志金,王子豪.基于DSP的声学检测系统设计[J].机电工程技术,2024,53(11):207-210.

二级引证文献25

1郑国勋,姚学坤,陈冠澎,胥政尧.长白山生态数据爬取及清洗研究[J].长春工程学院学报（自然科学版）,2021,22(4):82-86.
2吴德阳,都劲松.基于机器学习的船舶柴油机异常点检测技术研究[J].内燃机与配件,2022(8):81-85.
3张婷暄,邓久宁,汪洁,孙怀宇.基于主成分分析与K近邻分类算法的化工干燥分类模型[J].辽宁化工,2022,51(5):696-699. 被引量：2
4张玉良,王艳兵.基于分层聚合的通信信息冗余数据检测方法[J].上海电机学院学报,2022,25(3):182-186.
5张小峰.基于机器学习的恶意程序检测系统设计[J].信息与电脑,2022,34(11):115-117. 被引量：1
6李天博,任昊,董德勇.基于IGWO-SVM的基桩缺陷分类识别[J].软件导刊,2022,21(10):84-90. 被引量：1
7张海霞.基于网络爬虫技术的校园网入侵信息跟踪研究[J].三门峡职业技术学院学报,2022,21(4):135-140. 被引量：2
8唐一丁.基于数据挖掘的通信网络入侵信号检测方法[J].通信电源技术,2023,40(2):194-196.
9李安娜,宗学军,何戡,连莲.基于残差网络和深度学习的入侵检测方法研究[J].网络安全与数据治理,2023,42(3):1-7. 被引量：2
10张翼英,王德龙,渠慧颖,张傲,张磊.面向不平衡数据和特征冗余的网络入侵检测[J].天津科技大学学报,2023,38(5):57-63. 被引量：1

1杨甜甜,郭大波,孙佳.基于多残差网络的遥感图像语义分割方法[J].测试技术学报,2021,35(3):245-252. 被引量：1
2卢利琼,吴东.一种利用KNN实现手写数字识别的方法[J].现代信息科技,2021,5(4):97-99.
3彭雨荷,陈翔,陈双武,杨坚.基于迁移学习的跨域异常流量检测[J].北京邮电大学学报,2021,44(2):33-39. 被引量：4
4曾宏志,史洪松.半监督技术和主动学习相结合的网络入侵检测方法[J].吉林大学学报（理学版）,2021,59(4):936-942. 被引量：15
5蒋明峰,支明豪,李杨,李铁强,张鞠成.基于自注意力机制生成对抗网络的超分辨率磁共振图像重建[J].中国科学：信息科学,2021,51(6):959-970. 被引量：5
6鞠默然,罗海波,刘广琦,刘云鹏.采用空间注意力机制的红外弱小目标检测网络[J].光学精密工程,2021,29(4):843-853. 被引量：36
7王杉杉,杜飞.基于子域上下文关系的DNS隐蔽信道检测方法[J].计算机科学与应用,2021,11(6):1823-1833.
8徐少伟,秦品乐,曾建朝,赵致楷,高媛,王丽芳.基于多级特征和全局上下文的纵膈淋巴结分割算法[J].计算机科学,2021,48(S01):95-100.
9陈晓艳,任玉蒙,张东洋,洪耿,许能华,闫潇宁.基于YOLOv3的轻量化高精度多目标检测模型[J].天津科技大学学报,2021,36(3):33-38. 被引量：6
10李娜娜,王勇,周林,邹春明,田英杰,郭乃网.基于特征重要度二次筛选的DDoS攻击随机森林检测方法[J].计算机科学,2021,48(S01):464-467. 被引量：6

计算机科学

2021年第7期

浏览历史

内容加载中请稍等...

基于变分自编码器的不平衡样本异常流量检测被引量：5

参考文献9

二级参考文献105

共引文献736

同被引文献41

引证文献5

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于变分自编码器的不平衡样本异常流量检测 被引量：5

参考文献9

二级参考文献105

共引文献736

同被引文献41

引证文献5

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于变分自编码器的不平衡样本异常流量检测被引量：5