基于机器学习的恶意软件检测研究进展及挑战被引量：3

Research progress and challenges of malware detection method based on machine learning

下载PDF

导出

摘要由于恶意软件的数量日渐庞大,攻击手段不断更新,结合机器学习技术是恶意软件检测发展的一个新方向。先简要介绍恶意软件检测中的静态检测方法以及动态检测方法,总结基于机器学习的恶意软件检测一般流程,回顾了研究进展。通过使用Ember 2017和Ember 2018数据集,分析验证了结构化特征相关方法,包括随机森林(Random Forest,RF)、LightGBM、支持向量机(Support Vector Machine,SVM)、K-means以及卷积神经网络(Convolutional Neural Network,CNN)等算法模型;使用收集的2019年样本集分析验证了序列化特征相关方法,包括几种常见的深度学习算法模型。计算模型以在不同测试集上的准确率、精确率、召回率以及F1-值作为评估指标。根据实验结果分析讨论了各类方法的优缺点,着重验证分析了树模型的泛化能力,表明随着样本的不断演变,模型普遍存在退化问题,并指出进一步研究方向。 Due to the increasing number of malware and the updated attack means,malware detection combined with machine learning technology is a new direction of its development.Firstly,this paper introduces the static detecting methods and dynamic detecting methods of malware briefly;summarizes the general process of malware detecting methods based on machine learning,and reviews the existing methods with research progress.Using the data sets of Ember 2017 and Ember 2018,the structural feature correlation methods,including RF(Random Forest),LightGBM,SVM(Support Vector Machine),K-means and CNN(Convolutional Neural Network),are analyzed and validated,and the 2019 sample set analysis is used to validate the serialization feature correlation method,including several common deep learning algorithm models.The accuracy,precision,recall and F1_score of the trained model on different testing data sets are calculated as evaluating metrics.According to the experimental results,the advantages and disadvantages of various methods are discussed in this paper,the generalization ability of the tree model is verified and analyzed emphatically.It is shown that the model generally has degradation problem with the continuous evolution of samples,and the further research direction is pointed out at last.

作者景鸿理黄娜李建国 Jing Hongli;Huang Na;Li Jianguo(Beijing Topsec Science&Technology Inc.,Beijing 100085,China;Beijing University of Technology,Beijing 100124,China)

机构地区北京天融信科技有限公司北京工业大学

出处《信息技术与网络安全》 2020年第11期38-44,68,共8页 Information Technology and Network Security

关键词恶意软件检测静态检测机器学习 LightGBM 随机森林 malware detection static detection of malware machine learning LightGBM random forest

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1史晓红,张艳宜.机器学习应用于恶意代码检测的研究[J].科技通报,2013,29(10):21-23. 被引量：2
2张玉玲,尹传环.基于SVM的安卓恶意软件检测[J].山东大学学报（工学版）,2017,47(1):42-47. 被引量：4
3毛蔚轩,蔡忠闽,童力.一种基于主动学习的恶意代码检测方法[J].软件学报,2017,28(2):384-397. 被引量：27
4杨宏宇,徐晋.基于改进随机森林算法的Android恶意软件检测[J].通信学报,2017,38(4):8-16. 被引量：40
5张莹..基于网络行为特征聚类分析的恶意代码检测技术研究[D].哈尔滨工程大学,2018:
6王蕊,冯登国,杨轶,苏璞睿.基于语义的恶意代码行为特征提取及检测方法[J].软件学报,2012,23(2):378-393. 被引量：74
7李涛.基于SVM的恶意PDF检测研究[J].现代计算机（中旬刊）,2018(3):117-120. 被引量：2
8赵中军,曾涌泉,王运兵.基于优化K-means的Android系统恶意软件检测的研究与设计[J].通信技术,2018,51(12):2992-2998. 被引量：1
9翟红玉.基于SVM的网络恶意程序检测方法研究[J].网络安全技术与应用,2015(12):77-78. 被引量：1
10李鹏,王汝传,武宁.基于空间关系特征的未知恶意代码自动检测技术研究[J].计算机研究与发展,2012,49(5):949-957. 被引量：5

二级参考文献24

1李勇,左志宏.目标代码混淆技术综述[J].计算机技术与发展,2007,17(4):125-127. 被引量：10
2Provos N, McNamee D,Mavrommatis P, Wang K andModadugu N. The Ghost in the Browser: Analysis ofWeb.based Malware. [C]//In Proceedings of the 2007Workshop on Hot Topics in Understanding Botnets (Hot-Bots). 被引量：1
3Qattan F, Themelius F. Deficiencies in Current SoftwareProtection Mechanisms and Alternatives for SecuringComputer Integrity [DJ.Master thesis, Department of Com-puter and Systems Sciences Stockholm University 一 RoyalInstitute of Technology. 被引量：1
4D Lee and M Yannakakis.Principles and Methods of Test-ing Finite State Machines - A survey,[C]//Proc. IEEE,1996:1090- 1123. 被引量：1
5D Angluin.Leaming Regular Sets from Queries and Coun-terexamples [J].Information and Computation 75,1987 :87-106. 被引量：1
6汪欢.安卓移动智能终端的恶意软件检测与分析方法.[D],2014. 被引量：1
7360公司.2015年第三季度中国手机安全状况报告[EB/OL],2015. 被引量：1
8黄敏.支持向量机分类算法的研究[D],2011. 被引量：1
9黄强,曾庆凯.基于信息流策略的污点传播分析及动态验证[J].软件学报,2011,22(9):2036-2048. 被引量：21
10王蕊,冯登国,杨轶,苏璞睿.基于语义的恶意代码行为特征提取及检测方法[J].软件学报,2012,23(2):378-393. 被引量：74

共引文献143

1李兵,韩睿,何怡刚,张晓艺,侯金波.改进随机森林算法在电机轴承故障诊断中的应用[J].中国电机工程学报,2020,40(4):1310-1319. 被引量：82
2黄科,袁启平,董薇,孙沂昆,亢勇,王天翔.基于1D CNN与XGBoost的恶意代码纹理检测[J].电视技术,2021,45(10):129-135.
3郑继栋.训练扎实指导有序──第十册《基础训练6》第五六七题教学设计[J].小学语文教学,2000(6):57-57.
4张文,严寒冰,文伟平.一种Android恶意程序检测工具的实现[J].信息网络安全,2013(1):27-32. 被引量：7
5白金荣,王俊峰,赵宗渠,刘达富.基于敏感Native API的恶意软件检测方法[J].计算机工程,2012,38(13):9-12. 被引量：5
6陈曙,叶俊民,张帆.一种基于污点数据传播和无干扰理论的软件行为可信性分析模型[J].计算机科学,2013,40(5):184-188. 被引量：1
7张显明.基于网络的恶意代码检测技术探析[J].电脑开发与应用,2013,26(7):27-29. 被引量：2
8任李,潘晓中.基于对象语义的恶意代码检测方法[J].计算机应用研究,2013,30(10):3106-3109. 被引量：2
9安靖,杨义先,李忠献.路径条件驱动的混淆恶意代码检测[J].湖南大学学报（自然科学版）,2013,40(9):86-90. 被引量：3
10马军红.分阶段融合的文本语义相似度计算方法[J].现代图书情报技术,2013(10):20-26. 被引量：4

同被引文献19

1周康,万良,丁红卫.基于MLP-HMM的跨站脚本攻击检测[J].计算机工程与科学,2019,41(8):1413-1420. 被引量：4
2魏旭,成卫青.基于特征融合和机器学习的恶意网页识别研究[J].南京邮电大学学报（自然科学版）,2019,39(5):95-104. 被引量：4
3刘晨,李玉峰,陈好.基于LZW无损数据压缩技术的改进与实现[J].电子设计工程,2019,27(24):51-56. 被引量：6
4陈本刚,宋礼鹏.网页内容链接层次语义树的恶意网页检测方法[J].计算机工程与应用,2020,56(11):90-97. 被引量：2
5程琪芩,万良.BiLSTM在跨站脚本检测中的应用研究[J].计算机科学与探索,2020,14(8):1338-1347. 被引量：8
6许逸超,袁倩婷,徐建.基于静态行为特征的细粒度Android恶意软件分类[J].计算机应用研究,2020,37(10):3101-3106. 被引量：3
7左自清,施勇,薛质.基于机器学习的恶意命令检测方法[J].通信技术,2020,53(11):2775-2779. 被引量：1
8金逸灵,陈兴蜀,王玉龙.基于LSTM-CNN的容器内恶意软件静态检测[J].计算机应用研究,2020,37(12):3704-3707. 被引量：7
9刘敬浩,孙晓伟,金杰.基于主成分分析和循环神经网络的入侵检测模型[J].中文信息学报,2020,34(10):105-112. 被引量：17
10陈镭,杨章静,黄璞.基于机器学习的Android恶意软件检测实验[J].实验技术与管理,2020,37(12):94-97. 被引量：5

引证文献3

1余飞,陈乾,刘峻源.基于机器学习的恶意网页脚本检测方法[J].信息与电脑,2022,34(2):64-66.
2乔梦晴,李琳,王颉,万振华.基于遗传规划和集成学习的恶意软件检测[J].计算机应用研究,2023,40(3):898-904. 被引量：2
3刘明珠,高丽婷,李倩芸.基于代码压缩和循环神经网络的恶意代码检测方法研究[J].河北建筑工程学院学报,2023,41(4):246-251. 被引量：1

二级引证文献3

1刘超,丁蕊,朱雨寒.基于强化学习选择策略的路径覆盖测试数据生成算法[J].计算机应用研究,2024,41(8):2467-2473.
2桑道松.基于知识图谱的恶意软件信息检测方法研究[J].九江学院学报（自然科学版）,2024,39(3):79-84.
3徐圣林.基于深度学习的软件漏洞挖掘方法[J].无线互联科技,2024,21(20):95-97.

1曹军.东北黑土“保卫战”[J].地理教育,2020(11):64-64. 被引量：1
2蒋欣兰.结构化区域全卷积神经网络的钢轨扣件检测方法[J].计算机科学与探索,2020,14(11):1888-1898. 被引量：1
3钮维敢,谈东晨.体系坍缩:当代世界体系演进与冷战后七国集团衍化[J].东北亚论坛,2020,29(6):25-38. 被引量：7
4孙冬,李萌,高清维,卢一相,竺德.基于局部方向正则化的快速图像插值算法[J].安徽大学学报（自然科学版）,2020,44(6):28-35. 被引量：1
5周德运,刘斌,苏茜.基于“新息误差”的粒子流滤波算法[J].计算机应用,2020,40(11):3127-3132. 被引量：1

信息技术与网络安全

2020年第11期

浏览历史

内容加载中请稍等...

基于机器学习的恶意软件检测研究进展及挑战被引量：3

参考文献10

二级参考文献24

共引文献143

同被引文献19

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于机器学习的恶意软件检测研究进展及挑战 被引量：3

参考文献10

二级参考文献24

共引文献143

同被引文献19

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于机器学习的恶意软件检测研究进展及挑战被引量：3