基于N-Gram与加权分类器集成的恶意代码检测被引量：9

The malicious script code detection based on N-Gram and weighted classifier integration

下载PDF

导出

摘要提出网页恶意脚本代码的监测系统,将恶意脚本用V8引擎编译成机器码,用变长N-Gram模型对其进行数据处理,提取特征形成样本训练集.分别与随机森林、逻辑回归及朴素贝叶斯等分类器组合创建分类模型.研究将多个经过训练集训练的分类模型集成,提出加权分类器集成的方式,每个分类器设定不同权值.通过实验分析,试验多种分类器组合,并通过训练集找出最优权值分配.通过比较单个分类器和其他集成方式,结果证明训练过的加权集成分类器的方式能更准确地检测网页存在恶意行为的代码,有较高的准确率. This paper proposes a static monitoring system for detecting malicious script code.In this system,malicious script code is compiled into machine code with V8 engines and the N-Gram model is used to process the machine code and the features are extracted to form the sample training set.The classification model is created by combining with random forest,logistic regression,Naive Bayes classifier respectively.In this paper,classification models which are trained in multiple training sets are integrated and a way of weighted classifier integration is proposed.Each classifier is set a different weights.Through experimental analysis,a variety of classifiers are combined and tested,and the optimal weight is found through the training set.assignment.By comparing the individual classifier and other integrated approach,the results show that the trained weighted classifiers can be more accurate to detect malicious codeand have higher accuracy.

作者王卫红朱雨辰

机构地区浙江工业大学计算机科学与技术学院

出处《浙江工业大学学报》 CAS 北大核心 2017年第6期604-609,633,共7页 Journal of Zhejiang University of Technology

关键词恶意代码 N-GRAM 机器学习 malicious script N-Gram machine learning

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1徐青,朱焱,唐寿洪.分析多类特征和欺诈技术检测JavaScript恶意代码[J].计算机应用与软件,2015,32(7):293-296. 被引量：5
2李道丰,黄凡玲,刘水祥,黄安妮.基于行为语义分析的Web恶意代码检测机制研究[J].计算机科学,2016,43(8):110-113. 被引量：8
3贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154. 被引量：70
4卢晓勇,陈木生.基于随机森林和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(3):731-734. 被引量：17
5林冬茂.基于“写”操作的Web安全防护系统的研究[J].浙江工业大学学报,2012,40(2):201-204. 被引量：2
6严萍,史旦旦,钱能.计算机信息安全交换系统的设计[J].浙江工业大学学报,2004,32(4):383-387. 被引量：2
7周梦麟,张森.一种基于自然语言理解的Web挖掘模型[J].浙江工业大学学报,2004,32(1):95-98. 被引量：1

二级参考文献98

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2练书成,徐敬东,昝世刚.基于Linux防火墙连接跟踪机制的应用层协议过滤方法的研究[J].计算机工程与应用,2005,41(13):129-132. 被引量：5
3宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
4刘元勋,徐秋亮,云晓春.面向入侵检测系统的通用应用层协议识别技术研究[J].山东大学学报（工学版）,2007,37(1):65-69. 被引量：5
5刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
6郭锡泉.应用层协议分析在状态检测防火墙中的应用[J].计算机工程,2007,33(3):154-156. 被引量：4
7HuitemaC.新的因特网协议[M].北京:清华大学出版社,1999.155-169. 被引量：2
8Helman P,Liepins G,Richards W. Foundations of intrusion detection [C]. In :Proceedings of the Fifth Computer Security Foundations Workshop, 1992.114-120. 被引量：1
9JosephGiarratano GaryRiley.专家系统原理与编程[M].北京:机械工业出版社,2000.1～3. 被引量：14
10Hallaraker O,Vigna G.Detecting malicious javascript code in mozilla[C]//Engineering of Complex Computer Systems,2005.ICECCS2005.Proceedings.10th IEEE International Conference on.IEEE,2005:85-94. 被引量：1

共引文献98

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
3崔仁杰.计算机网络系统的竞争特性研究[J].硅谷,2009,2(16). 被引量：1
4王关嵩,钱桂生,杨晓静.一氧化碳对大鼠肺动脉平滑肌细胞[Ca^(2+)]、cAMP、cGMP的作用[J].第三军医大学学报,2000,22(5):417-419. 被引量：6
5卢晓勇,陈木生,吴政隆,张百栈.基于免疫克隆特征选择和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(7):1899-1903. 被引量：3
6张莉,孙丽娜,郭峰.在线社会网络中近似网页识别方法研究[J].微电子学与计算机,2017,34(2):141-144.
7陈木生,卢晓勇.三种用于垃圾网页检测的随机欠采样集成分类器[J].计算机应用,2017,37(2):535-539. 被引量：8
8唐燕,王苹.随机森林算法在中医药院校贫困生认定预测中的应用研究[J].中国医药导报,2017,14(14):164-168. 被引量：6
9马莉莉,刘江平.大数据信息传输中恶意攻击数据识别仿真[J].计算机仿真,2017,34(10):375-378. 被引量：5
10冯军军,贺晓春,王海沛.基于朴素贝叶斯网络的微博话题追踪技术研究[J].计算机与数字工程,2017,45(11):2244-2247. 被引量：5

同被引文献60

1金美玉,汤亚玲,张学锋.DPAPI与RSA混合加密算法[J].计算机系统应用,2020(11):151-156. 被引量：1
2周绮凤,洪文财,杨帆,罗林开.基于随机森林相似度矩阵差异性的特征选择[J].华中科技大学学报（自然科学版）,2010,38(4):58-61. 被引量：5
3高程程,惠晓威.基于灰度共生矩阵的纹理特征提取[J].计算机系统应用,2010,19(6):195-198. 被引量：175
4王蕊,冯登国,杨轶,苏璞睿.基于语义的恶意代码行为特征提取及检测方法[J].软件学报,2012,23(2):378-393. 被引量：74
5林冬茂.基于“写”操作的Web安全防护系统的研究[J].浙江工业大学学报,2012,40(2):201-204. 被引量：2
6刘端阳,王良芳.基于语义词典和词汇链的关键词提取算法[J].浙江工业大学学报,2013,41(5):545-551. 被引量：14
7朱克楠,尹宝林,冒亚明,胡英男.基于有效窗口和朴素贝叶斯的恶意代码分类[J].计算机研究与发展,2014,51(2):373-381. 被引量：13
8郭颖,陈峰宏,周明辉.大规模代码克隆的检测方法[J].计算机科学与探索,2014,8(4):417-426. 被引量：9
9张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22. 被引量：60
10韩晓光,曲武,姚宣霞,郭长友,周芳.基于纹理指纹的恶意代码变种检测方法研究[J].通信学报,2014,35(8):125-136. 被引量：56

引证文献9

1王卫红,谷永亮,毛怡伟,张政豪.基于Ad-Sim算法的代码克隆检测方法[J].浙江工业大学学报,2019,47(4):411-416. 被引量：2
2赵澄,陈君新.基于隐马尔可夫模型的反射型XSS检测技术[J].浙江工业大学学报,2019,47(4):442-447. 被引量：7
3张景莲,彭艳兵.基于特征融合的恶意代码分类研究[J].计算机工程,2019,45(8):281-286. 被引量：14
4毛养红,程学军.局域网恶意代码入侵过程的痕迹数据监测仿真[J].计算机仿真,2020,37(1):263-266. 被引量：1
5李劭杰,王晨,史崯.基于多特征随机森林的恶意代码检测[J].计算机应用与软件,2020,37(10):328-333. 被引量：6
6张华,陈淑珍.基于BP神经网络算法的恶意代码检测系统[J].莆田学院学报,2020,27(5):69-74. 被引量：2
7葛朝强,葛敏辉,翟海保,张亮.基于深度置信网的电力系统恶意软件检测[J].自动化技术与应用,2021,40(4):62-67. 被引量：2
8梁涛,李毅成,段玉莹.基于线性特征集的非授权代码敏感路径检测[J].计算机仿真,2021,38(6):373-377. 被引量：1
9沈伍强,张小陆,杨春松,许明杰.基于RASP的SQL注入和XSS攻击的检测技术[J].信息技术,2022,46(10):91-96. 被引量：2

二级引证文献36

1张正欣.计算机恶意代码的检测与查杀[J].产业科技创新,2020(36):67-69.
2邓丰曼.一种基于LMD与HMM的刀具磨损故障诊断方法[J].机械设计与制造工程,2019,48(12):111-114. 被引量：3
3曾娅琴,张琳琳,张若楠,杨波.基于MobileNet的恶意软件家族分类模型[J].计算机工程,2020,46(4):162-168. 被引量：10
4贾立鹏,王凤英,姜倩玉.基于DQN的恶意代码检测研究[J].网络安全技术与应用,2020(6):57-60. 被引量：1
5王亚婷,蔡玺,闫润珍,郁娇山,王小军.基于隐马尔可夫模型的多级残差网络DDoS攻击检测[J].电子设计工程,2020,28(19):71-75. 被引量：6
6麦建斌,陈小青,曹春杰.多组件协作式网络入侵测试脚本生成方法[J].计算机仿真,2020,37(12):258-262.
7王卫红,李樊,金凌剑.基于多视图的文本聚类改进方法[J].浙江工业大学学报,2021,49(1):1-8. 被引量：3
8姜倩玉,王凤英,贾立鹏.基于感知哈希算法和特征融合的恶意代码检测方法[J].计算机应用,2021,41(3):780-785. 被引量：5
9陈佳捷,彭伯庄,吴佩泽.基于动态行为和机器学习的恶意代码检测方法[J].计算机工程,2021,47(3):166-173. 被引量：10
10徐家宁,陈齐瑞,张维,俞佳莉,蒋颖.基于消息列队的电力信息平台安全漏洞智能检测[J].微型电脑应用,2021,37(6):91-94. 被引量：2

1马可,本刊编辑部.美国国会研究服务局暗网报告摘要[J].中国信息安全,2017(11):81-82. 被引量：1
2张福勇,秦勇.基于属性相似度的恶意代码检测方法[J].沈阳工业大学学报,2017,39(6):659-663. 被引量：4
3贾蕴哲,黄征,林祥.基于静态特征的Android恶意代码检测[J].通信技术,2017,50(9):2060-2066. 被引量：1
4杨燕,蒋国平.基于N-Gram的计算机病毒特征码自动提取的改进方法[J].计算机科学,2017,44(B11):338-341. 被引量：8
5于洁.互联网定义挖掘:多特征N-gram Plus分类方法[J].海南师范大学学报（自然科学版）,2017,30(3):253-260.
6黄贤英,谢晋,龙姝言.基于公共词块及N-gram模型的问句相似度算法[J].重庆理工大学学报（自然科学）,2017,31(10):175-179. 被引量：7
7曹鹏.2009年我国计算机病毒防治产品发展现状[J].中国信息安全,2010,0(2):58-61.
8贾杉杉,刘畅,孙连英,刘小安,彭涛.基于多特征多分类器集成的专利自动分类研究[J].数据分析与知识发现,2017,1(8):76-84. 被引量：10
9任晓霞,喻孟良,陈凤敏,马维峰,唐湘丹,张时忠.基于插件技术的矿产资源与能源遥感探测与评价模型集成研究[J].首都师范大学学报（自然科学版）,2017,38(5):70-74.
10金凯忠,彭慧丽,张啸剑.基于差分隐私的轨迹模式挖掘算法[J].计算机应用,2017,37(10):2938-2945. 被引量：2

浙江工业大学学报

2017年第6期

浏览历史

内容加载中请稍等...

基于N-Gram与加权分类器集成的恶意代码检测被引量：9

参考文献7

二级参考文献98

共引文献98

同被引文献60

引证文献9

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于N-Gram与加权分类器集成的恶意代码检测 被引量：9

参考文献7

二级参考文献98

共引文献98

同被引文献60

引证文献9

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于N-Gram与加权分类器集成的恶意代码检测被引量：9