基于协议首部的字节频率统计特征发现方法被引量：2

Feature Discovering Method of Byte Frequency Statistics Based on Protocol Header

下载PDF

导出

摘要应用协议识别在网络安全领域具有极其广泛的应用,而如何发现协议特征是协议识别的核心问题。为此,提出一种高效准确的协议特征自动发现方法。利用协议自身的格式特点,将消息进行token化,并根据token序列对消息进行分类。由分类数的变化曲线大致判别协议的首部长度,从而确定字频统计的范围。对数据流中每个数据包的消息首部进行字节频率统计,并将字节频率进行归一化处理,得到字节频率特征向量。通过计算待测协议与样本协议的余弦相似度对协议进行分类和识别。实验结果表明,用该方法所提取的特征进行识别,准确率超过93.5%。 Application protocol identification is widely applied in network security and the key problem of the protocol is how to discover the protocol feature.This paper proposes an efficient and precise method to automatically discover the protocol feature.The method takes advantage of the feature of protocol format to token the message,classify the messages according to the token sequence,and generally discriminate the protocol header length by change curve of classification number.Thus determine the scope of the word frequency statistics.The byte frequency of each data packet message header in data stream is counted and dealt under normalization.It gets the byte frequency vector of the protocol header,and utilizes the cosine similarity by calculating measured protocol and sample protocol to classify and identify the protocol.Experimental result shows that it has a high accuracy over 93.5%using the signature extracted by this method.

作者何升罗军勇刘琰

机构地区数学工程与先进计算国家重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2015年第2期272-277,共6页 Computer Engineering

基金国家自然科学基金资助项目(61309007) 国家"863"计划基金资助项目(2012AA012902)

关键词协议识别 token化字节频率特征向量余弦相似度 protocol identification tokenization byte frequency feature vector cosine similarity

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献15

1Moore A W,Papagiannaki K.Toward the Accurate Identification of Network Applications[C]//Proceedings of the 6th International Workshop on Passive and Active Network Measurement.Berlin,Germany:Springer,2005:41-54. 被引量：1
2Haffner P,Sen S,Spatscheck O,et al.ACAS:Automated Construction of Application Signatures[C]//Proceedings of ACM SIGCOMM Workshop on Mining Network Data.[S.l.]:ACM Press,2005:197-202. 被引量：1
3Ma J,Levchenko K,Kreibich C,et al.Unexpected Means of Protocol Inference[C]//Proceedings of the 6th ACM SIGCOMM Conference on Internet Measurement.[S.l.]:ACM Press,2006:313-326. 被引量：1
4Park B C,Won Y J,Kim M S,et al.Towards Automated Application Signature Generation for Traffic Identification[C]//Proceedings of Network Operations and Management Symposium.[S.l.]:IEEE Press,2008:160-167. 被引量：1
5Newsome J,Karp B,Song D.Polygraph:Automatically Generating Signatures for Polymorphic Worms[C]//Proceedings of IEEE Symposium on Security and Privacy.[S.l.]:IEEE Press,2005:226-241. 被引量：1
6刘兴彬,杨建华,谢高岗,胡玥.基于Apriori算法的流量识别特征自动提取方法[J].通信学报,2008,29(12):51-59. 被引量：39
7Mc Gregor A,Hall M,Lorier P,et al.Flow Clustering Using Machine Learning Techniques[M].Berlin,Germany:Springer,2004:205-214. 被引量：1
8Moore A W,Zuev D.Internet Traffic Classification Using Bayesian Analysis Techniques[J].ACM SIGMETRICS Performance Evaluation Review,2005,33(1):50-60. 被引量：1
9Auld T,Moore A W,Gull S F.Bayesian Neural Networks for Internet Traffic Classification[J].IEEE Transactions on Neural Networks,2007,18(1):223-239. 被引量：1
10Zander S,Nguyen T,Armitage G.Automated Traffic Classification and Application Identification Using Machine Learning[C]//Proceedings of the 30th Anniversary Conference on Local Computer Networks.[S.l.]:IEEE Press,2005:250-257. 被引量：1

二级参考文献17

1金婷,王攀,张顺颐,陆青莲,陈东.基于DPI和会话关联技术的QQ语音业务识别模型和算法[J].重庆邮电学院学报（自然科学版）,2006,18(6):789-792. 被引量：10
2THOMAS K, ANDRE B, NEVIL B. File-sharing in the Intemet: a Characterization of P2P Traffic in the Backbone[R]. UC, Riverside, 2003. 被引量：1
3SUBHABRATA S, OLIVER S, WANG D M. Accurate, scalable in network identification of P2P traffic using application signatures[A]. International World Wide Web Conference[C]. New York,2004. 被引量：1
4KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC: multilevel tratfic classification in the dark[A]. Proc of ACM SIGCOMM[C]. Philadelphia, PA, 2005. 被引量：1
5KARAGIANNIS T, BROIDO A, FALOUTSOS M. Transport layer identification of P2P traffic[A]. Proc of ACM SIGCOMM IMC[C]. Taormina, Sicily, Italy, 2004. 被引量：1
6ZANDER S, NGUYENI T, ARMITAGEI G.Self-learning IP traffic classification based on statistical flow characteristics[A]. Proc of PAM[C]. Boston, MA, 2005. 被引量：1
7ZUEV D, MOORE A W. Traffic classification using a statistical approach[A]. Proc of PAM[C]. Boston, 2005. 被引量：1
8HERN E NOBEL A B, SMITH F D. Statistical clustering of intemet communication patterns[A]. Proceedings of the 35th Symposium on the Interface of Computing Science and Statistics, Computing Science and Statistics[C]. 2003. 被引量：1
9MOORE A W, ZUEV D. Discriminators for Use in Flow-Based Classification[R]. Intel Research, Cambridge, 2005. 被引量：1
10MOORE A W, ZUEV D. Internet tragic classification using bayesian analysis techniques[A]. Proc of ACM SIGMETRICS[C]. Banff, Alberta, Canada. 2005. 被引量：1

共引文献38

1董永苹,余翔湛,吴刚.基于决策树的P2P节点识别技术研究[J].通信学报,2013,34(S2):40-46.
2王变琴,余顺争.基于会话的应用特征自适应提取[J].计算机科学,2011,38(2):82-85.
3王变琴,余顺争.识别应用流量的一种新方法[J].小型微型计算机系统,2011,32(5):875-880. 被引量：1
4鲁刚,张宏莉,叶麟.P2P流量识别[J].软件学报,2011,22(6):1281-1298. 被引量：48
5吴昊,程光.HTTP网络应用特征串的自动提取[J].广西大学学报（自然科学版）,2011,36(A01):61-64. 被引量：5
6张玉冲,蔡皖东,丁要军.一种适用于应用层协议的特征提取算法[J].计算机工程,2012,38(4):266-268. 被引量：2
7邓伟锋,程绍银,蒋凡,吕秀全.应用层负载特征定义及自动提取方法[J].通信技术,2012,45(7):20-23. 被引量：2
8路林,罗军勇,刘琰,李明涛.协议签名特征自动发现方法[J].信息工程大学学报,2012,13(5):610-614. 被引量：4
9董仕,王岗.基于UDP流量的P2P流媒体流量识别算法研究[J].通信学报,2012,33(12):25-34. 被引量：8
10黎敏,余顺争.抗噪的未知应用层协议报文格式最佳分段方法[J].软件学报,2013,24(3):604-617. 被引量：16

同被引文献16

1刘兴彬,杨建华,谢高岗,胡玥.基于Apriori算法的流量识别特征自动提取方法[J].通信学报,2008,29(12):51-59. 被引量：39
2李伟明,张爱芳,刘建财,李之棠.网络协议的自动化模糊测试漏洞挖掘方法[J].计算机学报,2011,34(2):242-255. 被引量：66
3应凌云,杨轶,冯登国,苏璞睿.恶意软件网络协议的语法和行为语义分析方法[J].软件学报,2011,22(7):1676-1689. 被引量：23
4王一鹏,云晓春,张永铮,李书豪.基于主动学习和SVM方法的网络协议识别技术[J].通信学报,2013,34(10):135-142. 被引量：13
5黄笑言,陈性元,祝宁,唐慧林.基于状态标注的协议状态机逆向方法[J].计算机应用,2013,33(12):3486-3489. 被引量：8
6王志,蔡亚运,刘露,贾春福.基于覆盖率分析的僵尸网络控制命令发掘方法[J].通信学报,2014,35(1):156-166. 被引量：12
7琚玉建,谢绍斌,张薇.基于自适应权值的数据报指纹特征识别与发现[J].计算机测量与控制,2014,22(7):2288-2290. 被引量：8
8黄笑言,陈性元,祝宁,唐慧林.基于字节熵矢量加权指纹的二进制协议识别[J].计算机应用研究,2015,32(2):493-497. 被引量：6
9楚敏南,罗新高,白煜华.一种基于SimHash的海量视频检索方法[J].科技与创新,2015,0(18):9-11. 被引量：1
10蔡乐,石荣,许都.基于关联规则挖掘的未知协议特征提取方法[J].电子信息对抗技术,2016,31(6):18-23. 被引量：5

引证文献2

1徐正国,姚佳奇,郑辉.具有抗噪性能的协议分类特征研究[J].计算机工程与应用,2018,54(17):95-102. 被引量：1
2黄学波,徐正国,燕继坤.基于Simhash的协议数据高频相似序列提取算法[J].计算机工程与应用,2020,56(16):199-203. 被引量：2

二级引证文献3

1李玲,王法胜,李绍民.基于Simhash算法的作业查重系统设计[J].大连民族大学学报,2020,22(1):80-84. 被引量：3
2黄学波,徐正国,燕继坤.基于Simhash的协议数据高频相似序列提取算法[J].计算机工程与应用,2020,56(16):199-203. 被引量：2
3于春艳,张育梅.基于有序聚类方程的数据相似性识别数学建模[J].计算机仿真,2023,40(7):514-518.

1唐海周,冯江华,胡志坤.一种基于区域综合特征的车牌定位方法[J].微计算机信息,2010,26(22):181-183. 被引量：1
2李蓉蓉,李鸣.计算机信息处理的字表建立和字频统计[J].南方冶金学院学报,2005,26(1):29-31. 被引量：2
3林乐丹,熊琳璞,危永利,徐德军.深入探讨CASS与MAPGIS软件数据转换[J].科技资讯,2009,7(24):14-14.
4黄清,朱妍芳.浅析图像的数字化处理及格式特点[J].民营科技,2010(7):66-66. 被引量：2
5法晶.浅析电视节目制作中的图形图象格式特点[J].改革与开放,2010(10X):118-119.
6姜贤塔,陈根才.利用字频统计及机器学习的自动文摘方法[J].杭州大学学报（自然科学版）,1997,24(3):220-225. 被引量：5
7熊国萍,唐敏.智能型文本过滤的创新模式与系统设计[J].电脑知识与技术,2010,6(4X):3277-3278.
8周超,严馨,余正涛,洪旭东,线岩团.融合词频特性及邻接变化数的微博新词识别[J].山东大学学报（理学版）,2015,50(3):6-10. 被引量：10
9张树波,赖剑煌.车牌定位和分割的一种综合方法[J].中山大学学报（自然科学版）,2004,43(2):126-128. 被引量：12
10肖毅,步金梅,杨璐.图像的数字化处理及其文件格式特点[J].中国新技术新产品,2009(5):12-13. 被引量：3

计算机工程

2015年第2期

浏览历史

内容加载中请稍等...

基于协议首部的字节频率统计特征发现方法被引量：2

参考文献15

二级参考文献17

共引文献38

同被引文献16

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于协议首部的字节频率统计特征发现方法 被引量：2

参考文献15

二级参考文献17

共引文献38

同被引文献16

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于协议首部的字节频率统计特征发现方法被引量：2