期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于主成分分析和K近邻的文件类型识别算法 被引量:3
1
作者 鄢梦迪 秦琳琳 吴刚 《计算机应用》 CSCD 北大核心 2016年第11期3161-3164,共4页
为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题,在基于文件内容识别文件类型的算法基础上,提出主成分分析(PCA)和K近邻(KNN)算法相结合的文件类型识别算法。首先,使用PCA方法对样本预处理以降低样本空间的维数;然后... 为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题,在基于文件内容识别文件类型的算法基础上,提出主成分分析(PCA)和K近邻(KNN)算法相结合的文件类型识别算法。首先,使用PCA方法对样本预处理以降低样本空间的维数;然后,对降维后的训练样本集进行聚类处理,即用聚类质心代表每种类型的文件;最后,针对训练样本分布不均匀可能造成的分类误差,提出基于距离加权的KNN算法。实验结果表明,改进算法在样本数较多的情况下,能降低分类的计算复杂度,并保持了较高的识别正确率;而且该算法不依赖文件类型的特征标识,应用范围更为广泛。 展开更多
关键词 文件类型识别 字节频率分布 主成分分析 K近邻
下载PDF
基于模拟数据集的字节频度入侵检测研究 被引量:3
2
作者 翁广安 《计算机工程与应用》 CSCD 2014年第12期96-99,119,共5页
为解决目前网络负载异常入侵检测领域缺乏有效、针对性的测试数据集的问题,提出一种基于虚拟关键字的构造模拟网络数据集的方法。并用它对基于字节频度分布的异常检测模型进行了测试分析。实验结果表明,模拟数据集提供了一种负载内容异... 为解决目前网络负载异常入侵检测领域缺乏有效、针对性的测试数据集的问题,提出一种基于虚拟关键字的构造模拟网络数据集的方法。并用它对基于字节频度分布的异常检测模型进行了测试分析。实验结果表明,模拟数据集提供了一种负载内容异常程度可控的测试数据集;检测阈值和网络环境的数据特性包括数据包尺寸分布情况、异常和正常访问相对于训练数据的偏离程度等有关。单包频度分布模型相比连接模型对负载数据异常程度的变动有更好的灵敏度。 展开更多
关键词 模拟数据集 字节频度分布 负载异常检测 网络入侵检测系统
下载PDF
基于字节频度的异常入侵检测影响因素研究 被引量:1
3
作者 翁广安 余胜生 周敬利 《计算机工程》 CAS CSCD 2012年第14期119-121,127,共4页
目前数据包负载异常检测缺乏针对性的测试数据。为此,构建一个模拟网络数据集,对基于字节频度分布的异常检测模型进行测试分析。实验结果表明,该数据集对模型测试具有可行性;数据包大小的分布特性对检测准确度有较大影响,必须根据特定... 目前数据包负载异常检测缺乏针对性的测试数据。为此,构建一个模拟网络数据集,对基于字节频度分布的异常检测模型进行测试分析。实验结果表明,该数据集对模型测试具有可行性;数据包大小的分布特性对检测准确度有较大影响,必须根据特定网络服务数据包尺寸的密集分布区确定检测阈值,并尽量向小尺寸方向校准;数据包之间的频度差异对分组求频度平均值的模型有很大影响,组内数据包之间过大的频度差异将导致包模型失效,连接模型性能降低较大,改进的包模型则不受影响。 展开更多
关键词 字节频度分布 n—gram序列 负载异常检测 数据包负载 网络入侵检测系统
下载PDF
改进的字节频度负载异常入侵检测方法
4
作者 翁广安 余胜生 周敬利 《计算机工程与科学》 CSCD 北大核心 2012年第7期24-28,共5页
数据集内容的特性对基于负载的网络异常入侵检测系统准确度有很大影响。本文分析了训练集数据包之间的内容特性差异对基于字节频度分布的模型的影响,较大的差异可能会导致分组计算频度均值的模型产生较高的误报率。本文据此提出了一种... 数据集内容的特性对基于负载的网络异常入侵检测系统准确度有很大影响。本文分析了训练集数据包之间的内容特性差异对基于字节频度分布的模型的影响,较大的差异可能会导致分组计算频度均值的模型产生较高的误报率。本文据此提出了一种改进的模型—单包频度分布模型,以单个数据包的频度分布特征构成正常行为集,并以聚类方法控制其规模。在模拟数据集和DARPA99数据集上的实验表明,训练集数据包内容特性的差异确实导致基于均值的字节频度模型产生更多的误报,单包频度分布模型则不受影响,它有更高的检测准确度,在同等检测率下误报率更低。在数据包相互完全不同的情况下,基于均值的模型甚至失效。可认为单包频度分布模型对具有丰富动态内容的网络服务将有良好的适应能力。 展开更多
关键词 网络入侵检测系统 字节频度分布 负载异常检测 模拟数据集
下载PDF
基于Tanimoto系数的JPEG碎片数据识别方法 被引量:7
5
作者 汤燕彬 许榕生 《计算机应用与软件》 CSCD 2011年第9期80-81,92,共3页
当前市面上存在多种功能强大的电子取证工具,但这些取证工具缺乏对特定碎片数据类型的识别。提出满足当前实际需求的一种碎片数据类型识别方法。该方法以数据的字节频率分布为基础,首次将Tanimoto系数应用于JPEG碎片数据类型识别,利用... 当前市面上存在多种功能强大的电子取证工具,但这些取证工具缺乏对特定碎片数据类型的识别。提出满足当前实际需求的一种碎片数据类型识别方法。该方法以数据的字节频率分布为基础,首次将Tanimoto系数应用于JPEG碎片数据类型识别,利用文件类型特有的结构特征以及相邻碎片数据的关联性作为优化参数,提高识别率。实验结果表明,该方法能较好地识别出JPEG碎片数据类型。 展开更多
关键词 计算机取证 JPEG碎片数据 字节频率分布 Tanimoto系数
下载PDF
基于自相似的气象数据分类识别方法 被引量:3
6
作者 袁定莲 冯径 +1 位作者 沈晔 张涛 《计算机应用》 CSCD 北大核心 2015年第A02期93-97,共5页
气象卫星和雷达资料的数据文件往往达到几十兆甚至上千兆字节,根据扩展名对文件进行分类仅是一种约定俗成,不具备基于数据特征的属性,因而在一定程度上缺乏可靠性。通过统计分析可得到典型气象数据的一些编码特性,但若对全文件进行值谱... 气象卫星和雷达资料的数据文件往往达到几十兆甚至上千兆字节,根据扩展名对文件进行分类仅是一种约定俗成,不具备基于数据特征的属性,因而在一定程度上缺乏可靠性。通过统计分析可得到典型气象数据的一些编码特性,但若对全文件进行值谱分析,效率低,因此需要研究快速准确的大文件分类识别方法。在研究已有文件分类方法的基础上,分析研究典型气象数据的字节值频率分布统计特征,作为分类的特征参数;采用自相似理论,自适应确定文件的截取长度和截取原点,提出了最小特征文件块指纹模型,设计了基于自相似的大数据文件快速识别算法。实验表明该算法在保证数据类型识别的查准率和查全率的基础上,大幅度减少了大文件数据分类的时间。 展开更多
关键词 字节值频率分布 统计分析 自相似 特征文件块 大数据文件分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部