期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
恶意PDF文档检测技术研究进展 被引量:6
1
作者 林杨东 杜学绘 孙奕 《计算机应用研究》 CSCD 北大核心 2018年第8期2251-2255,共5页
针对PDF的漏洞及相应攻击手段日新月异,传统的恶意PDF文档检测技术难以应对各种新型威胁。目前针对恶意PDF文档检测的研究已取得一定成果,为了更深入地解决该技术存在的不足,采用文献分析方法,首先讨论了必要性、简述了其相关概念和检... 针对PDF的漏洞及相应攻击手段日新月异,传统的恶意PDF文档检测技术难以应对各种新型威胁。目前针对恶意PDF文档检测的研究已取得一定成果,为了更深入地解决该技术存在的不足,采用文献分析方法,首先讨论了必要性、简述了其相关概念和检测基本框架;其次针对其分析技术的不同将现有方案进行分类,从适用范围、检测效果、检测效率等多个方面进行对比分析。最后归纳了该领域当前的热点和发展前景。 展开更多
关键词 PDF 文档检测 静态分析 动态分析
下载PDF
项目申报书形式审查算法
2
作者 张彬 程健峰 《现代计算机》 2023年第10期15-19,共5页
根据项目申报书扫描件的文本较为规范的特点,采用MSER算法进行文字内容的检测,然后利用PaddleOCR进行公司名称识别,实验结果表明召回率达到91.38%,精确度为98.56%,F1值为94.83%。采用CRNN深度神经网络对印章内容检测,并根据印章文字分... 根据项目申报书扫描件的文本较为规范的特点,采用MSER算法进行文字内容的检测,然后利用PaddleOCR进行公司名称识别,实验结果表明召回率达到91.38%,精确度为98.56%,F1值为94.83%。采用CRNN深度神经网络对印章内容检测,并根据印章文字分布的空间特征,在CNN网络中采用圆形卷积核,对比传统的方形卷积核,识别效果得到一定提升,召回率为98.90%,精确度为98.39%,F1值为98.64%。实验结果表明,文章提出的算法可以有效进行项目申报书扫描件中涉及印章匹配的形式审查,对提升机关部门的工作效率具有重要意义。 展开更多
关键词 图像处理 印章识别 文档检测 深度神经网络 字符识别
下载PDF
一种双向采样的恶意PDF文档检测方法 被引量:2
3
作者 李睿 杨淑群 张新宇 《软件导刊》 2022年第5期67-72,共6页
随着信息化发展,PDF文档以其良好的特性,成为日常流行的数据交换文件格式,也成为APT攻击事件中常被利用的文件载体。现有的恶意PDF文档检测方法往往采用平衡样本数据集进行评估,但真实环境中恶意文档数量远少于良性文档,因此在样本分类... 随着信息化发展,PDF文档以其良好的特性,成为日常流行的数据交换文件格式,也成为APT攻击事件中常被利用的文件载体。现有的恶意PDF文档检测方法往往采用平衡样本数据集进行评估,但真实环境中恶意文档数量远少于良性文档,因此在样本分类不均衡情况下,提出KM-TBSMOTE双向采样法的恶意PDF文档检测方法。基于BSMOTE算法,利用生成的过渡样本合成新样本,给出TBSMOTE算法,提高负样本比例。利用K-Means算法进行良性PDF文档样本欠采样,结合TBSMOTE算法,使样本分类达到均衡状态。最后采用随机森林方法进行恶意性检测。实验表明,该方法在不均衡PDF样本集上检测效果良好,综合评价指标F1达98.98%,召回率98.91%,误检率0.026%。与传统BSMOTE过采样方法相比,评价指标F1提高1.39%,召回率提高1.96%,误检率降低0.048%。基于KM-TB⁃SMOTE双向采样的恶意PDF文档检测方法能够有效解决样本分类不均衡对分类模型的影响,提高检测效果,适用于现实环境中的PDF文档恶意性检测。 展开更多
关键词 恶意PDF 文档检测 APT攻击 不均衡数据 双向采样
下载PDF
一种基于复合特征的恶意PDF检测方法 被引量:2
4
作者 李国 黄永健 +2 位作者 王静 徐俊洁 王鹏 《现代电子技术》 北大核心 2020年第2期45-48,52,共5页
为了提高特征有效性和扩大检测范围,提出在提取PDF文件的恶意结构特征的基础上再提取JavaScript的恶意特征;为了减少检测时间,提出在特征提取前,增加基于信息熵差异的预检测过程。先利用恶意PDF和良性PDF的信息熵差异筛选出可疑PDF文件... 为了提高特征有效性和扩大检测范围,提出在提取PDF文件的恶意结构特征的基础上再提取JavaScript的恶意特征;为了减少检测时间,提出在特征提取前,增加基于信息熵差异的预检测过程。先利用恶意PDF和良性PDF的信息熵差异筛选出可疑PDF文件和良性PDF文件;然后在检测过程中,提取可疑PDF文件的结构和JavaScript特征;再利用C5.0决策树算法进行分类;最后,通过实验检测,验证了提出的方法对恶意PDF文件检测有效。实验结果表明,与PJScan,PDFMS等模型做对比,该方法检测率比PJScan高27.79%,时间消耗低390 s,误检率比PDFMS低0.7%,时间消耗低473 s,综合性能更优。 展开更多
关键词 恶意PDF文档 文档检测 文件筛选 文件特征提取 信息熵预检 实验验证
下载PDF
基于图神经网络与深度学习的PDF文档检测模型
5
作者 雷靖玮 伊鹏 陈祥 《计算机工程与设计》 北大核心 2024年第2期356-366,共11页
针对传统PDF文档检测误报率过高的问题,提出一种基于图神经网络与深度学习的检测模型DGNN。通过收集文档运行时各线程产生的系统调用数据生成相应的系统调用图,运用所提基于H指数的图采样策略缩减数据规模;采样后的子图作为模型DGNN的输... 针对传统PDF文档检测误报率过高的问题,提出一种基于图神经网络与深度学习的检测模型DGNN。通过收集文档运行时各线程产生的系统调用数据生成相应的系统调用图,运用所提基于H指数的图采样策略缩减数据规模;采样后的子图作为模型DGNN的输入,借助图卷积网络提取关联关系的同时,利用深度学习提取系统调用对的属性特征并完成特征融合,通过系统调用图的性质判别完成检测。实验结果表明,与其它方法相比,该模型特征提取与训练时间短,有效提高了PDF文档的检测效果。 展开更多
关键词 PDF文档检测 图神经网络 深度学习 图采样 特征分析 性能评价 系统调用
下载PDF
基于全局行为特征的未知恶意文档检测
6
作者 陈祥 伊鹏 +1 位作者 白冰 韩伟涛 《信息安全学报》 CSCD 2023年第5期96-108,共13页
相比于基于宏的恶意办公文档,基于漏洞利用的恶意办公文档在攻击过程中往往不需要目标交互,能在目标无感的情况下完成攻击,已经成为APT攻击的重要手段,因此检测基于漏洞利用特别是未知漏洞利用的恶意文档对于发现APT攻击具有重要作用。... 相比于基于宏的恶意办公文档,基于漏洞利用的恶意办公文档在攻击过程中往往不需要目标交互,能在目标无感的情况下完成攻击,已经成为APT攻击的重要手段,因此检测基于漏洞利用特别是未知漏洞利用的恶意文档对于发现APT攻击具有重要作用。当前的恶意文档检测方法主要围绕PDF文档展开,分为静态检测和动态检测两类,静态检测方法容易被攻击者规避,且无法发现基于远程载荷触发的漏洞利用,动态检测方法仅考虑PDF中JavaScript脚本或文档阅读器进程的行为特征,忽视了针对系统其他进程程序的间接攻击,存在检测盲区。针对上述问题,本文分析了恶意办公文档的攻击面,提出恶意文档威胁模型,并进一步实现一种基于全局行为特征的未知恶意文档检测方法,在文档处理过程中提取全系统行为特征,仅训练良性文档样本形成行为特征库用于恶意文档检测,并引入敏感行为特征用于降低检测误报率。本文在包含DOCX、RTF、DOC三种类型共计522个良性文档上进行训练获取行为特征库,然后在2088个良性文档样本和211个恶意文档样本上进行了测试,其中10个恶意样本为手动构造用于模拟几种典型的攻击场景。实验结果表明该方法在极低误报率(0.14%)的情况下能够检测出所有的恶意样本,具备检测利用未知漏洞的恶意文档的能力,进一步实验表明该方法也能够用于检测针对WPS Office软件进行漏洞利用的恶意文档。 展开更多
关键词 恶意文档检测 行为特征 威胁模型 漏洞利用 未知威胁
下载PDF
基于改进的Simhash算法的相似文档识别技术 被引量:3
7
作者 张兴兰 何丹丹 《计算机科学与应用》 2020年第2期371-378,共8页
[目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技... [目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技术,同时将特征词的词性、词长、是否为标志词与是否被包含在标题中几大方面作为权重计算的考虑因素。最后使用汉明距离对文档签名值进行比较,从海量文档中精确地找出相似文档。[结论]:通过改进TF-IDF权重,使得改进的Simhash算法在相似文档识别准确率上优于其他算法。 展开更多
关键词 相似文档检测 Simhash算法 TF-IDF算法 指纹计算 汉明距离
下载PDF
基于系统调用和数据溯源的PDF文档检测模型 被引量:1
8
作者 雷靖玮 伊鹏 +2 位作者 陈祥 王亮 毛明 《计算机应用》 CSCD 北大核心 2022年第12期3831-3840,共10页
针对传统静态检测及动态检测方法无法应对基于大量混淆及未知技术的PDF文档攻击的缺陷,提出了一个基于系统调用和数据溯源技术的新型检测模型NtProvenancer。首先,使用系统调用捕获工具收集文档执行时产生的系统调用记录;其次,利用数据... 针对传统静态检测及动态检测方法无法应对基于大量混淆及未知技术的PDF文档攻击的缺陷,提出了一个基于系统调用和数据溯源技术的新型检测模型NtProvenancer。首先,使用系统调用捕获工具收集文档执行时产生的系统调用记录;其次,利用数据溯源技术构建基于系统调用的数据溯源图;而后,用图的路径筛选算法提取系统调用特征片段进行检测。实验数据集由528个良性PDF文档与320个恶意PDF文档组成。在Adobe Reader上展开测试,并使用词频-逆文档频率(TF-IDF)及PROVDETECTOR稀有度算法替换所提出的图的关键点算法来进行对比实验。结果表明NtProvenancer在精确率和F1分数等多项指标上均优于对比模型。在最佳参数设置下,所提模型的文档训练与检测阶段的平均用时分别为251.51 ms以及60.55 ms,同时误报率低于5.22%,F1分数达到0.989。可见NtProvenancer是一种高效实用的PDF文档检测模型。 展开更多
关键词 PDF文档检测 系统调用 数据溯源 关键点算法 特征片段
下载PDF
基于熵时间序列的恶意Office文档检测技术 被引量:2
9
作者 周安民 户磊 +2 位作者 刘露平 贾鹏 刘亮 《山东大学学报(理学版)》 CAS CSCD 北大核心 2019年第5期1-7,共7页
为了更加准确地检测恶意Office(*.docx、*.rtf)文档,提出了一种基于文档熵时间序列对恶意Office文档进行检测的方法。该方法将恶意与非恶意文档二进制之间的差异转换为文件熵时间序列功率谱之间的差异性,然后采用IBK、random committe(... 为了更加准确地检测恶意Office(*.docx、*.rtf)文档,提出了一种基于文档熵时间序列对恶意Office文档进行检测的方法。该方法将恶意与非恶意文档二进制之间的差异转换为文件熵时间序列功率谱之间的差异性,然后采用IBK、random committe(RC)和random forest(RF)3种机器学习方法分别对数据进行学习和检测。实验结果显示,针对基于XML压缩技术的docx格式文档的准确率可以达到92.14%,而针对富文本格式(rtf)文件的准确率可以达到98.20%。 展开更多
关键词 熵时间序列 功率谱 机器学习 恶意文档检测
原文传递
主机敏感信息检测系统设计与实现 被引量:1
10
作者 刘莺迎 《信息与电脑(理论版)》 2012年第11期35-36,共2页
本文以互联网电子政务信息安全实施指南为基础,研究并设计单机版和网络版两个主机敏感信息检测的安全检测系统,从Word文档内容搜索、关键词匹配方法、socket通信等几个方面进行研究设计。本系统以实现主机上敏感信息检测和呈现为最终目... 本文以互联网电子政务信息安全实施指南为基础,研究并设计单机版和网络版两个主机敏感信息检测的安全检测系统,从Word文档内容搜索、关键词匹配方法、socket通信等几个方面进行研究设计。本系统以实现主机上敏感信息检测和呈现为最终目标,对内网主机进行实时的敏感信息检测,及时发现失泄秘隐患,有效维护政务应用安全。 展开更多
关键词 关键词匹配 SOCKET通信 Word文档检测
原文传递
基于最优输运和k-近邻的离群文档检测 被引量:1
11
作者 水泽农 张星宇 沙朝锋 《计算机科学》 CSCD 北大核心 2021年第7期105-111,共7页
离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题。但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测。现... 离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题。但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测。现有基于相近性的离群文档检测方法一般用文档与整个文档集的距离来衡量离群性,无法发现基于局部考量的离群文档,而且采用欧几里德距离可能无法刻画出文档间的语义相近性。基于概率模型的离群文档检测方法过于复杂,并且同样只从全局来定义文档的离群值。针对这些问题,文中提出了一种新的基于相近性的离群文档检测方法。该方法引入最优输运距离,基于利用文档词嵌入向量的语义信息,在文档之间使用最优输运算法以度量距离,并利用LDA主题模型对文本进行层级抽象,通过最优输运算法算出主题之间的距离后,再计算文档距离,文中基于这两种最优运输距离计算文档与它的k近邻文档之间的距离来衡量该文档的离群程度。该方法从局部视角来定义文档的离群性,所采用的文档距离能体现文档之间的语义相近性。在两个开源数据集上进行了较细致的对比实验,实验结果显示,所提方法在多个指标上优于基准离群文档检测方法;还检验了基于k近邻离群文档定义的有效性以及k值的选取对结果的影响。 展开更多
关键词 离群文档检测 最优输运 词搬动距离 层次型最优主题输运
下载PDF
多维搜索引擎的构建与应用 被引量:1
12
作者 田甜 《软件导刊》 2009年第6期25-27,共3页
现阶段主流搜索引擎技术可以概括为基于空间的搜索。在未来的发展过程中,信息的表示方式更加丰富,搜索用户对信息检索的需求逐步提高,由此提出多维搜索的概念。多维搜索引擎不受物理条件的限制,对不同类型的数据进行灵活操纵、抽取和组... 现阶段主流搜索引擎技术可以概括为基于空间的搜索。在未来的发展过程中,信息的表示方式更加丰富,搜索用户对信息检索的需求逐步提高,由此提出多维搜索的概念。多维搜索引擎不受物理条件的限制,对不同类型的数据进行灵活操纵、抽取和组合。同时对此种搜索引擎的应用前景进行展望,此种搜索技术具有不可估量的发展前景,也势必为搜索领域带来一场大的变革。 展开更多
关键词 空间维度 多维搜索 中国Web信息博物馆 相似文档检测
下载PDF
基于句子相似度的文档复制检测算法研究 被引量:9
13
作者 秦新国 《现代图书情报技术》 CSSCI 北大核心 2007年第11期63-66,共4页
提出一种基于句子相似度的文档复制检测技术,在抓住文档的全局特征的同时又兼顾文档的结构信息,克服以往检测算法两者不可兼顾的缺陷,提高检测精度。最后,给出该算法与其他算法检测结果的比较情况。实验证明,该算法是可行的。
关键词 文档复制检测 句子相似度 指纹
下载PDF
中文文档复制检测方法研究 被引量:4
14
作者 耿崇 薛德军 《现代图书情报技术》 CSSCI 北大核心 2007年第6期33-37,共5页
介绍不同的文档复制检测方法,对不同方法的技术特点进行对比,通过实验系统论证不同方法的优缺点,并在CNK I海量资源的基础上实现中文文档复制检测系统。最后针对目前文档复制检测存在的问题进行分析并确定后续工作内容。
关键词 文档复制检测 抄袭检测 中文文档
下载PDF
基于对比图学习的跨文档虚假信息检测
15
作者 廖劲智 赵和伟 +3 位作者 连小童 纪文亮 石海明 赵翔 《计算机科学》 CSCD 北大核心 2024年第3期14-19,共6页
当前,网络上充斥着大量虚假信息,严重阻碍了社会各行业的正常运转,如何精准检测虚假信息成为了亟待解决的问题。现有研究主要从账户特征、文本内容和多模态3个角度开展工作,但大多忽视了虚假信息赖以传播的关键特征(即内容新奇性),仅是... 当前,网络上充斥着大量虚假信息,严重阻碍了社会各行业的正常运转,如何精准检测虚假信息成为了亟待解决的问题。现有研究主要从账户特征、文本内容和多模态3个角度开展工作,但大多忽视了虚假信息赖以传播的关键特征(即内容新奇性),仅是孤立地分析判别目标信息的真实性,未能把握舆论环境的特征。因此,提出了一种基于对比图学习的跨文档虚假信息检测方法(Contrastive Graph Learning,CAL),聚焦于内容新奇性,主要包含两个关键模块:对比学习模块和异构图模块。前者致力于扩大客观事实与虚假信息在向量空间中的表示差异性;后者包含实体、事件、事件集、句子和文档5种类型实体,尽可能向实体表示中注入舆论环境的语义特征。最后,在IED,TL17和Crisis这3个数据集上,在文档级和事件级这两个层次上开展了相关实验,CAL在所有测试中均取得了最优的结果,验证了所提方法的有效性。 展开更多
关键词 文档虚假信息检测 对比学习 异构图 事件级检测
下载PDF
基于深度学习的打印文档缺陷检测算法 被引量:5
16
作者 刘李漫 汪梦婷 +1 位作者 劳喜鑫 吴兴宇 《中南民族大学学报(自然科学版)》 CAS 北大核心 2021年第5期504-511,共8页
在工业生产中,常常需要检测大量的打印文档.现有的打印文档缺陷检测通常采用基于图像处理的方法,该方法容易受到外界环境的干扰,且误差相对较大.为了解决这一问题,提出了一种基于深度学习的打印文档缺陷检测算法.该算法包括打印文档纸... 在工业生产中,常常需要检测大量的打印文档.现有的打印文档缺陷检测通常采用基于图像处理的方法,该方法容易受到外界环境的干扰,且误差相对较大.为了解决这一问题,提出了一种基于深度学习的打印文档缺陷检测算法.该算法包括打印文档纸张缺陷检测、打印文本倾斜和偏移检测、打印文字清晰度检测三个部分.通过分类网络先检测纸张全局上的缺陷问题,再通过对比网络检测纸张局部细节上的缺陷问题.实验表明,所提出的算法不仅能够同时检测打印文档全局和细节上的缺陷,还能减少实验环境等外界因素的干扰,可取得令人满意的检测效果,具有较好的实用价值. 展开更多
关键词 文档缺陷检测 分类网络 字符对比
下载PDF
论文抄袭识别技术研究综述 被引量:3
17
作者 苏建华 《数字图书馆论坛》 2007年第11期61-64,共4页
复制检测技术在知识产权保护和信息检索中有着重要应用。文档复制检测在初期主要检测程序复制,现在则主要为文本复制检测。文章首先介绍复制检测技术的发展中文,接着详细分析了目前已知各种文本复制检测系统的检测方法和技术特点,最... 复制检测技术在知识产权保护和信息检索中有着重要应用。文档复制检测在初期主要检测程序复制,现在则主要为文本复制检测。文章首先介绍复制检测技术的发展中文,接着详细分析了目前已知各种文本复制检测系统的检测方法和技术特点,最后指出了中文文本复制检测技术的发展方向。 展开更多
关键词 文档复制检测 抄袭检测 信息检索
下载PDF
基于语言节奏的大规模文档去重算法研究 被引量:3
18
作者 陈钒 冯志勇 +1 位作者 李晓红 赵庚 《计算机工程与应用》 CSCD 北大核心 2011年第11期15-18,33,共5页
通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏。提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测。实验表明,此方法具有良... 通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏。提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测。实验表明,此方法具有良好的召回率和准确率,可以将内容完全重复的文档、部分段落内容重复的文档及打乱段落顺序重组文档的重复性均检测出来,检测精度高且占用系统资源少。 展开更多
关键词 文档重复性检测 语言节奏 标点
下载PDF
基于MSER和NMS的变形文档字符检测 被引量:2
19
作者 邢延超 程雷雷 +1 位作者 李瑞 张化迪 《科学技术创新》 2018年第32期101-102,共2页
本文提出一种基于MSER和NMS的对发生透视形变文档的字符检测算法。首先通过MSER算法对变形文档进行字符检测,调整参数以达到尽可能多的检测到字符。然后通过NMS算法去除对同一个字符多余重复的检测结果。实验结果表明,提出的算法可以很... 本文提出一种基于MSER和NMS的对发生透视形变文档的字符检测算法。首先通过MSER算法对变形文档进行字符检测,调整参数以达到尽可能多的检测到字符。然后通过NMS算法去除对同一个字符多余重复的检测结果。实验结果表明,提出的算法可以很好地对变形文档的字符进行准确检测。 展开更多
关键词 变形文档字符检测 MSER NMS
下载PDF
一种改进的基于句子相似度的检测算法 被引量:1
20
作者 邢长征 孙伟 《计算机系统应用》 2010年第2期90-92,共3页
基于句子相似度的文档复制检测算法在抓住了文档的全局特征的同时又兼顾文档的结构信息,在该算法的基础上对相似度算法进行了改进,解决了人工设定阈值的问题,并提高了检测精度。实验证明,该算法是可行的,并减少了响应时间。
关键词 文档复制检测 句子相似度 指纹 词频统计
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部