期刊文献+
共找到97篇文章
< 1 2 5 >
每页显示 20 50 100
加密云数据下基于Simhash的模糊排序搜索方案 被引量:27
1
作者 杨旸 杨书略 柯闽 《计算机学报》 EI CSCD 北大核心 2017年第2期431-444,共14页
为了保护数据隐私,数据拥有者会将敏感数据的密文外包到云服务器,这使得传统明文搜索技术难以使用.因此可搜索加密技术被用于对密文数据进行搜索,实现高效的数据利用.然而目前在加密云数据中,关键词模糊搜索方案主要是通过构造关键词模... 为了保护数据隐私,数据拥有者会将敏感数据的密文外包到云服务器,这使得传统明文搜索技术难以使用.因此可搜索加密技术被用于对密文数据进行搜索,实现高效的数据利用.然而目前在加密云数据中,关键词模糊搜索方案主要是通过构造关键词模糊集合来实现,其需要大量的计算和存储开销.本文提出的搜索方案,无需构造关键词模糊集合,而是基于Simhash的降维思想,将文档关键词做n-gram处理并得到Simhash指纹来实现模糊搜索.该文结合汉明距离和关键词相关度分数,设计了双因子排序算法对查询结果进行排序.使用树索引结构和新型遍历方法进一步提高了搜索效率.通过新型遍历方法,即使树的节点值与期望值不相等,也能够对树进行遍历.理论分析和实验结果表明:该方案实现了加密云数据下的关键词模糊搜索,同时极大地节约了时间和空间成本. 展开更多
关键词 云计算 加密云数据 隐私保护 可搜索加密 模糊排序搜索 simhash
下载PDF
基于多SimHash指纹的近似文本检测 被引量:21
2
作者 董博 郑庆华 +2 位作者 宋凯磊 田锋 马瑞 《小型微型计算机系统》 CSCD 北大核心 2011年第11期2152-2157,共6页
近似文本检测已成为当前研究热点.基于SimHash指纹的近似文本检测是主流的检测方法之一.但使用SimHash进行近似文本检测存在如下问题:指纹位数单一,丢失了一定量的信息.针对该问题,为使SimHash指纹尽可能多地代表文档的内容或特征,通过... 近似文本检测已成为当前研究热点.基于SimHash指纹的近似文本检测是主流的检测方法之一.但使用SimHash进行近似文本检测存在如下问题:指纹位数单一,丢失了一定量的信息.针对该问题,为使SimHash指纹尽可能多地代表文档的内容或特征,通过对术语集的统计特征分析,提出基于多SimHash指纹和k维超曲面的近似文本检测算法.实验表明基于多Sim-Hash指纹的近似文本检测算法提高了检测的准确率,而且所增加的时间代价很小. 展开更多
关键词 近似文本检测 simhash simhash指纹 术语统计
下载PDF
网页查重算法Shingling和Simhash研究 被引量:17
3
作者 马成前 毛许光 《计算机与数字工程》 2009年第1期15-17,108,共4页
随着网络信息爆炸式增长,人们对信息检索有了更高的要求。在海量的网页中,有很多重复的网页。网页查重可以节省网络带宽,降低存储成本,提高搜索引擎的性能。在网页查重算法中shingling和simhash是比较重要和经典的算法,文中对两种算法... 随着网络信息爆炸式增长,人们对信息检索有了更高的要求。在海量的网页中,有很多重复的网页。网页查重可以节省网络带宽,降低存储成本,提高搜索引擎的性能。在网页查重算法中shingling和simhash是比较重要和经典的算法,文中对两种算法做了介绍,包括算法的原理,存在的问题及改进等。 展开更多
关键词 网页查重 搜索引擎 shingling simhash
下载PDF
基于Labeled-LDA模型的文本特征提取方法 被引量:13
4
作者 王瑞 龙华 +1 位作者 邵玉斌 杜庆治 《电子测量技术》 2020年第1期141-146,共6页
针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取... 针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取出的主题词与关键词进行相似度计算,找到文本隐含主题的类别并提取特征词。实验表明结合后的特征提取方法比TF-IDF、传统LDA主题模型的文本特征提取方法,获得更高的分类精度,其中准确度提高了3.40%,召回率提高了4.40%,F值提高了3.92%。 展开更多
关键词 Labeled-LDA TF-IDF simhash 文本特征提取
下载PDF
基于深度学习可视化的恶意软件家族分类 被引量:13
5
作者 陈小寒 魏书宁 覃正泽 《计算机工程与应用》 CSCD 北大核心 2021年第22期131-138,共8页
计算机网络技术的快速发展,导致恶意软件数量不断增加。针对恶意软件家族分类问题,提出一种基于深度学习可视化的恶意软件家族分类方法。该方法采用恶意软件操作码特征图像生成的方式,将恶意软件操作码转化为可直视的灰度图像。使用递... 计算机网络技术的快速发展,导致恶意软件数量不断增加。针对恶意软件家族分类问题,提出一种基于深度学习可视化的恶意软件家族分类方法。该方法采用恶意软件操作码特征图像生成的方式,将恶意软件操作码转化为可直视的灰度图像。使用递归神经网络处理操作码序列,不仅考虑了恶意软件的原始信息,还考虑了将原始代码与时序特征相关联的能力,增强分类特征的信息密度。利用SimHash将原始编码与递归神经网络的预测编码融合,生成特征图像。基于相同族的恶意代码图像比不同族的具有更明显相似性的现象,针对传统分类模型无法解决自动提取分类特征的问题,使用卷积神经网络对特征图像进行分类。实验部分使用10868个样本(包含9个恶意家族)对深度学习可视化进行有效性验证,分类精度达到98.8%,且能够获得有效的、信息增强的分类特征。 展开更多
关键词 恶意软件家族 恶意代码可视化 递归神经网络(RNN) 卷积神经网络(CNN) simhash
下载PDF
Web大数据环境下的相似重复数据清理 被引量:14
6
作者 王闪 谭良 《计算机工程与设计》 北大核心 2017年第3期646-651,共6页
为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中... 为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址。使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果。 展开更多
关键词 Web大数据 重复数据删除 数据清理 相似哈希 数据质量评估
下载PDF
基于Simhash算法的大规模文档去重技术研究 被引量:12
7
作者 余意 张玉柱 胡自健 《信息通信》 2015年第2期28-29,共2页
随着互联网的发展,重复的网络信息越来越多,所以,大规模的文档去重技术研究逐渐成为热点。文中对基于Simhash算法的大规模文档去重技术进行了研究,并且以Simhash算法为文档去重的核心算法作基础对该算法获取文档特征的过程进行改进,将... 随着互联网的发展,重复的网络信息越来越多,所以,大规模的文档去重技术研究逐渐成为热点。文中对基于Simhash算法的大规模文档去重技术进行了研究,并且以Simhash算法为文档去重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词词义和词长作为衡量单词权重的考量因素。通过理论分析以及相应的实验数据表明,文章提出的改进方法实现了在大规模文档数据基础上对相似文档的快速检测。 展开更多
关键词 相似文本检测 simhash 指纹计算
下载PDF
基于TF-IDF的网页新闻分类的研究与应用 被引量:9
8
作者 李春梅 《贵州师范大学学报(自然科学版)》 CAS 2015年第6期106-120,共15页
文本分类作为处理和组织大量文本数据的关键技术,为用户准确、快速查找所需信息提供依据。通过TFIDF算法计算文本词汇的词频,并根据词频排序选择特征项,再用Simhash和余弦相似度算法计算文本之间的相似度,最后采用准确率和召回率为评价... 文本分类作为处理和组织大量文本数据的关键技术,为用户准确、快速查找所需信息提供依据。通过TFIDF算法计算文本词汇的词频,并根据词频排序选择特征项,再用Simhash和余弦相似度算法计算文本之间的相似度,最后采用准确率和召回率为评价标准,根据评价结果分析两种算法的优劣。 展开更多
关键词 文本分类 TF—IDF simhash 余弦相似度
下载PDF
信息密度增强的恶意代码可视化与自动分类方法 被引量:9
9
作者 刘亚姝 王志海 +1 位作者 侯跃然 严寒冰 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期9-14,共6页
计算机及网络技术的发展致使恶意代码数量每年以指数级数增长,对网络安全构成了严重的威胁。该文将恶意代码逆向分析与可视化相结合,提出了将可移植可执行(PE)文件的".text"段函数块的操作码序列simHash值可视化的方法,不仅... 计算机及网络技术的发展致使恶意代码数量每年以指数级数增长,对网络安全构成了严重的威胁。该文将恶意代码逆向分析与可视化相结合,提出了将可移植可执行(PE)文件的".text"段函数块的操作码序列simHash值可视化的方法,不仅提高了恶意代码可视化的效率,而且解决了操作码序列simHash值相似性判断困难的问题。实验结果表明:该可视化方法能够获得有效信息密度增强的分类特征;与传统恶意代码可视化方法相比,该方法更高效,分类结果更准确。 展开更多
关键词 恶意代码可视化 simhash 图像纹理
原文传递
基于Simhash的大规模文档去重改进算法研究 被引量:8
10
作者 王诚 王宇成 《计算机技术与发展》 2019年第2期115-119,共5页
针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhas... 针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhash算法计算文档特征的方法,通过TF-IDF技术和单词的主题相关性综合计算单词的权重,TF-IDF技术用于计算一个关键词在一个文档集中的一篇文档的重要性,将专业术语词汇的长度统计函数作为判断单词主题相关性的依据。最后在检索步骤中采用哈希到桶的思想,此时出现分布不均匀的情况,为此设定一个阈值,当超过阈值时,对桶内的元素进行二次哈希,可以减少候选对的数量并且使分布更加均匀。实验结果表明,改进后的算法可以明显提高原Simhash算法的效率和准确率。 展开更多
关键词 Web大数据 simhash 近似文本检测 多维度 二次哈希
下载PDF
Simhash算法在文本去重中的应用 被引量:7
11
作者 张航 盛志伟 +1 位作者 张仕斌 杨敏 《计算机工程与应用》 CSCD 北大核心 2020年第11期246-251,共6页
为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash)。该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最... 为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash)。该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最终生成的指纹更能体现关键信息的比重,并对指纹信息与权重的关联性进行了分析。仿真实验表明:优化权重计算能有效地提升Simhash算法的性能,E-Simhash算法在去重率、召回率、F值等方面均优于传统Simhash算法,并且在文本去重方面取得了良好的效果。 展开更多
关键词 simhash 信息熵 词频-逆向文件频率 权重优化 文本去重
下载PDF
基于全文检索的文本相似度算法应用研究 被引量:7
12
作者 王格 吴钊 李向 《计算机与数字工程》 2016年第4期567-571,614,共6页
在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,... 在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,首先采用传统的VSM余弦算法和Simhash算法,按照余弦公式通过内积最终计算出文本间的相似度大小n(0<n<1),最后为了实现余弦算法并提高系统效率,使用了大量容器如Map、Set和Vector以及内积算法等。实验结果表明,余弦算法VSM由于其局限性不适合进行文本的相似度计算,而Simhash算法则具有高准确度以及可行性。 展开更多
关键词 文本相似度 余弦VSM simhash
下载PDF
基于Simhash算法的海量文档反作弊技术研究 被引量:7
13
作者 徐济惠 《计算机技术与发展》 2014年第9期103-107,共5页
以互联网重复文档反作弊需求为背景,研究了基于Simhash的海量文档反作弊技术。以Simhash算法为文档判重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词意义作为衡量单词权重的一个考量因素。针对64位文档Simhash签名,提供... 以互联网重复文档反作弊需求为背景,研究了基于Simhash的海量文档反作弊技术。以Simhash算法为文档判重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词意义作为衡量单词权重的一个考量因素。针对64位文档Simhash签名,提供用户维度、全文维度和黑库维度的文档判重服务,并可基于全文和段落两种粒度进行文档相似性比较。通过测试数据和分析,该技术能保证运行稳定,每个实例可存储1亿文档,平均请求耗时稳定在20 ms左右,高峰期请求耗时会增长,但一般不会超过100 ms。 展开更多
关键词 重复文本检测 simhash 反作弊 签名计算
下载PDF
面向代码相似性检测的相似哈希改进方法 被引量:9
14
作者 李玫 高庆 +3 位作者 马森 张世琨 胡文蕙 张兴明 《软件学报》 EI CSCD 北大核心 2021年第7期2242-2259,共18页
代码相似性检测(code similarity detection)是软件工程领域的基本任务之一,其在剽窃检测、许可证违反检测、软件复用分析以及漏洞发现等方向均起着重要作用.随着软件开源化的普及以及开源代码量的高速增长,开源代码在各个领域的应用日... 代码相似性检测(code similarity detection)是软件工程领域的基本任务之一,其在剽窃检测、许可证违反检测、软件复用分析以及漏洞发现等方向均起着重要作用.随着软件开源化的普及以及开源代码量的高速增长,开源代码在各个领域的应用日益频繁,给传统的代码相似性检测方法带来了新的挑战.现有的一些基于词法、语法、语义的检测方法存在算法较为复杂、对解析工具有依赖性、消耗资源高、可移植性差、候选对比项数量较多等问题,在大规模代码库上有一定的局限性.基于相似哈希(simhash)指纹的代码相似性检测算法将代码降维至1个指纹,能够在数据集规模较大的情况下实现快速相似文件检索,并通过海明距离阈值控制匹配结果的相似度范围.通过实验对现有的基于代码行粒度的相似哈希算法进行验证,发现其在大规模数据集下存在行覆盖问题,即高频行特征对低频行特征的覆盖现象,导致结果精确度较低.受TF-IDF算法思想启发,针对上述问题创新性地提出了分语言行筛选优化方法,通过各种语言的行筛选器对代码文件行序列进行筛选,从而消除高频出现但语义信息包含较少的行对结果的影响.对改进前后方法进行一系列对比实验,结果表明,改进后的方法在海明距离阈值为0~8的情况下都能够实现高精确度的相似文件对检索,当阈值为8时在两个数据集下的精确度较改进前的方法分别提升了98.6%和52.2%.在所建立的130万个开源项目、386486112个项目文件的大规模代码库上进行了实验,结果表明所提方法能够快速检测出待测文件的相似文件结果,平均单个文件检测时间为0.43s,并取得了97%以上的检测精度. 展开更多
关键词 代码相似性检测 代码同源分析 大数据 相似哈希 代码指纹生成
下载PDF
中速磨煤机特征分类及劣化分析算法研究
15
作者 张元东 《动力工程学报》 CAS CSCD 北大核心 2024年第8期1189-1195,共7页
针对Simhash算法特征分类过程存在局部敏感hash、目前中速磨煤机劣化分析算法精准度不高的问题,提出一种中速磨煤机特征分类及劣化分析算法。首先,该算法基于Simhash机制结合余弦定理和矩阵相似性设计特征分类方法;然后,基于八邻域机制... 针对Simhash算法特征分类过程存在局部敏感hash、目前中速磨煤机劣化分析算法精准度不高的问题,提出一种中速磨煤机特征分类及劣化分析算法。首先,该算法基于Simhash机制结合余弦定理和矩阵相似性设计特征分类方法;然后,基于八邻域机制结合自适应阈值设计中速磨煤机劣化分析判别规则。结果表明:本文算法使得中速磨煤机的特征参数辨识度、故障关联性以及健康状态预测精度得到了显著提升,且相较于目前主流机器学习算法,在均方根误差(RMSE)损失较小的情况下,计算效率显著提升,所提算法的准确性和健壮性更高。 展开更多
关键词 中速磨煤机 特征分类 劣化分析 simhash 自适应阈值
下载PDF
基于SimHash算法的SQL注入攻击检测方法 被引量:6
16
作者 孔德广 蒋朝惠 郭春 《计算机应用研究》 CSCD 北大核心 2020年第7期2117-2122,共6页
针对目前SQL注入攻击检测中存在的问题进行研究,提出一种基于SimHash算法的SQL注入检测方法,首先通过自学习过程将每一条SQL语句经过分词、散列、加权、合并,降维生成初始SimHash指纹库,然后基于SimHash利用初始指纹库构建具有索引结构... 针对目前SQL注入攻击检测中存在的问题进行研究,提出一种基于SimHash算法的SQL注入检测方法,首先通过自学习过程将每一条SQL语句经过分词、散列、加权、合并,降维生成初始SimHash指纹库,然后基于SimHash利用初始指纹库构建具有索引结构的SimHash指纹库,再结合非黑即白的强白名单策略来判断每条SQL语句的合法性,从而降低黑客绕过防御体系的风险。实验结果表明,该检测方法对于SQL注入攻击具有很好的检测性能,并且具有抵御未知SQL注入攻击的能力,特别适用于中小型网站。 展开更多
关键词 SQL注入 simhash 白名单 防御体系
下载PDF
基于simhash的密文同义词检索方法 被引量:6
17
作者 罗文俊 孙志蔚 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2014年第5期459-465,共7页
为了解决现有的密文检索方案计算量过大,且无法支持同义词检索等问题,通过对现有的明文同义词检索方案和现有的密文检索方案进行研究,在安全KNN(k-nearest neighbour)方案的基础上提出一个支持同义词检索的密文模糊检索方法.该方法通过... 为了解决现有的密文检索方案计算量过大,且无法支持同义词检索等问题,通过对现有的明文同义词检索方案和现有的密文检索方案进行研究,在安全KNN(k-nearest neighbour)方案的基础上提出一个支持同义词检索的密文模糊检索方法.该方法通过将现有明文同义词检索方案中的全扩展算法与安全KNN方案相结合,实现了在密文环境下的支持同义词检索的方案.同时,本文通过改进的simhash算法提高了安全KNN方案的效率.通过实验对比,可以看出本文提出的方案能够在对精确度降低很小的情况下,提升密文检索的效率,降低存储使用的空间. 展开更多
关键词 同义词检索 simhash 密文检索 内积加密
原文传递
基于特征匹配的Web应用防火墙的研究与设计 被引量:6
18
作者 辛晓杰 辛阳 姬硕 《信息网络安全》 2015年第11期53-59,共7页
随着Web应用的快速发展,安全形势不容乐观,大部分Web应用都存在安全漏洞,而传统的网络安全设备对于应用层的攻击防范十分有限。传统防火墙只能保护网络层,IDS、IPS不能有效防护通过灵活编码和报文分割来实现的应用层攻击。而Web应用防... 随着Web应用的快速发展,安全形势不容乐观,大部分Web应用都存在安全漏洞,而传统的网络安全设备对于应用层的攻击防范十分有限。传统防火墙只能保护网络层,IDS、IPS不能有效防护通过灵活编码和报文分割来实现的应用层攻击。而Web应用防火墙工作在应用层,通过对HTTP请求和应答的解析,将解析出的内容与HTTP攻击特征库进行检索比对,阻断Web应用攻击,有效防护应用层。文章分析HTTP协议和主流Web攻击及其绕过方式,针对HTTP协议的缺陷和模式匹配的不足,采用Simhash提取特征和分块检索技术进行过滤防护,提出一个基于特征匹配的Web应用防火墙系统。实验表明,该Web应用防火墙系统可以防御各种Web应用层的攻击,有效解决了Web攻击检测的遗漏问题。 展开更多
关键词 WEB应用防火墙 WEB攻击 分块检索
下载PDF
海量网络文本去重系统的设计与实现 被引量:6
19
作者 汤建明 寇小强 《计算机应用与软件》 北大核心 2018年第12期33-37,共5页
如今网络和信息技术飞速发展,每天都有数以亿万计的文本数据产生。然而,不可避免地有很多文本内容是重复的。这样导致用户在利用搜索引擎搜索或者在网站上浏览内容时会看到很多相似的东西。这不仅给用户带来了不好的体验,对内容提供商来... 如今网络和信息技术飞速发展,每天都有数以亿万计的文本数据产生。然而,不可避免地有很多文本内容是重复的。这样导致用户在利用搜索引擎搜索或者在网站上浏览内容时会看到很多相似的东西。这不仅给用户带来了不好的体验,对内容提供商来说,也需要花费更多的资源对重复冗余的内容进行存储。因此,对文本做一些相似度判断的基本处理,去除重复的文本有很重要的意义和价值。提出设计和实现一种基于simhash的文本去重系统。该系统可以对每天新产生的文本内容进行相似度计算,对于相似的内容只生成一份唯一标识并进行入库处理,有效排除了相似度太高的重复文本。 展开更多
关键词 文本去重 simhash 相似度
下载PDF
一种基于Simhash算法的重复域名数据去重方法 被引量:4
20
作者 侯开茂 韩庆敏 +3 位作者 吴云峰 黄兵 张久发 柴处处 《信息技术与网络安全》 2022年第4期71-76,共6页
随着数字科学技术的发展,各领域需要传输和存储的数据量急剧上升。然而传输和存储的数据中重复数量占据了很大的比例,这不仅会增加使用数据的成本,也会影响处理数据的效率。域名是一种存储量大而且对处理速率有极高要求的数据,为了节约... 随着数字科学技术的发展,各领域需要传输和存储的数据量急剧上升。然而传输和存储的数据中重复数量占据了很大的比例,这不仅会增加使用数据的成本,也会影响处理数据的效率。域名是一种存储量大而且对处理速率有极高要求的数据,为了节约域名解析系统的存储成本,提高传输效率,本文在原有数据去重技术的基础上,引入了Simhash算法,结合域名数据的结构特征,改进数据分词和指纹值计算方式,提出了一种基于Simhash算法的重复域名数据去重方法。实验结果表明,相比于传统的数据去重技术,该方法对删除重复域名数据效率更高,具有较好的实际应用价值。 展开更多
关键词 数据去重 域名 simhash 数据分块
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部