期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于多SimHash指纹的近似文本检测 被引量:21
1
作者 董博 郑庆华 +2 位作者 宋凯磊 田锋 马瑞 《小型微型计算机系统》 CSCD 北大核心 2011年第11期2152-2157,共6页
近似文本检测已成为当前研究热点.基于SimHash指纹的近似文本检测是主流的检测方法之一.但使用SimHash进行近似文本检测存在如下问题:指纹位数单一,丢失了一定量的信息.针对该问题,为使SimHash指纹尽可能多地代表文档的内容或特征,通过... 近似文本检测已成为当前研究热点.基于SimHash指纹的近似文本检测是主流的检测方法之一.但使用SimHash进行近似文本检测存在如下问题:指纹位数单一,丢失了一定量的信息.针对该问题,为使SimHash指纹尽可能多地代表文档的内容或特征,通过对术语集的统计特征分析,提出基于多SimHash指纹和k维超曲面的近似文本检测算法.实验表明基于多Sim-Hash指纹的近似文本检测算法提高了检测的准确率,而且所增加的时间代价很小. 展开更多
关键词 近似文本检测 SimHash 多SimHash指纹 术语统计
下载PDF
网页查重算法Shingling和Simhash研究 被引量:17
2
作者 马成前 毛许光 《计算机与数字工程》 2009年第1期15-17,108,共4页
随着网络信息爆炸式增长,人们对信息检索有了更高的要求。在海量的网页中,有很多重复的网页。网页查重可以节省网络带宽,降低存储成本,提高搜索引擎的性能。在网页查重算法中shingling和simhash是比较重要和经典的算法,文中对两种算法... 随着网络信息爆炸式增长,人们对信息检索有了更高的要求。在海量的网页中,有很多重复的网页。网页查重可以节省网络带宽,降低存储成本,提高搜索引擎的性能。在网页查重算法中shingling和simhash是比较重要和经典的算法,文中对两种算法做了介绍,包括算法的原理,存在的问题及改进等。 展开更多
关键词 网页查重 搜索引擎 shingling simhash
下载PDF
基于位置敏感哈希的网络视频重复检测 被引量:2
3
作者 王洪峰 刘辛 《计算机应用研究》 CSCD 北大核心 2012年第5期1954-1958,共5页
针对当前网络上存在着大量的重复或近似重复的视频问题,提出了一种基于镜头层比较和位置敏感哈希的快速准确的网络视频重复检测方法。通过视频间匹配的镜头数占查询视频总镜头数的比例来判断视频的相似性。除此之外,还利用著名的近似最... 针对当前网络上存在着大量的重复或近似重复的视频问题,提出了一种基于镜头层比较和位置敏感哈希的快速准确的网络视频重复检测方法。通过视频间匹配的镜头数占查询视频总镜头数的比例来判断视频的相似性。除此之外,还利用著名的近似最近邻查找技术——LSH在镜头层来快速查找相似镜头,从而提高检测速度。通过将镜头作为检索单元,把数据库中所有视频的镜头放到一起构建一个新的数据集,将种子(查询)视频的每一个镜头作为一个查询请求,应用基于LSH的近似近邻检索方法,检索出与查询镜头相匹配的所有镜头,最后融合这些返回的结果,得到查询视频的重复或者近似重复的视频集。通过在包含12 790个视频的CC_WEB_VIDEO数据集上的实验结果表明,该方法取得了相比已有方法更好的检测性能。 展开更多
关键词 网络视频 重复检测 位置敏感哈希 镜头层比较
下载PDF
应用语义相似的海量网页文本去重策略研究 被引量:2
4
作者 薛剑 吕立 +1 位作者 孙咏 王丹妮 《小型微型计算机系统》 CSCD 北大核心 2016年第6期1143-1147,共5页
互联网的高速发展使得信息的获取以及发布几乎变的无成本,因此不免会存在着大量的近似网页,这些网页之间仅仅只有少量的内容是不同的,但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时,必须能够准确的检测出近似网页... 互联网的高速发展使得信息的获取以及发布几乎变的无成本,因此不免会存在着大量的近似网页,这些网页之间仅仅只有少量的内容是不同的,但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时,必须能够准确的检测出近似网页并放弃抓取.主要针对中文网页,改进了提取中文文本内容特征及计算其权值的方法,同时结合词语之间的语义联系,提出利用特征之间的语义相似性生成网页指纹的方法.在大规模真实网页数据集上,利用分布式编程模型进行实验,近似网页检测的效果得到了明显的提升,更加适用于当今海量数据环境下. 展开更多
关键词 语义相似 近似检测 信息指纹 特征提取
下载PDF
Near-duplicate document detection with improved similarity measurement 被引量:2
5
作者 袁鑫攀 龙军 +1 位作者 张祖平 桂卫华 《Journal of Central South University》 SCIE EI CAS 2012年第8期2231-2237,共7页
To quickly find documents with high similarity in existing documentation sets, fingerprint group merging retrieval algorithm is proposed to address both sides of the problem:a given similarity threshold could not be t... To quickly find documents with high similarity in existing documentation sets, fingerprint group merging retrieval algorithm is proposed to address both sides of the problem:a given similarity threshold could not be too low and fewer fingerprints could lead to low accuracy. It can be proved that the efficiency of similarity retrieval is improved by fingerprint group merging retrieval algorithm with lower similarity threshold. Experiments with the lower similarity threshold r=0.7 and high fingerprint bits k=400 demonstrate that the CPU time-consuming cost decreases from 1 921 s to 273 s. Theoretical analysis and experimental results verify the effectiveness of this method. 展开更多
关键词 similarity estimation near-duplicate document detection fingerprint group Hamming distance minwise hashing
下载PDF
Speed-up Multi-modal Near Duplicate Image Detection
6
作者 Chunlei Yang Jinye Peng Jianping Fan 《Open Journal of Applied Sciences》 2013年第1期16-21,共6页
Near-duplicate image detection is a necessary operation to refine image search results for efficient user exploration. The existences of large amounts of near duplicates require fast and accurate automatic near-duplic... Near-duplicate image detection is a necessary operation to refine image search results for efficient user exploration. The existences of large amounts of near duplicates require fast and accurate automatic near-duplicate detection methods. We have designed a coarse-to-fine near duplicate detection framework to speed-up the process and a multi-modal integra-tion scheme for accurate detection. The duplicate pairs are detected with both global feature (partition based color his-togram) and local feature (CPAM and SIFT Bag-of-Word model). The experiment results on large scale data set proved the effectiveness of the proposed design. 展开更多
关键词 near-duplicate detection Coarse-To-Fine Framework MULTI-MODAL FEATURE Integration
下载PDF
基于浅层特征的印刷品分拣识别系统 被引量:1
7
作者 谢成亮 王鸿亮 +2 位作者 何薇薇 赵杰 王帅 《计算机系统应用》 2019年第2期62-67,共6页
针对印刷领域印刷品的识别问题,设计了一种基于浅层特征的视觉识别系统.浅层特征适用于对精准特定目标的识别, SIFT是一种被广泛使用且效果良好的浅层特征.该系统首先建立一个小型样本图像数据库,然后采用SIFT算法进行特征提取并与样本... 针对印刷领域印刷品的识别问题,设计了一种基于浅层特征的视觉识别系统.浅层特征适用于对精准特定目标的识别, SIFT是一种被广泛使用且效果良好的浅层特征.该系统首先建立一个小型样本图像数据库,然后采用SIFT算法进行特征提取并与样本图像进行匹配识别.另外,该系统实现了在线学习的功能.经过实验验证,该系统可以实时、准确的实现对印刷品内容的识别. 展开更多
关键词 浅层特征 图像检索 相似度检测 特征匹配 在线学习
下载PDF
一种新的近重复监控视频检测算法 被引量:1
8
作者 郭丁云 杨艳芳 +1 位作者 朱俊俊 齐美彬 《微型机与应用》 2013年第11期53-56,共4页
设计了一种使用视频镜头时序特征来实现级联式检测近重复视频的算法。首先在进行关键帧特征提取之前,直接在镜头层次上提取时序特征,初步滤除完全不相同的视频,然后对剩下的视频帧提取全局颜色特征和SURF特征进行逐步检测,最终获得与查... 设计了一种使用视频镜头时序特征来实现级联式检测近重复视频的算法。首先在进行关键帧特征提取之前,直接在镜头层次上提取时序特征,初步滤除完全不相同的视频,然后对剩下的视频帧提取全局颜色特征和SURF特征进行逐步检测,最终获得与查询视频近重复的视频。对实验室的监控视频进行小范围的验证实验,实验结果表明,该算法与不用时序特征的方法相比有一定的有效性和准确性。 展开更多
关键词 监控视频 近重复检测 时序特征 全局颜色特征 SURF
下载PDF
MR距离:一种新的用于近似重复图像检测的距离函数
9
作者 李先斌 陈锦睿 《电子技术(上海)》 2010年第9期9-11,共3页
本文提出了一种新的距离函数来进行近似重复图像的检测。不同于以往距离函数单一的度量标准,我们新提出的曼哈顿相关距离(MR距离)克服了单一使用曼哈顿距离或LRCA距离的缺陷,可以更全面的反映图像之间的真实距离,适用于真实复杂的数据... 本文提出了一种新的距离函数来进行近似重复图像的检测。不同于以往距离函数单一的度量标准,我们新提出的曼哈顿相关距离(MR距离)克服了单一使用曼哈顿距离或LRCA距离的缺陷,可以更全面的反映图像之间的真实距离,适用于真实复杂的数据集。另外,针对大规模数据集问题,我们将MR距离同LSH结合起来,使之可以在大规模数据集上工作,从而在近似重复图像检测中表现出更好的性能。实验结果证明,我们新提出的距离函数使搜索准确率明显提升,当查全率为0.8时,查准率提升了5个百分点。 展开更多
关键词 近似重复 距离函数 图像检测
原文传递
一种基于LCS的微博相似页面检测方法
10
作者 张宗福 《集成技术》 2013年第3期5-9,共5页
微博是基于关系的信息分享、传播以及获取的平台,是网络舆情发起的源头、信息传播的重要阵地。微博便捷的转发操作,使得大量相同或相似的微博页面在微博空间内迅速传播。对微博相似页面进行检测,对于减轻用户浏览负担和提高网络舆情分... 微博是基于关系的信息分享、传播以及获取的平台,是网络舆情发起的源头、信息传播的重要阵地。微博便捷的转发操作,使得大量相同或相似的微博页面在微博空间内迅速传播。对微博相似页面进行检测,对于减轻用户浏览负担和提高网络舆情分析的效率有着重要的意义。本文针对微博相似页面提出了一种基于LCS的微博相似页面检测方法:首先计算可能相似的微博页面文档子集,其次计算其LCS并提取可信部分,最终检测出微博相似页面。实验表明,这一方法能准确、高效地检测出微博数据中的相似页面。 展开更多
关键词 LCS 相似性检测 相似性度量 微博页面
下载PDF
基于Low-IDF-SIG的句子重复检测
11
作者 俞昊旻 张玥 +1 位作者 张奇 黄萱菁 《中文信息学报》 CSCD 北大核心 2011年第1期123-128,共6页
随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的... 随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。 展开更多
关键词 近似重复检测 特征抽取 Low-IDF-SIG
下载PDF
基于Transformer紧凑编码的局部近重复视频检测算法
12
作者 王萍 余圳煌 鲁磊 《计算机科学》 CSCD 北大核心 2024年第5期108-116,共9页
针对现有局部近重复视频检测算法特征存储消耗大、整体查询效率低、提取特征时并未考虑近重复帧之间细微的语义差异等问题,文中提出了一种基于Transformer紧凑编码的局部近重复视频检测算法。首先,提出了一个基于Transformer的特征编码... 针对现有局部近重复视频检测算法特征存储消耗大、整体查询效率低、提取特征时并未考虑近重复帧之间细微的语义差异等问题,文中提出了一种基于Transformer紧凑编码的局部近重复视频检测算法。首先,提出了一个基于Transformer的特征编码器,其学习了大量近重复帧之间细微的语义差异,可以在编码帧特征时对各个区域特征图引入自注意力机制,在有效降低帧特征维度的同时也提高了编码后特征的表示性。该特征编码器通过孪生网络训练得到,该网络不需要负样本就可以有效学习近重复帧之间的相似语义信息,因此无需沉重和困难的难负样本标注工作,使得训练过程更加简易和高效。其次,提出了一个基于视频自相似度矩阵的关键帧提取方法,可以从视频中提取丰富但不冗余的关键帧,从而使关键帧特征序列能够更全面地描述原视频内容,提升算法的性能,同时也大幅减少了存储和计算冗余关键帧带来的开销。最后,基于关键帧的低维紧凑编码特征,采用基于图网络的时间对齐算法,实现局部近重复视频片段的检测和定位。该算法在公开的局部近重复视频检测数据集VCDB上取得了优于现有算法的实验性能。 展开更多
关键词 局部近重复视频检测 TRANSFORMER 视频自相似度矩阵 关键帧提取
下载PDF
基于短空时变化的鲁棒视频哈希算法 被引量:3
13
作者 于晓 聂秀山 +1 位作者 马林元 尹义龙 《计算机科学》 CSCD 北大核心 2018年第2期84-89,共6页
针对互联网相似视频内容检测问题,提出了基于短空时变化的鲁棒视频哈希算法。特征提取和特征量化是该算法的两个关键步骤。在特征提取中,与现有基于时空信息融合的特征提取方法相比,该算法的创新性在于充分利用相邻帧之间局部空域信息... 针对互联网相似视频内容检测问题,提出了基于短空时变化的鲁棒视频哈希算法。特征提取和特征量化是该算法的两个关键步骤。在特征提取中,与现有基于时空信息融合的特征提取方法相比,该算法的创新性在于充分利用相邻帧之间局部空域信息的短时变化(简称"短空时变化")来提取特征。该算法首先构造视频内接球,并以球心为起点对内接球进行划分,获取一系列内接球环,从而捕捉相邻帧的空域信息的短时变化,然后将球环非负矩阵分解系数作为视频内容进行特征表示;在特征量化中,该算法采用改进的曼哈顿量化策略将视频特征映射成二进制的哈希序列,更好地保留了原空间中的近邻关系,提高了量化的准确度。实验结果表明,该算法具有良好的性能。 展开更多
关键词 视频哈希 时空信息 非负矩阵分解 相近视频检测 曼哈顿哈希
下载PDF
基于时空代表帧序列的视频近拷贝检测方法
14
作者 卓力 李依睿 +1 位作者 师辰 赵霙頔 《北京工业大学学报》 CAS CSCD 北大核心 2014年第1期17-24,共8页
为了解决空域特征与时域特征只能片面地表征视频内容的问题,提出了一种基于时空代表帧序列的视频近拷贝检测方法.首先,根据帧间颜色卡方差与灰度OM(ordinal measurement)差别进行场景分割;其次,对分割后的视频进行降帧率操作,对于每个... 为了解决空域特征与时域特征只能片面地表征视频内容的问题,提出了一种基于时空代表帧序列的视频近拷贝检测方法.首先,根据帧间颜色卡方差与灰度OM(ordinal measurement)差别进行场景分割;其次,对分割后的视频进行降帧率操作,对于每个分割后的场景,进行分段合成,并根据加权的灰度互信息量进行筛选,得到每个场景的时空代表帧(representative image),并对视频代表帧提取灰度的OM、均值、标准差、对比度以及颜色分布描述子和边缘OM序列等特征;最后,对视频的特征进行对比,根据特征的相似程度来判断检测视频是否为近拷贝视频.实验结果表明,该方法具有较好的鲁棒性和检测能力. 展开更多
关键词 视频近拷贝检测 时空代表帧 计序测量(OM)
下载PDF
一种新的时序一致性特征的近重复视频检测算法
15
作者 郭丁云 薛峰 郭旦萍 《电脑知识与技术》 2016年第11期160-163,共4页
针对基于镜头关键帧层次进行近重复视频检测耗时的问题,该文提出了一种新的视频镜头的时序一致性特征,使用该特征对已有研究的级联式近重复视频检测算法进行改进。首先在进行关键帧特征提取之前,在镜头层次利用镜头的时序一致性特征初... 针对基于镜头关键帧层次进行近重复视频检测耗时的问题,该文提出了一种新的视频镜头的时序一致性特征,使用该特征对已有研究的级联式近重复视频检测算法进行改进。首先在进行关键帧特征提取之前,在镜头层次利用镜头的时序一致性特征初步滤除掉一些完全不相同的视频,然后再使用全局分块颜色特征和SURF特征,并使用k-d树型索引结构来实现快速最近邻检测,最终逐步检测与查询视频重复或近重复的视频。通过在CC_WEB_VIDEO标准数据集上进行实验,并与现有常用的三种方法比较,结果显示本文方法的检测效果更好,尤其对于那些画面变化较大以及运动场景复杂的视频更明显。 展开更多
关键词 近重复视频检测 时序一致性特征 分块颜色特征 加速鲁棒特征 k-d树型索引结构
下载PDF
基于局部特征的WEB近重复图像检测
16
作者 刘红 文朝晖 《计算机工程与应用》 CSCD 北大核心 2010年第28期189-191,195,共4页
首先分析了不同类型的图像特征对不同重复图像类型检测性能的影响,SIFT局部描述子不仅具有良好的尺度和亮度不变性,同时对仿射形变、视角改变和噪声等也有一定的鲁棒性,因此选择了SIFT描述子来描述图像特征。同时针对SIFT特征在检测过... 首先分析了不同类型的图像特征对不同重复图像类型检测性能的影响,SIFT局部描述子不仅具有良好的尺度和亮度不变性,同时对仿射形变、视角改变和噪声等也有一定的鲁棒性,因此选择了SIFT描述子来描述图像特征。同时针对SIFT特征在检测过程中匹配计算代价大的缺点,提出了基于奇异值分解的SIFT特征点集合匹配方法,实验结果表明该方法在检测效果和检测时间方面取得了一个很好的平衡。 展开更多
关键词 图像局部特征 尺度不变特征变换(SIFT) 重复图像检测
下载PDF
一种重复视频的快速检测算法
17
作者 刘大伟 朱明 《小型微型计算机系统》 CSCD 北大核心 2013年第6期1400-1404,共5页
随着网络多媒体应用的增加,各种网络视频应用需求大规模重复视频检测的方法,尤其对检测的快速和有效性要求逐渐增高.提出一种基于多层视频内容分析的快速有效检测重复视频的算法.从视频关键帧中提取的局部特征采用一种新的自适应局部敏... 随着网络多媒体应用的增加,各种网络视频应用需求大规模重复视频检测的方法,尤其对检测的快速和有效性要求逐渐增高.提出一种基于多层视频内容分析的快速有效检测重复视频的算法.从视频关键帧中提取的局部特征采用一种新的自适应局部敏感哈希算法进行索引.通过样本学习并设定一些参数,使检索过程不需要进行高维距离计算,从而有效的提升了处理速度.检索得到的特征向量备选集经过特征过滤和两层匹配方法完成重复视频的检测流程.在标准数据集上的实验表明,与其他最新的方法相比,本文提出的算法有效的提高了大规模重复视频的检测速度. 展开更多
关键词 重复视频检索 局部敏感哈希 SURF 多媒体内容分析
下载PDF
图像型垃圾邮件过滤技术研究进展 被引量:3
18
作者 李鹏 崔刚 《智能计算机与应用》 2013年第3期28-32,36,共6页
近年来,图像型垃圾邮件数量的迅速增长使得传统垃圾邮件过滤系统面临重大挑战,并逐渐成为信息安全领域的研究热点。为了能够快速、有效地滤除图像型垃圾邮件,学者们提出了大量的过滤检测方法。首先简要介绍了图像型垃圾邮件给我国带来... 近年来,图像型垃圾邮件数量的迅速增长使得传统垃圾邮件过滤系统面临重大挑战,并逐渐成为信息安全领域的研究热点。为了能够快速、有效地滤除图像型垃圾邮件,学者们提出了大量的过滤检测方法。首先简要介绍了图像型垃圾邮件给我国带来的影响;然后结合垃圾邮件图像的特征,对图像型垃圾邮件过滤的主要技术:基于近似特征的过滤、基于图像文本特征的过滤、基于图像浅层特征的过滤等进行了分析;接下来对图像型垃圾邮件数据获取方法进行了介绍;最后对过滤技术的研究方向以及面临的挑战进行了讨论和展望。 展开更多
关键词 图像型垃圾邮件 垃圾邮件图像 特征抽取 邮件过滤 近似复制检测
下载PDF
面向文本拷贝检测的分布式索引 被引量:2
19
作者 张玥 俞昊旻 +1 位作者 张奇 黄萱菁 《中文信息学报》 CSCD 北大核心 2011年第1期91-97,共7页
如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此良好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需... 如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此良好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,需要引入分布式存储的索引。为了适应文档集规模的不断增大,良好的分布式索引应该同时具备较高的效率和可扩展性。为此该文比较了两种不同的分布式索引结构,Term-Split索引和Doc-Split索引,并且给出了Map-Reduce范式下建立这两种索引的实现,以及以这两种索引为基础的文本拷贝检测方法,Term-Split方法和Doc-Split方法。在WT10G文档集上进行的实验表明Doc-Split方法具有更好的效率和可扩展性。 展开更多
关键词 拷贝检测 重复检测 MAP-REDUCE
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部