-
题名基于分块sim-min-Hash的近似图像检索
被引量:2
- 1
-
-
作者
刘翔宇
-
机构
北京大学软件与微电子学院
-
出处
《计算机应用与软件》
北大核心
2019年第7期259-263,299,共6页
-
文摘
基于内容的图像检索技术(Content-Based ImageRetrieval,CBIR)突破传统基于文本的图像检索(Text-based Image Retrieval,TBIR)所造成的工作量大量性和主观注释信息不稳定性的瓶颈,大大提高图像资源的利用率,为使用者提供全新的体验。近似图像(Near Duplicate Images)被定义为对于同一物体或场景,在不同的拍摄情况(遮挡,位移,光线变化,背景,色差)下获取的图像,是CBIR重要检索对象之一。基于传统的min-Hash和sim-min-Hash算法,引入分块技术、块重叠技术、目标定位技术,提出分块sim-min-Hash算法(Partition sim-min-Hash)用来进行近似图像检索。并且在速度、查准率和查全率上对分块sim-min-Hash和sim-min-Hash标准min-Hash做了严格的比较。该算法对图像进行分块处理,极大地提高了运行速度和准确度。
-
关键词
min-hash
图像检索
Sim-min-hash
PsmH
-
Keywords
min-hash
Image retrieval
Sim-min-hash
PsmH
-
分类号
TP315.69
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Min-Hash数据降维的伴随关系研究
被引量:1
- 2
-
-
作者
黄晓雄
李博文
卢云亮
林璋
史超
陈伟
章武盛
-
机构
广州汇智通信技术有限公司
-
出处
《中国电子科学研究院学报》
北大核心
2020年第10期984-988,共5页
-
基金
国家重点研发计划(2017YFC0820500)。
-
文摘
文中提出一种新的计算伴随关系(同行、同停留)的方法,该方法基于手机信号数据、人脸行踪和车辆记录等多源数据。首先,利用ID-MAPPING技术将多源数据统一关联到同一ID,实现数据融合;接着,采用min-Hash算法进行数据降维,降低运算量和存储空间;最后,利用分块Hash映射将具有相同轨迹特征片段的用户映射进同一个桶,计算时空相似度,得到具有相似时空序列的人员列表,从而生成伴随关系。实测数据表明:该方法在提高伴随关系准确度的同时,运行效率比传统方法提升了12倍。
-
关键词
伴随关系
ID-MAPPING
min-hash
时空相似度
-
Keywords
accompany relation
ID-MAPPING
min-hash
space-time similarity
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名空间局部重合图像的快速聚类
- 3
-
-
作者
汪国安
郭昕
-
机构
河南大学计算机与信息工程学院
河南大学网络信息中心
-
出处
《河南教育学院学报(自然科学版)》
2015年第2期23-29,共7页
-
文摘
采用视觉词袋模型表示图像,以快速检测空间上部分重合图像对的最小哈希算法为基础,提出一种对局部重合图像聚类即数据挖掘的方法,能够找到类种子的概率随着类别中图像数目的增长显著增加.对聚类的结果进行空间上的验证,并在大小分别为104、105以及5×106的图像数据集上对该算法的效果进行测试.算法的速度依赖于数据集中图像的数目和数据集中类别的数目,类种子生成的时间复杂度线性相关于数据集大小.
-
关键词
最小哈希
视觉词袋模型
图像聚类
局部重合图像
数据挖掘
-
Keywords
min-hash
bag of visual word
image clustering
partial duplicate images
data mining
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名低支持度关联规则挖掘的一种算法
- 4
-
-
作者
卢世海
齐雁
-
机构
中原工学院计算机科学系
武汉大学计算机学院
-
出处
《中原工学院学报》
CAS
2003年第2期57-59,共3页
-
文摘
针对已有的对低支持度关联规则进行挖掘的算法中没有提出对具有多个相关项的关联规则进行挖掘的有效方法,本文提出一种能够对低支持度关联规则的多个相关项进行有效挖掘的方法.算法基于相似度来衡量各个相关项的关联程度,在已有算法的基础上增加了一次特殊的矩阵转换,从而将对项的相似度衡量方法进行了转换,转换后的矩阵可以基于Apriori性质来拓展多个相似相关项.算法在低支持度情况下具有较高的挖掘效率和良好的挖掘效果.算法还可以用来挖掘多个项之间的排斥规则.
-
关键词
数据挖掘
关联规则
APRIORI性质
算法
矩阵转换
相似度
-
Keywords
data mining
association rules
property apriori
min-hash
similar
-
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
TP311.13
[自动化与计算机技术—控制科学与工程]
-
-
题名高效的数据源选择方式
被引量:1
- 5
-
-
作者
黄维篁
李国良
冯建华
-
机构
清华大学计算机科学与技术系
-
出处
《计算机科学与探索》
CSCD
2010年第10期890-898,共9页
-
基金
国家自然科学基金No.60873065
国家高技术研究发展计划(863)No.2009AA011906
内蒙古自治区高等学校科学研究项目No.NJzy08152~~
-
文摘
随着关键词查询技术的飞速发展和互联网数据的迅猛增长,高效、准确的数据源选择变得十分有意义。提出了一种基于倒排列表的数据源选择方式,通过这种方式,能够在短时间内选择出相关度高的数据源,在这些数据源中执行检索,从而减少查询时间,给用户带来了更好的查询体验。从实验结果可以看出,这种方法在实际系统(例如机票查询系统)中可以得到很好的效果。为了在大规模的数据集上高效地实现相关算法,将min-hash算法应用到相似度估计中来,减少了查询空间和时间的消耗。与传统算法的比较结果表明:min-hash算法能够得到较高的精确度,并且极大地节省了算法的运行时间。
-
关键词
数据源选择
关键词查询
概要
min-hash算法
-
Keywords
database selection
keyword search
database summary
min-hash based algorithm
-
分类号
TP311.133.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于压缩直方图的劣质数据库上相似连接结果大小估计
被引量:2
- 6
-
-
作者
张岩
杨忠胜
王宏志
高宏
李建中
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第10期2113-2120,共8页
-
基金
国家"九七三"重点基础研究发展计划项目(2012CB316200)资助
国家自然科学基金项目(61003046)资助
教育部博士点基金项目(20102302120054)资助
-
文摘
现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出查询结果.鉴于该模型的特点,传统的估计查询代价的优化方法很难再适用,需要新的代价估计技术.本文提出了一种新的估计连接结果大小的方法.使用加权的最小哈希函数获得某一属性的最小哈希签名,这使得属性具有相同维数,便于利用直方图进行快速估计;然后建立其直方图,最后使用改进的离散余弦变换压缩直方图信息,使用压缩信息直接进行代价估计,这使得即使对于高维数据也能保证低错误率和低存储代价.此外,此方法可以很好的支持动态数据更新,消除周期性重建直方图的时间开销.
-
关键词
劣质数据
连接估计
最小哈希签名
压缩直方图
-
Keywords
dirty data
join size estimation
min-hash signature
compressed histogram
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-