期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于最优排序的局部敏感哈希索引 被引量:9
1
作者 冯小康 彭延国 +2 位作者 崔江涛 刘英 李辉 《计算机学报》 EI CSCD 北大核心 2020年第5期930-947,共18页
针对外存环境中海量高维数据近似最近邻(Approximate Nearest Neighbor,ANN)查询面临的"维度灾难"和I/O性能瓶颈难题,本文提出了一种基于最优排序的局部敏感哈希(Locality-Sensitive Hashing,LSH)索引方案O2LSH(Optimal Order... 针对外存环境中海量高维数据近似最近邻(Approximate Nearest Neighbor,ANN)查询面临的"维度灾难"和I/O性能瓶颈难题,本文提出了一种基于最优排序的局部敏感哈希(Locality-Sensitive Hashing,LSH)索引方案O2LSH(Optimal Order LSH).通过引入空间填充曲线为复合哈希键值建立线序并排序,使近邻候选点更多地分布在相同或相邻磁盘页面,实现用少量顺序I/O加载到足够多的候选点.本文对多种常用空间曲线技术进行了量化分析,发现:(1)基本排序方案SK-LSH使用的row-wise曲线具有"维度优先遍历"的特性,容易对ANN查询造成多种局限;(2)另一类"邻域优先遍历"特性的曲线能够产生更好的候选点局部分布,且排序性能更加稳定.通过对比,我们选取了一种最优的"邻域优先遍历"曲线构造线序,该线序能够最大程度地改善近邻候选点的局部分布,进一步提升磁盘访问效率和查询精度.在多个真实多媒体数据集上进行了对比实验,证实了O2LSH相对于先进LSH方案(包括C2LSH、SK-LSH、SRS以及QALSH)在查询精度和I/O效率上的优越性.特别地,O2LSH克服了基本排序方案SK-LSH对LSH关键参数的敏感性,算法实用性进一步提升. 展开更多
关键词 近似最近邻 高维索引 局部敏感哈希 空间线序 局部分布
下载PDF
基于联合聚类的超立方体高维索引 被引量:2
2
作者 刘英 崔江涛 《计算机科学与探索》 CSCD 2012年第11期1007-1018,共12页
高维数据集合的最近邻查询性能会受到"维数灾难"(curse of dimensionality)现象的影响。提出了一种基于联合聚类的HC2(hypercube on co-clustering)高维索引结构。首先通过联合聚类算法同时降低数据尺寸和维数,将高维数据集... 高维数据集合的最近邻查询性能会受到"维数灾难"(curse of dimensionality)现象的影响。提出了一种基于联合聚类的HC2(hypercube on co-clustering)高维索引结构。首先通过联合聚类算法同时降低数据尺寸和维数,将高维数据集合聚成若干较低维数的类,然后采用超立方体结构对每个类进行空间区域描述。在基于"过滤-精炼"(filter and refine)的查询过程中,计算查询点与各个类之间的距离下界,实现对聚类的有效过滤。为了提高距离下界对真实距离的逼近能力,采用了一种基于统计优化的超立方体区域描述方法SOHC2(statistically optimized hypercube on co-clustering),能够更加有效地缩小搜索空间,提高查询性能。理论分析和实验结果都表明,SOHC2的查询性能明显优于其他索引方法,适合大规模高维数据的查询;与同类索引结构相比,查询速度能够提高3倍以上。 展开更多
关键词 高维索引 过滤-精炼 联合聚类 超立方体
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部