-
题名基于随机森林的哈希检索算法
被引量:5
- 1
-
-
作者
花强
郭欣欣
张峰
董春茹
-
机构
河北大学河北省机器学习与计算智能重点实验室
-
出处
《计算机科学与探索》
CSCD
北大核心
2019年第7期1174-1183,共10页
-
基金
河北省自然科学基金面上项目Nos.F2018201115,F2018201096
河北省教育厅青年基金No.QN2017019
河北省教育厅科学技术研究重点项目No.ZD2019021~~
-
文摘
从海量数据中进行近似数据的检索是数据挖掘领域许多应用的关键。尤其近年来,数据的规模出现爆炸式增长,数据检索需面对海量数据和“维度灾难”的叠加考验,这使得传统最近邻算法效率降低,而近似最近邻算法发挥了越来越重要的作用。其中哈希算法以其在存储空间和计算时间上的优势受到了广泛关注。提出了一种基于随机森林的哈希算法。该算法通过构建随机森林,将原始空间的样本映射为海明空间的二进制哈希码,并在哈希空间上定义了顺序敏感的海明距离,以最大程度保持数据在原空间的近邻关系不变。由于随机森林中不同决策树所使用的特征空间和学习过程是独立的,可以以增量的方式灵活地确定哈希码的长度。此外基于随机森林的哈希编码算法天然适合并行部署,从而可以大大提高算法速度。最后,在MNIST和CIFAR-10数据集对所提算法进行了实验验证,结果表明了算法的有效性和出色性能。
-
关键词
近似近邻检索(ANNS)
哈希编码
随机森林
顺序敏感的海明距离
-
Keywords
approximate nearest neighbor search (ANNS)
Hashing code
random forest
order-sensitive hamming distance
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-