针对图像分类问题进行了研究,提出一种改进的局部聚合描述符(vector of locally aggregated descriptors,VLAD)算法以得到高效的图像特征表示。采用卷积神经网络提取图像的密集局部特征。正态分布式选取子集训练视觉字典,提高字典质量;...针对图像分类问题进行了研究,提出一种改进的局部聚合描述符(vector of locally aggregated descriptors,VLAD)算法以得到高效的图像特征表示。采用卷积神经网络提取图像的密集局部特征。正态分布式选取子集训练视觉字典,提高字典质量;然后,采用多近邻分配代替最近邻匹配,将特征量化到多个视觉字典且赋予不同的权重;最后,基于VLAD原理对图像局部特征进行编码,并用支持向量机对目标进行分类。在多个数据集上的实验结果表明,与近年提出的几种经典的图像分类算法相比,所提方法取得了较高的分类正确率。展开更多
同步定位与建图(Simultaneous Localization and Mapping,SLAM)问题近年来已成为机器人导航领域的热门研究话题,作为其重要环节之一,回环检测用以消除整个过程中的累积误差.针对该环节高效率的需求,本文提出了一种基于局部特征ORB和全...同步定位与建图(Simultaneous Localization and Mapping,SLAM)问题近年来已成为机器人导航领域的热门研究话题,作为其重要环节之一,回环检测用以消除整个过程中的累积误差.针对该环节高效率的需求,本文提出了一种基于局部特征ORB和全局描述符VLAD组合的快速回环检测算法.首先,使用一种全新的二值特征的VLAD量化算法(Binary-VLAD)提取全局特征,在保持描述符代表性的同时加快运行速度.然后,在全局粗搜索阶段,改进倒排索引结构,有效地减少了计算量和存储空间.其次,在几何验证阶段,使用一种基于空间相似性的偏移稳定模型,无需像RANSAC一样恢复基本矩阵,简捷高效.最后,在3个数据集上进行了验证实验,并与经典的词袋模型方法以及最新的基于深度学习的方法进行对比.实验结果表明,本文所提出的算法仅耗时19ms,明显优于经典的词袋模型算法,相比于最新的深度学习算法,时间效率更是提升近10倍,并且在保持100%准确率的前提下,召回率优于两者.展开更多
文摘针对图像分类问题进行了研究,提出一种改进的局部聚合描述符(vector of locally aggregated descriptors,VLAD)算法以得到高效的图像特征表示。采用卷积神经网络提取图像的密集局部特征。正态分布式选取子集训练视觉字典,提高字典质量;然后,采用多近邻分配代替最近邻匹配,将特征量化到多个视觉字典且赋予不同的权重;最后,基于VLAD原理对图像局部特征进行编码,并用支持向量机对目标进行分类。在多个数据集上的实验结果表明,与近年提出的几种经典的图像分类算法相比,所提方法取得了较高的分类正确率。
文摘同步定位与建图(Simultaneous Localization and Mapping,SLAM)问题近年来已成为机器人导航领域的热门研究话题,作为其重要环节之一,回环检测用以消除整个过程中的累积误差.针对该环节高效率的需求,本文提出了一种基于局部特征ORB和全局描述符VLAD组合的快速回环检测算法.首先,使用一种全新的二值特征的VLAD量化算法(Binary-VLAD)提取全局特征,在保持描述符代表性的同时加快运行速度.然后,在全局粗搜索阶段,改进倒排索引结构,有效地减少了计算量和存储空间.其次,在几何验证阶段,使用一种基于空间相似性的偏移稳定模型,无需像RANSAC一样恢复基本矩阵,简捷高效.最后,在3个数据集上进行了验证实验,并与经典的词袋模型方法以及最新的基于深度学习的方法进行对比.实验结果表明,本文所提出的算法仅耗时19ms,明显优于经典的词袋模型算法,相比于最新的深度学习算法,时间效率更是提升近10倍,并且在保持100%准确率的前提下,召回率优于两者.
文摘本文提出一种采用尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)和局部聚合向量(Vector of Locally Aggregated Descriptors,VLAD)特征编码的布匹检索算法。首先,提取图像的SIFT特征,以对图像进行特征表达。但是,每张图像SIFT特征点数量可能不同,导致不同图像的特征向量维度不一致,无法直接进行图像之间的相似度计算。为此,本文进一步对图像的SIFT特征进行VLAD编码,在保证不同图像的特征维度一致的同时,改进SIFT特征对图像的表达能力。在VLAD编码方面,先用K-means聚类算法生成视觉词典;再进行特征向量局部聚合。局部聚合过程包括:首先,计算图像中SIFT特征向量与对应视觉词之间的残差;然后,将每个视觉词相应的残差求和;最后,把各个视觉词上的残差求和值进行串联得到图像的VLAD编码。本文实验采用十次平均的累计匹配特性(Cumulative Match Characteristic,CMC)曲线作为性能指标。结果表明,本文所提出的方法能提高检索速度,且具有较高的识别率,其平均Rank 1识别率达到95.03%。