点云被广泛使用在各种三维应用场景中,但是实际应用中通常存在扫描、标注费时费力等局限性,因此基于小样本数据集的点云分类网络更加符合应用需求.为了有效地提高深度学习分类算法在小样本点云数据集上的分类效果,提出一种针对小样本数...点云被广泛使用在各种三维应用场景中,但是实际应用中通常存在扫描、标注费时费力等局限性,因此基于小样本数据集的点云分类网络更加符合应用需求.为了有效地提高深度学习分类算法在小样本点云数据集上的分类效果,提出一种针对小样本数据集的点云分类方法.针对训练数据集不平衡问题,首先采用基于相似度依赖的Dirichlet中餐馆过程对数据集进行预处理,在无需人工指定聚类个数的前提下对样本进行重新聚类,以提升分类网络在小样本数据集上的性能;然后在重新聚类后的样本上使用模型无关(model agnostic meta learning,MAML)算法训练PointNet++,达到用少量点云样本就能快速适应新任务的能力.所提方法不但降低了模型对数据量的依赖,提高了模型泛化能力,而且成功地把MAML算法从二维图像分类拓展到三维点云分类中;在Modelnet40数据集上的实验结果表明,与PointNet++相比,该方法的训练时间减少了一半,分类准确率平均提高6.67%,验证了该方法在小样本数据集上的有效性.展开更多
尽管深度神经网络在很多任务上取得了良好的结果,但是它们对于微小的对抗扰动却很容易出现预测错误.然而在人体姿态估计的对抗攻击任务中,通常需要添加较大的扰动噪声才能攻击成功,这使得其不可察性变差;减少扰动噪声又会削弱攻击效果....尽管深度神经网络在很多任务上取得了良好的结果,但是它们对于微小的对抗扰动却很容易出现预测错误.然而在人体姿态估计的对抗攻击任务中,通常需要添加较大的扰动噪声才能攻击成功,这使得其不可察性变差;减少扰动噪声又会削弱攻击效果.为了克服该矛盾,提出一种面向人体姿态估计的两阶段局部对抗攻击方法.所提方法首先通过预攻击估计出扰动关键区域,然后利用不可察性约束在关键区域内生成扰动.方法不仅可以对人体姿态进行有效攻击,而且还能确保最终扰动区域具有低可察性.采用COCO2017作为对抗扰动实验数据集并使用PCK(percentage of correct keypoints)作为评价指标,比较在人体姿态估计模型中IGSM和C&W方法的攻击效果,其PCK降低值分别提高了15.4%与2.8%.实验结果表明所提方法在保证攻击的低可察的同时,能够取得较好的攻击效果.展开更多
市场主流基于传统图像处理的足部尺寸测量算法存在工作运行效率低、测量结果误差大等问题.针对该问题,本文提出一种基于深度学习与传统图像处理相结合的足部尺寸测量系统.首先,使用YOLOv5(you only look once v5)检测出A4纸的有效区域,...市场主流基于传统图像处理的足部尺寸测量算法存在工作运行效率低、测量结果误差大等问题.针对该问题,本文提出一种基于深度学习与传统图像处理相结合的足部尺寸测量系统.首先,使用YOLOv5(you only look once v5)检测出A4纸的有效区域,再采用RCF(richer convolutional features for edge detection)边缘检测方法提取A4纸及足部的边缘信息,通过A4纸的边缘估计出4个顶点来进行图像矫正.最后,对已矫正的图像使用降噪、滤波与二值化处理,从而计算出足部尺寸.在自行收集的足部样本数据集上进行测试,准确性为97.36%.实验结果表明,本文提出的基于YOLOv5和RCF的足部尺寸测量系统,提高了足部测量的精度以及运行效率,可帮助用户更便捷更高效更精确地获取个人足部数据,具有较好的实用价值和较广的应用前景.展开更多
目的6D姿态估计是3D目标识别及重建中的一个重要问题。由于很多物体表面光滑、无纹理,特征难以提取,导致检测难度大。很多算法依赖后处理过程提高姿态估计精度,导致算法速度降低。针对以上问题,本文提出一种基于热力图的6D物体姿态估计...目的6D姿态估计是3D目标识别及重建中的一个重要问题。由于很多物体表面光滑、无纹理,特征难以提取,导致检测难度大。很多算法依赖后处理过程提高姿态估计精度,导致算法速度降低。针对以上问题,本文提出一种基于热力图的6D物体姿态估计算法。方法首先,采用分割掩码避免遮挡造成的热力图污染导致的特征点预测准确率下降问题。其次,基于漏斗网络架构,无需后处理过程,保证算法具有高效性能。在物体检测阶段,采用一个分割网络结构,使用速度较快的YOLOv3(you only look once v3)作为网络骨架,目的在于预测目标物体掩码分割图,从而减少其他不相关物体通过遮挡带来的影响。为了提高掩码的准确度,增加反卷积层提高特征层的分辨率并对它们进行融合。然后,针对关键点采用漏斗网络进行特征点预测,避免残差网络模块由于局部特征丢失导致的关键点检测准确率下降问题。最后,对检测得到的关键点进行位姿计算,通过PnP(perspective-n-point)算法恢复物体的6D姿态。结果在有挑战的Linemod数据集上进行实验。实验结果表明,本文算法的3D误差准确性为82.7%,与热力图方法相比提高了10%;2D投影准确性为98.9%,比主流算法提高了4%;同时达到了15帧/s的检测速度。结论本文提出的基于掩码和关键点检测算法不仅有效提高了6D姿态估计准确性,而且可以维持高效的检测速度。展开更多
Fractional motion estimation(FME) improves the video encoding efficiency significantly. However, its high computational complexity limits the real-time processing capability. Therefore, it is a key problem to reduce t...Fractional motion estimation(FME) improves the video encoding efficiency significantly. However, its high computational complexity limits the real-time processing capability. Therefore, it is a key problem to reduce the implementation complexity of FME, especially in hardware design. This paper presents a novel deeply pipelined interpolation architecture of FME for the real-time realization of H.265/HEVC full Ultra-HD video encoder. First, a pipelined interpolation architecture together with an elegant processing order is proposed to deal with different search positions in parallel without pipeline stall and data conflict. Second, interpolation results sharing strategies are exploited among search positions to reduce the memory cost. Finally, the structure of the interpolation filter is further optimized for an area efficient implementation. As a result, the proposed design costs 41 917 slice LUTs on the Xilinx Kintex-7 FPGA platform with a 308 MHz working frequency. The measured throughput reaches a record of 1.238 Gpixels/s, which is sufficient for the real-time encoding of 8192×4320@ 30 fps video.展开更多
文摘点云被广泛使用在各种三维应用场景中,但是实际应用中通常存在扫描、标注费时费力等局限性,因此基于小样本数据集的点云分类网络更加符合应用需求.为了有效地提高深度学习分类算法在小样本点云数据集上的分类效果,提出一种针对小样本数据集的点云分类方法.针对训练数据集不平衡问题,首先采用基于相似度依赖的Dirichlet中餐馆过程对数据集进行预处理,在无需人工指定聚类个数的前提下对样本进行重新聚类,以提升分类网络在小样本数据集上的性能;然后在重新聚类后的样本上使用模型无关(model agnostic meta learning,MAML)算法训练PointNet++,达到用少量点云样本就能快速适应新任务的能力.所提方法不但降低了模型对数据量的依赖,提高了模型泛化能力,而且成功地把MAML算法从二维图像分类拓展到三维点云分类中;在Modelnet40数据集上的实验结果表明,与PointNet++相比,该方法的训练时间减少了一半,分类准确率平均提高6.67%,验证了该方法在小样本数据集上的有效性.
文摘尽管深度神经网络在很多任务上取得了良好的结果,但是它们对于微小的对抗扰动却很容易出现预测错误.然而在人体姿态估计的对抗攻击任务中,通常需要添加较大的扰动噪声才能攻击成功,这使得其不可察性变差;减少扰动噪声又会削弱攻击效果.为了克服该矛盾,提出一种面向人体姿态估计的两阶段局部对抗攻击方法.所提方法首先通过预攻击估计出扰动关键区域,然后利用不可察性约束在关键区域内生成扰动.方法不仅可以对人体姿态进行有效攻击,而且还能确保最终扰动区域具有低可察性.采用COCO2017作为对抗扰动实验数据集并使用PCK(percentage of correct keypoints)作为评价指标,比较在人体姿态估计模型中IGSM和C&W方法的攻击效果,其PCK降低值分别提高了15.4%与2.8%.实验结果表明所提方法在保证攻击的低可察的同时,能够取得较好的攻击效果.
文摘市场主流基于传统图像处理的足部尺寸测量算法存在工作运行效率低、测量结果误差大等问题.针对该问题,本文提出一种基于深度学习与传统图像处理相结合的足部尺寸测量系统.首先,使用YOLOv5(you only look once v5)检测出A4纸的有效区域,再采用RCF(richer convolutional features for edge detection)边缘检测方法提取A4纸及足部的边缘信息,通过A4纸的边缘估计出4个顶点来进行图像矫正.最后,对已矫正的图像使用降噪、滤波与二值化处理,从而计算出足部尺寸.在自行收集的足部样本数据集上进行测试,准确性为97.36%.实验结果表明,本文提出的基于YOLOv5和RCF的足部尺寸测量系统,提高了足部测量的精度以及运行效率,可帮助用户更便捷更高效更精确地获取个人足部数据,具有较好的实用价值和较广的应用前景.
文摘目的6D姿态估计是3D目标识别及重建中的一个重要问题。由于很多物体表面光滑、无纹理,特征难以提取,导致检测难度大。很多算法依赖后处理过程提高姿态估计精度,导致算法速度降低。针对以上问题,本文提出一种基于热力图的6D物体姿态估计算法。方法首先,采用分割掩码避免遮挡造成的热力图污染导致的特征点预测准确率下降问题。其次,基于漏斗网络架构,无需后处理过程,保证算法具有高效性能。在物体检测阶段,采用一个分割网络结构,使用速度较快的YOLOv3(you only look once v3)作为网络骨架,目的在于预测目标物体掩码分割图,从而减少其他不相关物体通过遮挡带来的影响。为了提高掩码的准确度,增加反卷积层提高特征层的分辨率并对它们进行融合。然后,针对关键点采用漏斗网络进行特征点预测,避免残差网络模块由于局部特征丢失导致的关键点检测准确率下降问题。最后,对检测得到的关键点进行位姿计算,通过PnP(perspective-n-point)算法恢复物体的6D姿态。结果在有挑战的Linemod数据集上进行实验。实验结果表明,本文算法的3D误差准确性为82.7%,与热力图方法相比提高了10%;2D投影准确性为98.9%,比主流算法提高了4%;同时达到了15帧/s的检测速度。结论本文提出的基于掩码和关键点检测算法不仅有效提高了6D姿态估计准确性,而且可以维持高效的检测速度。
基金Supported by the Zhejiang Provincial Natural Science Foundation of China(No.LQ15F010001,LY16F020029)the General Research Project of Zhejiang Provincial Education Department(No.Y201430479)
文摘Fractional motion estimation(FME) improves the video encoding efficiency significantly. However, its high computational complexity limits the real-time processing capability. Therefore, it is a key problem to reduce the implementation complexity of FME, especially in hardware design. This paper presents a novel deeply pipelined interpolation architecture of FME for the real-time realization of H.265/HEVC full Ultra-HD video encoder. First, a pipelined interpolation architecture together with an elegant processing order is proposed to deal with different search positions in parallel without pipeline stall and data conflict. Second, interpolation results sharing strategies are exploited among search positions to reduce the memory cost. Finally, the structure of the interpolation filter is further optimized for an area efficient implementation. As a result, the proposed design costs 41 917 slice LUTs on the Xilinx Kintex-7 FPGA platform with a 308 MHz working frequency. The measured throughput reaches a record of 1.238 Gpixels/s, which is sufficient for the real-time encoding of 8192×4320@ 30 fps video.