在实时语义分割方法研究中,由于目标感受野有限,目前仍然存在大目标分割不准确和细节信息丢失的问题。针对这个问题,提出一种基于多分支结构和注意力机制的实时语义分割算法。首先,本文构建多分支结构的细节路径以保留多尺度细节信息,...在实时语义分割方法研究中,由于目标感受野有限,目前仍然存在大目标分割不准确和细节信息丢失的问题。针对这个问题,提出一种基于多分支结构和注意力机制的实时语义分割算法。首先,本文构建多分支结构的细节路径以保留多尺度细节信息,减少小目标细节丢失;其次,设计空洞金字塔分支扩大感受野,以覆盖视野内大目标,进一步丰富上下文信息;最后,提出双边注意力特征融合模块,以增强特征融合时对关键特征的选择,弥补小目标信息的缺失。在Cityscapes测试集、CamVid测试集所提模型的平均交并比(mIoU)为74.6%与73.6%,每秒传输帧数(Frames Per Second,FPS)为94与74;较于BiSeNet,本文算法的mIoU分别提高了6.2、8.0个百分点。实验结果表明,本文算法在实时性和准确性方面获得了很好的平衡。展开更多
基于与人交互的物体对人体行为识别的重要作用,本文提出了融合交互物体和能量信息等特征的三维复杂人体识别方法.首先提取手持物体的Hu矩作为交互物体特征,然后根据人体行为的生物学和运动学特征,从人体运动的能量角度提取人体骨架动能...基于与人交互的物体对人体行为识别的重要作用,本文提出了融合交互物体和能量信息等特征的三维复杂人体识别方法.首先提取手持物体的Hu矩作为交互物体特征,然后根据人体行为的生物学和运动学特征,从人体运动的能量角度提取人体骨架动能、姿态势能、关节点位置等构建了局部特征矩阵,并聚类为词袋(Bag Of Word,BOW),与交互物体特征构成最终的组合特征;为了自动分割交互物体,我们提出了基于Harris角点的种子区域生长法,快速完整地分割手持物体;最后利用RBFSVM方法进行人体行为识别.实验结果表明融合交互物体信息和能量特征的三维人体行为识别方法具有较高的识别率,尤其能够较大幅度降低易混淆复杂动作的误识别率.展开更多
本文提出一种自适应感受野卷积神经网络结构,简称ARFN(Adaptive Receptive Field Network).通过卷积核的自主选择机制来实现感受野的动态调整,更大程度上获取残差网络低层特征的空间信息并与高层特征进行自适应融合,弥补高层特征空间信...本文提出一种自适应感受野卷积神经网络结构,简称ARFN(Adaptive Receptive Field Network).通过卷积核的自主选择机制来实现感受野的动态调整,更大程度上获取残差网络低层特征的空间信息并与高层特征进行自适应融合,弥补高层特征空间信息不足的缺陷.同时,在残差块中加入一种轻量的新型注意力机制,通过一维空洞卷积实现特征通道间适当的非线性交互,有效地学习各通道特征的权重.相较于一些主流的注意力模块而言,在保证性能提升的同时大幅度缩减了参数量.通过在公开数据集上进行图像分类和目标检测实验验证网络的有效性,结果表明本文提出的网络结构在视觉任务上性能都有较大提升.展开更多
文摘在实时语义分割方法研究中,由于目标感受野有限,目前仍然存在大目标分割不准确和细节信息丢失的问题。针对这个问题,提出一种基于多分支结构和注意力机制的实时语义分割算法。首先,本文构建多分支结构的细节路径以保留多尺度细节信息,减少小目标细节丢失;其次,设计空洞金字塔分支扩大感受野,以覆盖视野内大目标,进一步丰富上下文信息;最后,提出双边注意力特征融合模块,以增强特征融合时对关键特征的选择,弥补小目标信息的缺失。在Cityscapes测试集、CamVid测试集所提模型的平均交并比(mIoU)为74.6%与73.6%,每秒传输帧数(Frames Per Second,FPS)为94与74;较于BiSeNet,本文算法的mIoU分别提高了6.2、8.0个百分点。实验结果表明,本文算法在实时性和准确性方面获得了很好的平衡。
文摘基于与人交互的物体对人体行为识别的重要作用,本文提出了融合交互物体和能量信息等特征的三维复杂人体识别方法.首先提取手持物体的Hu矩作为交互物体特征,然后根据人体行为的生物学和运动学特征,从人体运动的能量角度提取人体骨架动能、姿态势能、关节点位置等构建了局部特征矩阵,并聚类为词袋(Bag Of Word,BOW),与交互物体特征构成最终的组合特征;为了自动分割交互物体,我们提出了基于Harris角点的种子区域生长法,快速完整地分割手持物体;最后利用RBFSVM方法进行人体行为识别.实验结果表明融合交互物体信息和能量特征的三维人体行为识别方法具有较高的识别率,尤其能够较大幅度降低易混淆复杂动作的误识别率.
文摘本文提出一种自适应感受野卷积神经网络结构,简称ARFN(Adaptive Receptive Field Network).通过卷积核的自主选择机制来实现感受野的动态调整,更大程度上获取残差网络低层特征的空间信息并与高层特征进行自适应融合,弥补高层特征空间信息不足的缺陷.同时,在残差块中加入一种轻量的新型注意力机制,通过一维空洞卷积实现特征通道间适当的非线性交互,有效地学习各通道特征的权重.相较于一些主流的注意力模块而言,在保证性能提升的同时大幅度缩减了参数量.通过在公开数据集上进行图像分类和目标检测实验验证网络的有效性,结果表明本文提出的网络结构在视觉任务上性能都有较大提升.