针对当前人体动作识别算法中由于人体躯干遮挡而导致其检测精度不佳的问题,提出了一种基于加权三视角运动历史图像耦合时序分割的动作识别算法。首先,为了有效描述动作的形状和空间分布,从视频序列中提取运动历史图像(motion history im...针对当前人体动作识别算法中由于人体躯干遮挡而导致其检测精度不佳的问题,提出了一种基于加权三视角运动历史图像耦合时序分割的动作识别算法。首先,为了有效描述动作的形状和空间分布,从视频序列中提取运动历史图像(motion history image,MHI)。随后,应用深度相机(Kinect相机)来提取深度图像,以获取人体目标的动作前景轮廓。为了识别由于身体部位造成的自我遮挡,动作前景轮廓被投影到3个视角(3V)平面,形成3V-MHI,增强了对动作的正确提取,利用3V-MHI构造了一个用于记录观测运动轨迹的MHI,克服了单视角MHI的信息局限性。然后,利用时序分割(temporal segmentation,TS),根据相邻的3V-MHI来计算动作的能量和方向的变化,以检测运动的开始和结束,从而输出运动结果。此外,计算MHI的梯度值作为每个平面对应的权重,从而得到加权3V-MHI。最后,将提取的每个直方图运动模板与预先建立的数据库进行比较,完成动作的分类识别。实验表明,该方法能有效地解决自遮挡问题,在复杂环境和光照变化下有较高的准确性与鲁棒性。展开更多
任务中全局注意力在长距离视频序列上注意力值分布的方差较大,生成关键帧的重要性分数偏差较大,且时间序列节点边界值缺乏长程依赖导致的片段语义连贯性较差等问题,通过改进注意力模块,采用分段局部自注意力和全局自注意力机制相结合来...任务中全局注意力在长距离视频序列上注意力值分布的方差较大,生成关键帧的重要性分数偏差较大,且时间序列节点边界值缺乏长程依赖导致的片段语义连贯性较差等问题,通过改进注意力模块,采用分段局部自注意力和全局自注意力机制相结合来获取局部和全局视频序列关键特征,降低注意力值的方差。同时通过并行地引入双向门控循环网络(bidirectional recurrent neural network,BiGRU),二者的输出分别输入到改进的分类回归模块后再将结果进行加性融合,最后利用非极大值抑制(non-maximum suppression,NMS)和核时序分割方法(kernel temporal segmentation,KTS)筛选片段并分割为高质量代表性镜头,通过背包组合优化算法生成最终摘要,从而提出一种结合多尺度注意力机制和双向门控循环网络的视频摘要模型(local and global attentions combine with the BiGRU,LG-RU)。该模型在TvSum和SumMe的标准和增强数据集上进行了对比试验,结果表明该模型取得了更高的F-score,证实了该视频摘要模型保持高准确率的同时可鲁棒地对视频完成摘要。展开更多
文摘针对当前人体动作识别算法中由于人体躯干遮挡而导致其检测精度不佳的问题,提出了一种基于加权三视角运动历史图像耦合时序分割的动作识别算法。首先,为了有效描述动作的形状和空间分布,从视频序列中提取运动历史图像(motion history image,MHI)。随后,应用深度相机(Kinect相机)来提取深度图像,以获取人体目标的动作前景轮廓。为了识别由于身体部位造成的自我遮挡,动作前景轮廓被投影到3个视角(3V)平面,形成3V-MHI,增强了对动作的正确提取,利用3V-MHI构造了一个用于记录观测运动轨迹的MHI,克服了单视角MHI的信息局限性。然后,利用时序分割(temporal segmentation,TS),根据相邻的3V-MHI来计算动作的能量和方向的变化,以检测运动的开始和结束,从而输出运动结果。此外,计算MHI的梯度值作为每个平面对应的权重,从而得到加权3V-MHI。最后,将提取的每个直方图运动模板与预先建立的数据库进行比较,完成动作的分类识别。实验表明,该方法能有效地解决自遮挡问题,在复杂环境和光照变化下有较高的准确性与鲁棒性。
文摘任务中全局注意力在长距离视频序列上注意力值分布的方差较大,生成关键帧的重要性分数偏差较大,且时间序列节点边界值缺乏长程依赖导致的片段语义连贯性较差等问题,通过改进注意力模块,采用分段局部自注意力和全局自注意力机制相结合来获取局部和全局视频序列关键特征,降低注意力值的方差。同时通过并行地引入双向门控循环网络(bidirectional recurrent neural network,BiGRU),二者的输出分别输入到改进的分类回归模块后再将结果进行加性融合,最后利用非极大值抑制(non-maximum suppression,NMS)和核时序分割方法(kernel temporal segmentation,KTS)筛选片段并分割为高质量代表性镜头,通过背包组合优化算法生成最终摘要,从而提出一种结合多尺度注意力机制和双向门控循环网络的视频摘要模型(local and global attentions combine with the BiGRU,LG-RU)。该模型在TvSum和SumMe的标准和增强数据集上进行了对比试验,结果表明该模型取得了更高的F-score,证实了该视频摘要模型保持高准确率的同时可鲁棒地对视频完成摘要。