-
题名基于多流3D融合网络的人体行为识别
被引量:1
- 1
-
-
作者
戎炜
张天雨
-
机构
合肥工业大学计算机与信息学院
-
出处
《智能计算机与应用》
2020年第10期86-91,94,共7页
-
文摘
人体行为识别是当前计算机视觉领域的一个重要研究分支。针对视频人体行为识别任务需要大型数据集预训练以及无法有效利用跨时间信息的问题,本文提出了基于双流卷积网络与膨胀3D卷积网络的深度神经网络模型,并重新设计网络结构,命名为多流3D融合网络。首先,利用改进的双流网络与膨胀3D网络提取人物动作特征;其次,利用分段长短期记忆网络提取时间特征;最后,利用残差连接方法融合特征,得到最终的个体识别结果,实现了精确的个体行为识别。在volleyball数据集上的实验结果表明,本文提出的方法优于当前的一些先进方法。
-
关键词
行为识别
膨胀3D卷积网络
双流卷积网络
-
Keywords
action recognition
inflated-3D convolutional network
two-stream convolutional network
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于人类演示视频的机器人指令生成框架
被引量:3
- 2
-
-
作者
莫秀云
陈俊洪
杨振国
刘文印
-
机构
广东工业大学计算机学院
-
出处
《机器人》
EI
CSCD
北大核心
2022年第2期186-194,202,共10页
-
基金
国家自然科学基金(91748107,62076073)
广东省引进创新科研团队计划(2014ZT05G157)
+1 种基金
广东省基础与应用基础研究基金(2020A1515010616)
广东省科技创新战略专项资金(pdjh2020a0173)。
-
文摘
为了提高机器人学习技能的能力,免除人工示教过程,本文基于对无特殊标记的人类演示视频的观察,提出了一种基于序列到序列模式的机器人指令自动生成框架。首先,使用Mask R-CNN(区域卷积神经网络)来缩小操作区域的范围,并采用双流I3D网络(膨胀3D卷积网络)从视频中提取光流特征和RGB特征;其次,引入双向LSTM(长短期记忆)网络从先前提取的特征中获取上下文信息;最后,使用自我注意力机制和全局注意力机制,学习视频帧序列和命令序列的关联性,序列到序列模型最终输出机器人的命令。在扩展后的MPII烹饪活动2数据集和IIT-V2C数据集上进行了大量的实验,与现有的方法进行比较,本文提出的方法在BLEU 4(0.705)和METEOR(0.462)等指标上达到目前最先进性能水平。结果表明,该方法能够从人类演示视频中学习操作任务。此外,本框架成功应用于Baxter机器人。
-
关键词
视频命令学习
细粒度视频描述
机器人学习
双流I3D网络(双流膨胀3D卷积网络)
双向LSTM(长短期记忆)
-
Keywords
videos to commands learning
fine-grained video captioning
robot learning
two-stream I3D network(inflated 3D convolutional network)
bidirectional LSTM(long and short-term memory)
-
分类号
TP242
[自动化与计算机技术—检测技术与自动化装置]
-