期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
阅读障碍儿童视觉记忆研究 被引量:15
1
作者 刘翔平 刘希庆 徐先金 《中国临床心理学杂志》 CSCD 2004年第3期246-249,共4页
目的 :研究阅读障碍儿童视觉短时和工作记忆能力特点。方法 :采用on -line的实验方法 ,比较小学三年级阅读障碍儿童和正常儿童对简单材料和复杂材料的视觉短时和工作记忆能力。结果 :(1 )在视觉短时记忆能力上 ,阅读障碍儿童与正常儿童... 目的 :研究阅读障碍儿童视觉短时和工作记忆能力特点。方法 :采用on -line的实验方法 ,比较小学三年级阅读障碍儿童和正常儿童对简单材料和复杂材料的视觉短时和工作记忆能力。结果 :(1 )在视觉短时记忆能力上 ,阅读障碍儿童与正常儿童不存在显著差异 ;(2 )在视觉工作记忆能力上 ,无论是对简单的视觉材料还是复杂的视觉材料 ,阅读障碍儿童都显著落后于正常儿童 ,工作记忆存在一定的落后。结论 展开更多
关键词 阅读障碍 视觉记忆能力 短时记忆 工作记忆
下载PDF
视觉感觉记忆信息在模式识别中的作用 被引量:8
2
作者 马振玲 杨仲乐 《心理科学》 CSSCI CSCD 北大核心 2004年第3期624-627,共4页
该研究设计了新的实验方法进行了两项全部报告实验和两项抽样模式识别实验,考察视觉感觉记忆(visual sensorymemory,VSM)信息在模式识别中的作用。结果发现,在限定利用短时记忆(shor-term memory,STM)信息的抽样模式识别作业中,识别出... 该研究设计了新的实验方法进行了两项全部报告实验和两项抽样模式识别实验,考察视觉感觉记忆(visual sensorymemory,VSM)信息在模式识别中的作用。结果发现,在限定利用短时记忆(shor-term memory,STM)信息的抽样模式识别作业中,识别出的模式与转换到短时记忆的模式在数量上无显著性差别,而在短时记忆和感觉记忆信息都可能利用的识别作业中,虽然转换到短时记忆的模式数量并未增加,但识别出的模式比转换到短时记忆的模式数量增加了1倍(P<0.001)。这表明,未能转换到短时记忆的感觉记忆信息可被直接用于模式识别。 展开更多
关键词 视觉感觉记忆 模式识别 短时记忆 感觉记忆信息
下载PDF
工作记忆在监控作业情境意识保持中的作用 被引量:8
3
作者 傅亚强 许百华 《心理科学》 CSSCI CSCD 北大核心 2012年第5期1077-1082,共6页
本研究通过模拟复杂人机系统的监控作业,考察了长时工作记忆与短时工作记忆在情境意识保持中的作用。研究采用模拟的飞行相撞判断任务,通过考察中断任务对情境意识的影响,分析情境意识在记忆中的存储地点。本研究选择了心理旋转和算式... 本研究通过模拟复杂人机系统的监控作业,考察了长时工作记忆与短时工作记忆在情境意识保持中的作用。研究采用模拟的飞行相撞判断任务,通过考察中断任务对情境意识的影响,分析情境意识在记忆中的存储地点。本研究选择了心理旋转和算式判断两种中断任务。实验结果表明,在问题回答之前的中断阶段,无论施加心理旋转任务,还是施加算式判断任务,无论中断任务的加工负荷与记忆负荷有多高,熟练被试的情境意识始终保持于较高的水平,并没有因受到中断任务的干扰而出现下降。新手被试的情境意识受到心理旋转任务和算式判断任务的显著影响,两种任务的执行速度越快、记忆负荷越大,情绪意识水平就越低。本研究结果说明熟练被试可以利用长时工作记忆存储情境意识,新手被试主要利用短时工作记忆存储情境意识。 展开更多
关键词 情境意识 监控作业 长时工作记忆 短时工作记忆
下载PDF
视觉长时记忆激活度对促进视觉短时记忆的影响 被引量:6
4
作者 鲍旭辉 姬鸣 +2 位作者 黄杰 何立国 游旭群 《心理学报》 CSSCI CSCD 北大核心 2014年第8期1086-1093,共8页
短时记忆与长时记忆的关系是记忆领域研究的重要内容。基于此,研究者们就视觉长时记忆是否能促进视觉短时记忆的问题展开了大量研究,但所得出的结论并不一致。通过不同程度的学习形成不同激活度的视觉长时记忆,考察对几何图形的视觉长... 短时记忆与长时记忆的关系是记忆领域研究的重要内容。基于此,研究者们就视觉长时记忆是否能促进视觉短时记忆的问题展开了大量研究,但所得出的结论并不一致。通过不同程度的学习形成不同激活度的视觉长时记忆,考察对几何图形的视觉长时记忆是否能对变化检测中的短时记忆起到促进作用。结果发现,低激活水平的视觉长时记忆不能促进视觉短时记忆,而事先存在且高度激活的视觉长时记忆对视觉短时记忆却具有促进作用;同时,随着视觉长时记忆激活水平的提高,刺激间间隔的效应值也逐渐减小。本研究说明,视觉长时记忆能否促进视觉短时记忆取决于视觉长时记忆的激活水平,高激活的视觉长时记忆对阻止视觉短时记忆痕迹的迅速消退具有重要意义。 展开更多
关键词 视觉短时记忆 视觉长时记忆 变化检测 激活度
下载PDF
对感觉记忆在相同范畴视觉搜索中作用的研究 被引量:3
5
作者 马振玲 杨仲乐 《心理学探新》 CSSCI 2004年第1期43-46,共4页
该文以三种字母卡片为刺激物,通过两种靶字母搜索实验,探讨了感觉记忆在相同范畴视觉搜索中的作用。实验结果显示,感觉记忆和短时记忆信息都可能利用时的搜索成绩,明显高于限用短时记忆信息时的搜索成绩。这表明,感觉记忆信息可以直接... 该文以三种字母卡片为刺激物,通过两种靶字母搜索实验,探讨了感觉记忆在相同范畴视觉搜索中的作用。实验结果显示,感觉记忆和短时记忆信息都可能利用时的搜索成绩,明显高于限用短时记忆信息时的搜索成绩。这表明,感觉记忆信息可以直接用于相同范畴的视觉搜索。 展开更多
关键词 感觉记忆 视觉搜索 短时记忆信息 信息量 认知心理学
下载PDF
编码时间对序列视觉信息整合的影响 被引量:5
6
作者 任衍具 禤宇明 傅小兰 《心理科学》 CSSCI CSCD 北大核心 2007年第5期1077-1080,共4页
本研究采用空白单元格定位任务,探讨序列刺激整合的时间特性。实验1重复前人的实验,验证了时间间隔对整合绩效的影响;实验2系统操纵了对先前刺激的编码时间与时间间隔,结果发现,编码时间越长,记忆的效果越好,虽然会妨碍对随后刺激的知觉... 本研究采用空白单元格定位任务,探讨序列刺激整合的时间特性。实验1重复前人的实验,验证了时间间隔对整合绩效的影响;实验2系统操纵了对先前刺激的编码时间与时间间隔,结果发现,编码时间越长,记忆的效果越好,虽然会妨碍对随后刺激的知觉,但整合绩效越高;而随着时间间隔的延长,延长编码时间带来的优势逐渐减弱。结论提示,人们能够整合视觉短时记忆和视知觉的信息,而且这种整合的时间特性不同于知觉整合。 展开更多
关键词 视觉短时记忆 视知觉 空白单元格定位 时间相关模型
下载PDF
噪声和混响对儿童视觉短时记忆的影响 被引量:5
7
作者 彭健新 蒋鹏 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第7期130-134,共5页
通过对小学三、六年级儿童在2种不同混响时间和3种不同干扰噪声级条件下进行汉语双音节词语的视觉短时记忆行为的测试,探讨了噪声和混响时间对不同年龄段儿童对汉语词语的视觉短时记忆的影响,并比较了混响和噪声条件下儿童听觉记忆和视... 通过对小学三、六年级儿童在2种不同混响时间和3种不同干扰噪声级条件下进行汉语双音节词语的视觉短时记忆行为的测试,探讨了噪声和混响时间对不同年龄段儿童对汉语词语的视觉短时记忆的影响,并比较了混响和噪声条件下儿童听觉记忆和视觉记忆行为之间的差异.结果表明:干扰噪声级和儿童年龄对儿童在教室内的视觉短时记忆行为均有显著影响;随着干扰噪声级的降低、混响时间的缩短以及儿童年龄的增大,儿童对汉语词语的视觉短时记忆得分增加;噪声和混响对听觉记忆的影响较视觉记忆的影响大,但随着噪声级的降低和混响时间的缩短,视觉记忆和听觉记忆的记忆得分差异减小. 展开更多
关键词 嗓声 混响时间 儿童 视觉短时记忆
下载PDF
视觉短时记忆与视知觉的信息整合 被引量:3
8
作者 任衍具 禤宇明 傅小兰 《心理科学进展》 CSSCI CSCD 北大核心 2007年第2期301-307,共7页
与知觉整合和跨眼跳的信息整合一样,视觉短时记忆与视知觉的信息整合也是人们加工并保持整体性场景知觉的重要前提条件。近年来研究者们使用空白单元格定位任务进行了一些研究,试图寻求视觉短时记忆与视知觉信息整合的实验证据并探讨其... 与知觉整合和跨眼跳的信息整合一样,视觉短时记忆与视知觉的信息整合也是人们加工并保持整体性场景知觉的重要前提条件。近年来研究者们使用空白单元格定位任务进行了一些研究,试图寻求视觉短时记忆与视知觉信息整合的实验证据并探讨其整合机制。该文对已有的相关实验范式、实验证据和整合机制进行了介绍并加以分析,并指出未来研究可以在行为数据的基础上结合眼动和脑成像的数据寻求汇聚性证据。 展开更多
关键词 视觉短时记忆 视知觉 信息整合 空白单元格定位
下载PDF
Behavior recognition based on the fusion of 3D-BN-VGG and LSTM network 被引量:4
9
作者 Wu Jin Min Yu +2 位作者 Shi Qianwen Zhang Weihua Zhao Bo 《High Technology Letters》 EI CAS 2020年第4期372-382,共11页
In order to effectively solve the problems of low accuracy,large amount of computation and complex logic of deep learning algorithms in behavior recognition,a kind of behavior recognition based on the fusion of 3 dime... In order to effectively solve the problems of low accuracy,large amount of computation and complex logic of deep learning algorithms in behavior recognition,a kind of behavior recognition based on the fusion of 3 dimensional batch normalization visual geometry group(3D-BN-VGG)and long short-term memory(LSTM)network is designed.In this network,3D convolutional layer is used to extract the spatial domain features and time domain features of video sequence at the same time,multiple small convolution kernels are stacked to replace large convolution kernels,thus the depth of neural network is deepened and the number of network parameters is reduced.In addition,the latest batch normalization algorithm is added to the 3-dimensional convolutional network to improve the training speed.Then the output of the full connection layer is sent to LSTM network as the feature vectors to extract the sequence information.This method,which directly uses the output of the whole base level without passing through the full connection layer,reduces the parameters of the whole fusion network to 15324485,nearly twice as much as those of 3D-BN-VGG.Finally,it reveals that the proposed network achieves 96.5%and 74.9%accuracy in the UCF-101 and HMDB-51 respectively,and the algorithm has a calculation speed of 1066 fps and an acceleration ratio of 1,which has a significant predominance in velocity. 展开更多
关键词 behavior recognition deep learning 3 dimensional batch normalization visual geometry group(3D-BN-VGG) long short-term memory(LSTM)network
下载PDF
Comprehensive Relation Modelling for Image Paragraph Generation
10
作者 Xianglu Zhu Zhang Zhang +1 位作者 Wei Wang Zilei Wang 《Machine Intelligence Research》 EI CSCD 2024年第2期369-382,共14页
Image paragraph generation aims to generate a long description composed of multiple sentences,which is different from traditional image captioning containing only one sentence.Most of previous methods are dedicated to... Image paragraph generation aims to generate a long description composed of multiple sentences,which is different from traditional image captioning containing only one sentence.Most of previous methods are dedicated to extracting rich features from image regions,and ignore modelling the visual relationships.In this paper,we propose a novel method to generate a paragraph by modelling visual relationships comprehensively.First,we parse an image into a scene graph,where each node represents a specific object and each edge denotes the relationship between two objects.Second,we enrich the object features by implicitly encoding visual relationships through a graph convolutional network(GCN).We further explore high-order relations between different relation features using another graph convolutional network.In addition,we obtain the linguistic features by projecting the predicted object labels and their relationships into a semantic embedding space.With these features,we present an attention-based topic generation network to select relevant features and produce a set of topic vectors,which are then utilized to generate multiple sentences.We evaluate the proposed method on the Stanford image-paragraph dataset which is currently the only available dataset for image paragraph generation,and our method achieves competitive performance in comparison with other state-of-the-art(SOTA)methods. 展开更多
关键词 Image paragraph generation visual relationship scene graph graph convolutional network(GCN) long short-term memory
原文传递
基于深度学习的多模态多任务端到端自动驾驶研究 被引量:3
11
作者 田晟 冯宇鹏 +2 位作者 张裕天 黄伟 王蕾 《西华大学学报(自然科学版)》 CAS 2021年第3期62-70,共9页
当前端到端自动驾驶系统的研究方法主要是采用图像或图像序列作为输入,使用卷积神经网络直接预测方向盘转角,取得了较好的效果,但仅通过转向命令并不足以完成自动驾驶车辆的控制。为了更好地实现对自动驾驶车辆的横纵向控制,构建基于端... 当前端到端自动驾驶系统的研究方法主要是采用图像或图像序列作为输入,使用卷积神经网络直接预测方向盘转角,取得了较好的效果,但仅通过转向命令并不足以完成自动驾驶车辆的控制。为了更好地实现对自动驾驶车辆的横纵向控制,构建基于端到端学习的CNN-LSTM(卷积神经网络-长短时记忆)多模态多任务神经网络模型,将图像、速度序列和方向盘转角序列作为输入,从而同时预测车辆的方向盘转角和速度值。在搭建的基于GTAV(Grand Theft Auto V,侠盗猎车5)仿真平台数据集和真实场景数据集上进行实验和测试,实验结果表明模型能够较好地完成车道保持的驾驶行为和基本实现自动驾驶避障测试。 展开更多
关键词 自动驾驶 深度学习 视觉感知 长短时记忆 迁移学习
下载PDF
视觉感觉记忆在字音选取作业中的作用 被引量:1
12
作者 何姣 张航 杨仲乐 《心理学探新》 CSSCI 北大核心 2006年第1期46-51,共6页
该研究通过四项实验探讨了视觉感觉记忆(VSM)在字音选取作业中的作用。实验材料为48个汉字。实验结果表明:当被试只能利用短时记忆(STM)中的信息进行选取作业时,能选取的汉字数与转换到STM中的汉字数之间无显著性差异;当被试可以同时利... 该研究通过四项实验探讨了视觉感觉记忆(VSM)在字音选取作业中的作用。实验材料为48个汉字。实验结果表明:当被试只能利用短时记忆(STM)中的信息进行选取作业时,能选取的汉字数与转换到STM中的汉字数之间无显著性差异;当被试可以同时利用VSM和STM中的信息时,能选取的汉字数要显著多于转换到STM中的汉字数。这表明,人能根据字音特征从VSM信息中选取字符。 展开更多
关键词 视觉感觉记忆(VSM) 汉字 选取 短时记忆(STM)
下载PDF
一种服饰风格特征指导下的服装搭配学习模型 被引量:2
13
作者 刘锐 彭敦陆 《小型微型计算机系统》 CSCD 北大核心 2022年第7期1378-1382,共5页
时尚专家对于服饰搭配往往需要通过服饰的视觉属性(如颜色、图案及纹理等属性以及它们之间的组合)作为重要指导,进行有效地提取服饰视觉属性并用其改进传统的服饰搭配模型,对提升服饰搭配的有效性具有重要意义.本文在利用预训练的卷积... 时尚专家对于服饰搭配往往需要通过服饰的视觉属性(如颜色、图案及纹理等属性以及它们之间的组合)作为重要指导,进行有效地提取服饰视觉属性并用其改进传统的服饰搭配模型,对提升服饰搭配的有效性具有重要意义.本文在利用预训练的卷积神经网络中不同层次的卷积核来提取不同粒度的视觉属性(即视觉单词)的基础上,结合服饰的文字描述,采用多语言潜在迪利克雷分布模型进行多模态、无监督地挖掘出服饰风格特征.通过在双向长短时记忆模型中,加入了上述挖掘出的服饰风格特征作为训练指导,以此提升模型的计算效果.实验验证了本文提出的模型能够在服饰搭配的有效性上较其他方法有显著的提升. 展开更多
关键词 视觉属性 风格特征 服装搭配 长短时记忆网络
下载PDF
融合空间-时间双网络流和视觉注意的人体行为识别 被引量:13
14
作者 刘天亮 谯庆伟 +2 位作者 万俊伟 戴修斌 罗杰波 《电子与信息学报》 EI CSCD 北大核心 2018年第10期2395-2401,共7页
该文受人脑视觉感知机理启发,在深度学习框架下提出融合时空双网络流和视觉注意的行为识别方法。首先,采用由粗到细Lucas-Kanade估计法逐帧提取视频中人体运动的光流特征。然后,利用预训练模型微调的GoogLeNet神经网络分别逐层卷积并聚... 该文受人脑视觉感知机理启发,在深度学习框架下提出融合时空双网络流和视觉注意的行为识别方法。首先,采用由粗到细Lucas-Kanade估计法逐帧提取视频中人体运动的光流特征。然后,利用预训练模型微调的GoogLeNet神经网络分别逐层卷积并聚合给定时间窗口视频中外观图像和相应光流特征。接着,利用长短时记忆多层递归网络交叉感知即得含高层显著结构的时空流语义特征序列;解码时间窗口内互相依赖的隐状态;输出空间流视觉特征描述和视频窗口中每帧标签概率分布。其次,利用相对熵计算时间维每帧注意力置信度,并融合空间网络流感知序列标签概率分布。最后,利用softmax分类视频中行为类别。实验结果表明,与其他现有方法相比,该文行为识别方法在分类准确度上具有显著优势。 展开更多
关键词 人体行为识别 光流 双重时空网络流 视觉注意力 卷积神经网络 长短时记忆神经网络
下载PDF
矿用智能巡检机器人无标定视觉伺服控制研究 被引量:10
15
作者 李静 黄友锐 +3 位作者 韩涛 兰世豪 陈宏茂 甘福宝 《工矿自动化》 北大核心 2021年第11期30-39,共10页
针对矿用智能巡检机器人无标定视觉伺服控制中采用基于传统的卡尔曼滤波(KF)的图像雅可比矩阵存在估计值不准确、鲁棒性差的问题,提出了一种具有长短期记忆(LSTM)的卡尔曼滤波算法(KFLSTM算法)。KFLSTM算法使用LSTM弥补由KF算法产生的... 针对矿用智能巡检机器人无标定视觉伺服控制中采用基于传统的卡尔曼滤波(KF)的图像雅可比矩阵存在估计值不准确、鲁棒性差的问题,提出了一种具有长短期记忆(LSTM)的卡尔曼滤波算法(KFLSTM算法)。KFLSTM算法使用LSTM弥补由KF算法产生的估计误差,将滤波增益误差、状态估计向量误差、观测误差用于LSTM的在线训练,利用训练后的LSTM模型对雅可比矩阵进行最优估计,通过提高雅可比矩阵估计值的准确性和稳定性来改善视觉伺服控制的实时性和鲁棒性。建立了基于KFLSTM算法的无标定视觉伺服模型,将最优雅可比矩阵作为控制器的输入,使控制器输出较准确的关节角速度,从而控制机械臂的实时运行。将KFLSTM算法应用到矿用智能巡检机器人六自由度视觉伺服仿真实验中,结果表明:应用KFLSTM算法得到的图像误差收敛速度相较于传统KF算法提高了100%~142%,图像特征误差更小,定位精度为0.5像素,且机器人末端执行器运动平稳,具有较强的抗噪声干扰能力,可有效提高矿用智能巡检机器人的作业精度与效率,并增强其工作的稳定性与安全性。 展开更多
关键词 矿用智能巡检机器人 无标定视觉伺服 图像雅可比矩阵 卡尔曼滤波 长短期记忆神经网络
下载PDF
基于解码器注意力机制的视频摘要 被引量:7
16
作者 冀中 江俊杰 《天津大学学报(自然科学与工程技术版)》 EI CSCD 北大核心 2018年第10期1023-1030,共8页
作为一种快速浏览和理解视频内容的方式,视频摘要技术引起了广泛的关注.本文将视频摘要任务看作是序列到序列的预测问题,设计了一种新颖的基于解码器的视觉注意力机制,并基于此提出一种有监督视频摘要算法.所提方法考虑到视频帧之间的... 作为一种快速浏览和理解视频内容的方式,视频摘要技术引起了广泛的关注.本文将视频摘要任务看作是序列到序列的预测问题,设计了一种新颖的基于解码器的视觉注意力机制,并基于此提出一种有监督视频摘要算法.所提方法考虑到视频帧之间的内在关联性,利用长短时记忆网络将注意力集中在历史的解码序列,融合历史的解码信息有效地指导解码,提升模型预测的准确性.所提算法主要在TVSum和Sum Me数据集上进行了大量实验,验证了其有效性及先进性. 展开更多
关键词 视频摘要 视觉注意力模型 编解码模型 长短时记忆网络
下载PDF
基于多流架构与长短时记忆网络的组群行为识别方法研究 被引量:6
17
作者 王传旭 胡小悦 +1 位作者 孟唯佳 闫春娟 《电子学报》 EI CAS CSCD 北大核心 2020年第4期800-807,共8页
提出一种基于多流架构与长短时记忆网络的上下文建模框架,旨在克服组群行为识别的两个难点,其一对复杂场景中多视觉线索进行信息融合;其二对情景人物进行建模,以获得长视频上下文关系.并且,对基于全局信息和基于局部信息的识别结果进行... 提出一种基于多流架构与长短时记忆网络的上下文建模框架,旨在克服组群行为识别的两个难点,其一对复杂场景中多视觉线索进行信息融合;其二对情景人物进行建模,以获得长视频上下文关系.并且,对基于全局信息和基于局部信息的识别结果进行决策融合,判定最终组群行为属性.该算法在CAD1和CAD2上分别取得93.2%和95.7%平均识别率. 展开更多
关键词 组群行为识别 多视觉线索融合 交互上下文建模 全局-局部模型 长短时记忆网络
下载PDF
基于深度视觉注意神经网络的端到端自动驾驶模型 被引量:5
18
作者 胡学敏 童秀迟 +2 位作者 郭琳 张若晗 孔力 《计算机应用》 CSCD 北大核心 2020年第7期1926-1931,共6页
针对现有端到端自动驾驶方法中存在的驾驶指令预测不准确、模型结构体量大和信息冗余多等问题,提出一种新的基于深度视觉注意神经网络的端到端自动驾驶模型。为了更有效地提取自动驾驶场景的特征,在端到端自动驾驶模型中引入视觉注意力... 针对现有端到端自动驾驶方法中存在的驾驶指令预测不准确、模型结构体量大和信息冗余多等问题,提出一种新的基于深度视觉注意神经网络的端到端自动驾驶模型。为了更有效地提取自动驾驶场景的特征,在端到端自动驾驶模型中引入视觉注意力机制,将卷积神经网络、视觉注意层和长短期记忆网络进行融合,提出一种深度视觉注意神经网络。该网络模型能够有效提取驾驶场景图像的空间特征和时间特征,并关注重要信息且减少信息冗余,实现用前向摄像机输入的序列图像来预测驾驶指令的端到端自动驾驶。利用模拟驾驶环境的数据进行训练和测试,该模型在乡村路、高速路、隧道和山路四个场景中对方向盘转向角预测的均方根误差分别为0.00914、0.00948、0.00289和0.01078,均低于对比用的英伟达公司提出的方法和基于深度级联神经网络的方法;并且与未使用视觉注意力机制的网络相比,该模型具有更少的网络层数。 展开更多
关键词 自动驾驶 端到端 视觉注意力 卷积神经网络 长短期记忆网络
下载PDF
快递暴力分拣行为视觉识别系统 被引量:5
19
作者 吴蓬勃 张金燕 +1 位作者 王帆 王拓 《包装工程》 CAS 北大核心 2021年第15期245-252,共8页
目的为实时监测快递分拣过程中粗暴对待包裹的行为,设计一款基于树莓派+EdgeTPU的快递暴力分拣人体行为视觉识别系统。方法基于TensorFlow深度学习框架,使用PoseNet模型实时采集人体姿态数据,通过LSTM+Attention模型实现人体动作识别,结... 目的为实时监测快递分拣过程中粗暴对待包裹的行为,设计一款基于树莓派+EdgeTPU的快递暴力分拣人体行为视觉识别系统。方法基于TensorFlow深度学习框架,使用PoseNet模型实时采集人体姿态数据,通过LSTM+Attention模型实现人体动作识别,结合MobileSSD进行场景识别,最终实现暴力分拣人体行为视觉识别。结果实验证明,文中提出的视觉识别方法可以实现暴力分拣5种动作的快速、准确识别,LSTM+Attention人体动作分类模型的测试准确率达到了80%。结论基于该方法构建的嵌入式暴力分拣行为识别系统,可以实时监测快递分拣中粗暴对待包裹的行为,并实时地告警。 展开更多
关键词 暴力分拣 人体行为视觉识别 边缘张量处理单元 长短期记忆网络
下载PDF
长视频的超级帧切割视觉内容解释方法
20
作者 魏英姿 刘王杰 《北京工业大学学报》 CAS CSCD 北大核心 2024年第7期805-813,共9页
针对现有基于编码解码的视频描述方法存在的对视频较长、在视频场景切换频繁情况下视觉特征提取能力不足或关键性片段捕获能力不足等视频描述不佳的问题,提出一种基于超级帧切割长视频的视频字幕方法。首先,提出超级帧提取算法,计算关... 针对现有基于编码解码的视频描述方法存在的对视频较长、在视频场景切换频繁情况下视觉特征提取能力不足或关键性片段捕获能力不足等视频描述不佳的问题,提出一种基于超级帧切割长视频的视频字幕方法。首先,提出超级帧提取算法,计算关键视频时间占比率以满足视频浏览时长限制,缩短视频检索时间。然后,构建两层筛选模型以自适应提取超级帧,过滤冗余关键帧,执行多场景语义描述。将保留的关键帧嵌入周围帧,利用深层网络模型以及小卷积核池化采样域获取更多的视频特征,克服了经典视频标题方法不能直接用于处理长视频的困难。最后,通过用长短时记忆模型代替循环神经网络解码生成视频标题,给出视频内容的分段解释信息。在YouTube数据集视频、合成视频和监控长视频上进行测试,采用多种机器翻译评价指标评估了该方法的性能,均获得了不同程度的提升。实验结果表明,该方法在应对视频场景切换频繁、视频较长等挑战时,能够获得较好的片段描述。 展开更多
关键词 超级帧切割 时间占比率 多场景语义 视觉特征 长短时记忆模型 视频标题
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部