期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
面向智能交互的图像识别技术综述与展望 被引量:92
1
作者 蒋树强 王树徽 《计算机研究与发展》 EI CSCD 北大核心 2016年第1期113-122,共10页
视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题... 视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题不断被提出,面向智能交互的应用呈现出一些新的动态,正在不断刷新人们对此领域的原有认识.从视觉识别、视觉描述和视觉问答3个角度对图像识别技术进行综述,对基于深度学习的图像识别以及场景分类技术进行了具体介绍,对视觉描述和问答技术的最新技术进行了分析和讨论,同时对面向移动终端和机器人的视觉识别和交互应用进行了介绍,最后对该领域的未来研究趋势进行了分析. 展开更多
关键词 图像识别 智能的视觉识别 智能交互 视觉描述 视觉问答 深度学习
下载PDF
基于Faster R-CNN的食品图像检索和分类 被引量:11
2
作者 梅舒欢 +2 位作者 刘林虎 段华 蒋树强 《南京信息工程大学学报(自然科学版)》 CAS 2017年第6期635-641,共7页
面向食品领域的图像检索和分类等方面的研究成为多媒体分析和应用领域越来越受关注的研究课题之一.当前的主要研究方法基于全图提取视觉特征,但由于食品图像背景噪音的存在使得提取的视觉特征不够鲁棒,进而影响食品图像检索和分类的性能... 面向食品领域的图像检索和分类等方面的研究成为多媒体分析和应用领域越来越受关注的研究课题之一.当前的主要研究方法基于全图提取视觉特征,但由于食品图像背景噪音的存在使得提取的视觉特征不够鲁棒,进而影响食品图像检索和分类的性能.为此,本文提出了一种基于Faster R-CNN网络的食品图像检索和分类方法.首先通过Faster R-CNN检测图像中的候选食品区域,然后通过卷积神经网络(CNN)方法提取候选区域的视觉特征,避免了噪音的干扰使得提取的视觉特征更具有判别力.此外,选取来自视觉基因库中标注好的食品图像集微调Faster R-CNN网络,以保证Faster R-CNN食品区域检测的准确度.在包括233类菜品和49 168张食品图像的Dish-233数据集上进行实验.全面的实验评估表明:基于Faster R-CNN食品区域检测的视觉特征提取方法可以有效地提高食品图像检索和分类的性能. 展开更多
关键词 食品图像 图像检索 图像分类 深度学习 FASTER R-CNN 卷积神经网络
下载PDF
基于增强视觉Transformer的哈希食品图像检索
3
作者 曹品丹 +4 位作者 宋佳骏 盛国瑞 杨延村 王丽丽 蒋树强 《食品科学》 EI CAS CSCD 北大核心 2024年第10期1-8,共8页
作为食品计算的一个主要任务,食品图像检索近年来受到了广泛的关注。然而,食品图像检索面临着两个主要的挑战。首先,食品图像具有细粒度的特点,这意味着不同食品类别之间的视觉差异可能很小,这些差异只能在图像的局部区域中观察到。其次... 作为食品计算的一个主要任务,食品图像检索近年来受到了广泛的关注。然而,食品图像检索面临着两个主要的挑战。首先,食品图像具有细粒度的特点,这意味着不同食品类别之间的视觉差异可能很小,这些差异只能在图像的局部区域中观察到。其次,食品图像包含丰富的语义信息,如食材、烹饪方式等,这些信息的提取和利用对于提高检索性能至关重要。为解决这些问题,本实验基于预训练的视觉Transformer(Vision Transformer,ViT)模型提出了一种增强ViT的哈希网络(enhanced ViT hash network,EVHNet)。针对食品图像的细粒度特点,EVHNet中设计了一个基于卷积结构的局部特征增强模块,使网络能够学习到更具有代表性的特征。为更好地利用食品图像的语义信息,EVHNet中还设计了一个聚合语义特征模块,根据类令牌特征来聚合食品图像中的语义信息。本实验提出的EVHNet模型在贪婪哈希、中心相似量化和深度极化网络3种流行的哈希图像检索框架下进行评估,并与AlexNet,ResNet50、ViT-B_32和ViT-B_164种主流网络模型进行比较,在Food-101、Vireo Food-172、UEC Food-2563个食品数据集上的实验结果表明,EVHNet模型在检索精度上的综合性能优于其他模型。 展开更多
关键词 食品图像检索 食品计算 哈希检索 VisionTransformer网络 深度哈希学习
下载PDF
融合三元卷积神经网络与关系网络的小样本食品图像识别 被引量:4
4
作者 吕永强 +1 位作者 段华 蒋树强 《计算机科学》 CSCD 北大核心 2020年第1期136-143,共8页
食品识别在食品健康和智能家居等领域获得了广泛关注。目前大部分的食品识别工作是基于大规模标记样本的深度神经网络,这些工作无法有效地识别只有少量样本的类别,因此小样本食品识别是一个亟待解决的问题。目前基于度量学习的小样本识... 食品识别在食品健康和智能家居等领域获得了广泛关注。目前大部分的食品识别工作是基于大规模标记样本的深度神经网络,这些工作无法有效地识别只有少量样本的类别,因此小样本食品识别是一个亟待解决的问题。目前基于度量学习的小样本识别方法着重于探究样本之间的相似度信息,忽略了类内与类间更加细粒度的区分。学习类内与类间区分信息的主流方法是基于线性度量函数的三元卷积神经网络,然而对于食品图像而言,线性度量函数的鉴别能力不足。为此,引入可学习的关系网络作为三元卷积神经网络的非线性度量函数,进一步提出了一种基于非线性度量的三元神经网络用于小样本食品识别方法。该方法使用三元神经网络学习图像的特征嵌入表示,然后采用鉴别能力更强的关系网络作为非线性度量函数,基于端到端的训练方式来学习类内与类间更加细粒度的区分信息。此外,提出了一种可以使模型训练更加稳定的三元组样本在线采样方案。通过在Food-101,VIREO Food-172和ChineseFoodNet食品数据集上的实验结果可知,相比基于孪生网络的小样本学习方法,所提方法的性能平均提高了3.0%,相比基于线性度量函数的三元神经网络的方法,所提方法的性能平均提升了1.0%。文中还探究了损失函数的阈值、三元组采样的参数和初始化方式对实验性能的影响。 展开更多
关键词 食品识别 小样本识别 非线性度量 三元神经网络
下载PDF
基于图卷积网络的多标签食品原材料识别 被引量:1
5
作者 李辉 +1 位作者 王致岭 彭鑫 《南京信息工程大学学报(自然科学版)》 CAS 2019年第6期743-750,共8页
当前,食品图像的营养成分识别主要还是集中在食品类别的识别以及作为多标签任务的识别.但是这两种方法并不具备很好的判别性,因为它们忽略了原材料之间的潜在关系.因此,本文在前期工作的基础上引入了原材料之间的关系.具体地说,我们的... 当前,食品图像的营养成分识别主要还是集中在食品类别的识别以及作为多标签任务的识别.但是这两种方法并不具备很好的判别性,因为它们忽略了原材料之间的潜在关系.因此,本文在前期工作的基础上引入了原材料之间的关系.具体地说,我们的工作主要分为图像特征提取和原材料关系学习两部分.图像特征提取通过卷积神经网络提取到图像的低维特征向量.图卷积网络通过使用图数据(图的每个节点表示原材料的词嵌入,边表示节点之间的相关性),将图数据直接映射到一组相互依赖的分类器中,并与图像的低维特征向量融合,最后进行分类.通过在Food-101和VireoFood-172两个食品数据集上进行实验,并与当前最好的实验模型进行对比,发现基于图卷积的食品多标签分类方法可以有效地提高食品图像的分类性能. 展开更多
关键词 多标签分类 食品原材料 食品图像 卷积神经网络 图卷积网络
下载PDF
食品图像识别方法综述 被引量:6
6
作者 刘林虎 +2 位作者 刘宇昕 罗梦江 蒋树强 《计算机学报》 EI CAS CSCD 北大核心 2022年第3期542-566,共25页
食品与人类的行为、健康和文化等密切相关.社交网络、移动网络和物联网等泛在网络产生了食品大数据,这些大数据与人工智能,尤其是快速发展的深度学习催生了新的交叉研究领域食品计算.作为食品计算的核心任务之一,食品图像识别同时是计... 食品与人类的行为、健康和文化等密切相关.社交网络、移动网络和物联网等泛在网络产生了食品大数据,这些大数据与人工智能,尤其是快速发展的深度学习催生了新的交叉研究领域食品计算.作为食品计算的核心任务之一,食品图像识别同时是计算机视觉领域中细粒度视觉识别的重要分支,因而具有重要的理论研究意义,并在智慧健康、食品智能装备、智慧餐饮、智能零售及智能家居等方面有着广泛的应用前景.为此,本文对食品图像识别领域进行了全面综述.该文首先从识别对象、视觉特征表示及学习方法等不同维度对目前的食品图像识别进行分类并深入阐述和分析了当前的研究进展,指出深度学习模型是当前食品图像识别的主流方法,融入各种上下文信息和外部知识是改进食品图像识别的重要手段.其次从食品数据规模、食品类型及是否包含上下文和多模态信息等方面介绍了现有的食品图像识别数据集,并给出了不同识别方法在主流数据集上的性能对比和分析.接下来总结了食品图像识别在饮食质量评估、食品自动结算、智能厨具、食品图像的组织检索和推荐等多个方面的应用情况.最后本文从面向食品特点的食品图像识别方法、大规模食品图像识别基准数据集构建等方面对食品图像识别未来可能的研究方向进行了总结和展望. 展开更多
关键词 食品图像识别 深度学习 饮食管理 食品计算
下载PDF
视频中的未来动作预测研究综述 被引量:1
7
作者 张天予 +2 位作者 韩鑫阳 蒋树强 芮勇 《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1315-1338,共24页
预测未来是人类与生俱来的能力,也是实现人工智能的重要手段.近年来,视频中的未来动作预测逐渐成为计算机视觉领域的研究热点,具有重要的理论研究意义,并在安防监控、自动驾驶、家庭服务、工业协作以及虚拟现实等方面有着广泛的应用前景... 预测未来是人类与生俱来的能力,也是实现人工智能的重要手段.近年来,视频中的未来动作预测逐渐成为计算机视觉领域的研究热点,具有重要的理论研究意义,并在安防监控、自动驾驶、家庭服务、工业协作以及虚拟现实等方面有着广泛的应用前景.本文对视频中的未来动作预测领域进行综述,首先明确定义了未来动作预测的研究框架.随后概述了该领域的发展历史,并重点介绍了短期动作预测和长期动作预测两种主要的问题形式.然后从模型结构、数据模态、算法策略和预测对象等不同维度对主要方法和技术进行了总结.接下来简要归纳了视频中的未来动作预测领域常用的数据集,并给出了不同方法在主流数据集上的性能对比和分析.最后本文围绕扩展现有数据集的规模和多样性、缩短模型的推理时间、从无标注或少量标注数据中学习等未来可能的研究方向进行了总结和展望. 展开更多
关键词 未来动作预测 短期预测 长期预测 深度学习
下载PDF
多尺度拼图重构网络的食品图像识别 被引量:2
8
作者 刘宇昕 +1 位作者 蒋树强 芮勇 《软件学报》 EI CSCD 北大核心 2022年第11期4379-4395,共17页
近年来,食品图像识别由于在健康饮食管理、无人餐厅等领域的广泛应用而受到了越来越多的关注.不同于其他物体识别任务,食品图像属于细粒度图像,具有较高的类内差异性和类间相似性,而且食品图像没有固定的语义模式和空间布局,这些特点使... 近年来,食品图像识别由于在健康饮食管理、无人餐厅等领域的广泛应用而受到了越来越多的关注.不同于其他物体识别任务,食品图像属于细粒度图像,具有较高的类内差异性和类间相似性,而且食品图像没有固定的语义模式和空间布局,这些特点使得食品图像识别更具挑战性.为此,提出了一种用于食品图像识别的多尺度拼图重构网络(multi-scale jigsaw and reconstruction network,MJR-Net).MJR-Net由拼图重构模块、特征金字塔模块和通道注意力模块这3部分组成.拼图重构模块使用破坏重构学习方法将原始图像进行破坏和重构,以提取局部的判别性细节特征;特征金字塔模块可以融合不同尺寸的中层特征,以捕获多尺度的局部判别性特征;通道注意力模块对不同特征通道的重要程度进行建模,以增强判别性的视觉模式,减弱噪声干扰.此外,还使用A-softmax和Focal损失,分别从增大类间差异和修正分类样本的角度优化网络.MJR-Net在ETH Food-101,Vireo Food-172和ISIA Food-500这3个食品数据集上进行实验,分别取得了90.82%,91.37%和64.95%的识别准确率.实验结果表明,与其他食品图像识别方法相比,MJR-Net表现出较大的竞争力,并在Vireo Food-172和ISIA Food-500上取得了最优识别性能.全面的消融实验和可视化分析证明了该方法的有效性. 展开更多
关键词 食品图像识别 深度学习 拼图重构 特征金字塔 注意力机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部