-
题名融合自注意力机制的跨模态食谱检索方法
被引量:4
- 1
-
-
作者
林阳
初旭
王亚沙
毛维嘉
赵俊峰
-
机构
高可信软件技术教育部重点实验室
北京大学计算机科学技术系
北京大学软件工程国家工程研究中心
-
出处
《计算机科学与探索》
CSCD
北大核心
2020年第9期1471-1481,共11页
-
基金
国家自然科学基金(No.61772045)
国家重点研发计划(No.2016YFB1001200).
-
文摘
饮食记录是饮食管理的关键环节。为了简化记录过程,研究者提出了基于食物图片的食谱检索技术,通过拍摄的图片检索到对应食谱,并据此生成营养信息,从而提高了记录的便捷性。食谱检索是典型的跨模态检索问题,但与一般问题相比,其主要难点是食谱描述了从原材料到成品的一系列变化过程,而非直接可见的特征,因此模型需要深入理解原材料的处理过程。而当前食谱检索研究工作采用线性方式处理文本,导致其捕捉食谱处理过程中的远距离依赖现象的能力较差。针对这个问题,设计了一种基于自注意力机制的跨模态食谱检索模型。该模型借助Transformer模型中的自注意力机制,捕捉食谱中远距离的依赖关系,同时改进了传统方法中的注意力机制,可以更好地挖掘食谱中的语义。实验结果表明,该模型在食谱检索任务的召回率上比基线方法提高了22%。
-
关键词
饮食记录
食谱检索
自注意力机制
跨模态
深度神经网络
-
Keywords
dietary recording
recipe retrieval
self-attention mechanism
cross-modal
deep neural network
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于模态语义增强的跨模态食谱检索方法
- 2
-
-
作者
李明
周栋
雷芳
曹步清
-
机构
湖南科技大学计算机科学与工程学院
广东外语外贸大学信息科学与技术学院
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第4期1131-1137,共7页
-
基金
国家自然科学基金资助项目(62376062)
广东省哲学社会科学“十四五”规划项目(GD23CTS03)
+2 种基金
广东省自然科学基金资助项目(2023A1515012718)
湖南省自然科学基金资助项目(2022JJ30020)
教育部人文社会科学研究资助项目(23YJAZH220)。
-
文摘
在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部分有效模态信息丢失。针对该问题,提出一种通过多模态编码器来增强模态语义的跨模态食谱检索方法。首先使用预训练模型提取图像和食谱的初始语义特征,并借助对抗损失缩小模态间差异;然后利用成对跨模态注意力使来自一个模态的特征反复强化另一个模态的特征,进一步提取有效信息;接着采用自注意力机制对模态的内部特征进行建模,以捕捉丰富的模态特定语义信息和潜在关联知识;最后,引入三元组损失最小化同类样本间的距离,实现跨模态检索学习。在Recipe 1M数据集上的实验结果表明,该方法在中位数排名(MedR)和前K召回率(R@K)等方面均优于目前的主流方法,为跨模态检索任务提供了有力的解决方案。
-
关键词
跨模态食谱检索
特征提取
模态语义增强
多模态编码器
-
Keywords
cross-modal recipe retrieval
feature extraction
modality semantic enhancement
multimodal encoder
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-