期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于CNN与Transformer混合结构的多语言图像标题生成研究 被引量:4
1
作者 张大任 艾山·吾买尔 +2 位作者 宜年 刘婉月 韩越 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第2期68-75,共8页
针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题,提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入,然后解码端的输入为添... 针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题,提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入,然后解码端的输入为添加语言标签、进行分词与拉丁化处理后的6种语言,训练时将不同语言的损失和作为优化目标,最终实现不同语言间的联合训练.以Flickr8K数据集为基础,拓展了包含6种语言的多语言图像标题生成数据集,并在该数据集上进行了验证.结果表明:该模型可以同时生成多种语言的图像标题,且生成质量比相同规模的单语言模型质量高,并验证了该方法的有效性. 展开更多
关键词 多语言 深度学习 TRANSFORMER 联合训练 图像标题生成
下载PDF
基于编码-解码技术的图像标题生成方法分析
2
作者 王彬燕 《计算机应用文摘》 2024年第5期110-112,共3页
文章首先介绍了图像标题生成的常用方法,包括模板法、检索法、编码-解码法;其次,在互助双向LSTM模型的基础上,详细介绍了图像标题生成算法的实现步骤,即利用Inception-V4编码器将原始图像编码成图像特征,并使用互助双向LSTM解码器将这... 文章首先介绍了图像标题生成的常用方法,包括模板法、检索法、编码-解码法;其次,在互助双向LSTM模型的基础上,详细介绍了图像标题生成算法的实现步骤,即利用Inception-V4编码器将原始图像编码成图像特征,并使用互助双向LSTM解码器将这些特征解码成相应的句子,同时采用语音混沌保密通信技术确保信息安全;最后,进行了实验测试,并通过多模态注意力可视化分析验证了递进解码机制的作用。实验结果显示,在LSTM解码机制的支持下,能够生成优质、精确的图像标题。 展开更多
关键词 编码-解码技术 图像标题 生成技术 保密通信
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部