图像描述是使用计算机将一副图像中的内容使用自然语言的形式重新表达,是图像理解任务中极具挑战性的工作。目前,使用深度CNN模型和RNN模型对图像进行编码和解码框架来解决该问题已经成为研究热点,也在多个数据集上取得了突破。但这些...图像描述是使用计算机将一副图像中的内容使用自然语言的形式重新表达,是图像理解任务中极具挑战性的工作。目前,使用深度CNN模型和RNN模型对图像进行编码和解码框架来解决该问题已经成为研究热点,也在多个数据集上取得了突破。但这些工作在使用CNN的过程中对其参数优化不足,且常使用分阶段训练的方式,导致整个系统易陷入局部最优。针对这些问题,在Goog Le Net模型的基础上,利用其中间特征,自底向上添加了两个辅助LSTM分支及其监督函数,通过联合训练,对整个模型进行优化,保证了CNN模型低层参数对任务的有效性,避免了系统陷入局部最优点;同时,由于加入了低层监督函数的干扰,使得模型有了额外的正则化,提高了模型的泛化能力。在Flickr8K和Flickr30K两个数据集上的实验表明,本文方法优势明显,在多个统计指标上均超过了现有其他方法。展开更多
文摘图像描述是使用计算机将一副图像中的内容使用自然语言的形式重新表达,是图像理解任务中极具挑战性的工作。目前,使用深度CNN模型和RNN模型对图像进行编码和解码框架来解决该问题已经成为研究热点,也在多个数据集上取得了突破。但这些工作在使用CNN的过程中对其参数优化不足,且常使用分阶段训练的方式,导致整个系统易陷入局部最优。针对这些问题,在Goog Le Net模型的基础上,利用其中间特征,自底向上添加了两个辅助LSTM分支及其监督函数,通过联合训练,对整个模型进行优化,保证了CNN模型低层参数对任务的有效性,避免了系统陷入局部最优点;同时,由于加入了低层监督函数的干扰,使得模型有了额外的正则化,提高了模型的泛化能力。在Flickr8K和Flickr30K两个数据集上的实验表明,本文方法优势明显,在多个统计指标上均超过了现有其他方法。