近年来,图像文本建模研究已经成为自然语言处理领域一个重要的研究方向.图像常被用于增强句子的语义理解与表示.然而也有研究人员对图像信息用于句子语义理解的必要性提出质疑,原因是文本本身就能够提供强有力的先验知识,帮助模型取得...近年来,图像文本建模研究已经成为自然语言处理领域一个重要的研究方向.图像常被用于增强句子的语义理解与表示.然而也有研究人员对图像信息用于句子语义理解的必要性提出质疑,原因是文本本身就能够提供强有力的先验知识,帮助模型取得非常好的效果;甚至在不使用图像的条件下就能得出正确的答案.因此研究图像文本建模需要首先回答一个问题:图像是否有助于句子语义的理解与表示?为此,本文选择一个典型的不包含图像的自然语言语义理解任务:自然语言推理,并将图像信息引入到该任务中用于验证图像信息的有效性.由于自然语言推理任务是一个单一的自然语言任务,在数据标注过程中没有考虑图像信息,因此选择该任务能够更客观地分析出图像信息对句子语义理解与表示的影响.具体而言,本文提出一种通用的即插即用框架(general plug and play framework)用于图像信息的整合.基于该框架,本文选择目前最先进的五个自然语言推理模型,对比分析这些模型在使用图像信息前后的表现,以及使用不同图像处理模型与不同图像设置时的表现.最后,本文在一个大规模公开数据集上进行了大量实验,实验结果证实图像作为额外知识,确实有助于句子语义的理解与表示.此外,还证实了不同的图像处理模型和使用方法对整个模型的表现也会造成不同的影响.展开更多
提出了融合深度图像先验的全变差(total variation,TV)图像着色模型,在即插即用(plug-and-play,PnP)框架下,结合交替方向乘子法(alternating direction method of multipliers,ADMM),设计出相应的数值求解算法,并给出该算法的收敛性结...提出了融合深度图像先验的全变差(total variation,TV)图像着色模型,在即插即用(plug-and-play,PnP)框架下,结合交替方向乘子法(alternating direction method of multipliers,ADMM),设计出相应的数值求解算法,并给出该算法的收敛性结果。数值实验结果表明,该模型能有效整合耦合TV边缘捕获和卷积神经网络(convolutional neural network,CNN)细节捕捉的功能,对结构图像和纹理等细节丰富的图像,均能实现较大范围的有效着色。展开更多
文摘压缩超快成像(compressed ultrafast photography,CUP)是目前最快的被动式单次超快光学成像技术,它通过数据获取和图像重构两个步骤实现超快事件的捕捉,已发展为记录不可逆或难以重复超快事件的一种有力工具,且能够探测荧光动力学等自发光瞬态场景.然而,传统的迭代优化型算法在图像重构上的保真度较低,而端到端型深度学习算法则严重依赖训练数据,训练复杂度高、通用性不足,这限制了CUP对超快现象进行高空间分辨率的观测.为此,我们开发了一种新型的免训练自监督式神经网络算法,其通过即插即用框架(plug-and-play,PnP)与深度图像先验(deep image prior,DIP)的结合可实现CUP的低复杂度高保真图像重建,简称为PnP-DIP算法.PnP-DIP基于交替方向乘子法(alternating direction method of multipliers,ADMM),利用DIP和PnP去噪器解决图像恢复子问题,可以在防止数据过拟合和噪声累积的同时,显著提高图像重建的精度与收敛速度.通过数值模拟,我们理论上证明了PnP-DIP算法在重构原始动态信息方面相比传统ADMM算法具有更高的保真度.同时,我们分别利用PnPDIP对自主研制CUP系统观测的皮秒激光脉冲和X射线闪烁体的时空强度演化数据进行重构,实验上验证了其优越的图像重构性能.这一研究有望推动CUP在高时空分辨观测需求中的应用,并为超快动力学的实时探测作出重大贡献.
文摘近年来,图像文本建模研究已经成为自然语言处理领域一个重要的研究方向.图像常被用于增强句子的语义理解与表示.然而也有研究人员对图像信息用于句子语义理解的必要性提出质疑,原因是文本本身就能够提供强有力的先验知识,帮助模型取得非常好的效果;甚至在不使用图像的条件下就能得出正确的答案.因此研究图像文本建模需要首先回答一个问题:图像是否有助于句子语义的理解与表示?为此,本文选择一个典型的不包含图像的自然语言语义理解任务:自然语言推理,并将图像信息引入到该任务中用于验证图像信息的有效性.由于自然语言推理任务是一个单一的自然语言任务,在数据标注过程中没有考虑图像信息,因此选择该任务能够更客观地分析出图像信息对句子语义理解与表示的影响.具体而言,本文提出一种通用的即插即用框架(general plug and play framework)用于图像信息的整合.基于该框架,本文选择目前最先进的五个自然语言推理模型,对比分析这些模型在使用图像信息前后的表现,以及使用不同图像处理模型与不同图像设置时的表现.最后,本文在一个大规模公开数据集上进行了大量实验,实验结果证实图像作为额外知识,确实有助于句子语义的理解与表示.此外,还证实了不同的图像处理模型和使用方法对整个模型的表现也会造成不同的影响.
文摘提出了融合深度图像先验的全变差(total variation,TV)图像着色模型,在即插即用(plug-and-play,PnP)框架下,结合交替方向乘子法(alternating direction method of multipliers,ADMM),设计出相应的数值求解算法,并给出该算法的收敛性结果。数值实验结果表明,该模型能有效整合耦合TV边缘捕获和卷积神经网络(convolutional neural network,CNN)细节捕捉的功能,对结构图像和纹理等细节丰富的图像,均能实现较大范围的有效着色。