In the past few years,the emergence of pre-training models has brought uni-modal fields such as computer vision(CV)and natural language processing(NLP)to a new era.Substantial works have shown that they are beneficial...In the past few years,the emergence of pre-training models has brought uni-modal fields such as computer vision(CV)and natural language processing(NLP)to a new era.Substantial works have shown that they are beneficial for downstream uni-modal tasks and avoid training a new model from scratch.So can such pre-trained models be applied to multi-modal tasks?Researchers have ex-plored this problem and made significant progress.This paper surveys recent advances and new frontiers in vision-language pre-training(VLP),including image-text and video-text pre-training.To give readers a better overall grasp of VLP,we first review its recent ad-vances in five aspects:feature extraction,model architecture,pre-training objectives,pre-training datasets,and downstream tasks.Then,we summarize the specific VLP models in detail.Finally,we discuss the new frontiers in VLP.To the best of our knowledge,this is the first survey focused on VLP.We hope that this survey can shed light on future research in the VLP field.展开更多
以1995年以来Web of Science数据库有关“体育人工智能”主题的325篇文献为数据来源,利用CiteSpace V软件进行可视化处理和分析,梳理了近25年体育人工智能研究的国家与学科分布、研究热点以及演化趋势,分析了对体育人工智能的研究脉络,...以1995年以来Web of Science数据库有关“体育人工智能”主题的325篇文献为数据来源,利用CiteSpace V软件进行可视化处理和分析,梳理了近25年体育人工智能研究的国家与学科分布、研究热点以及演化趋势,分析了对体育人工智能的研究脉络,并探讨了体育人工智能领域的进展和发展方向。认为:①体育人工智能研究地区分布较广,其中美国、中国和德国处于领先地位;②体育人工智能研究涉及多个学科,主要运用和借鉴了计算机科学、工程学、神经科学、物理学、心理学等学科的研究方法和理论视角;③体育人工智能研究的热点主要为基于计算机视觉技术的神经网络分析预测模型研究、基于计算机深度学习的智能训练反馈系统研究、高效智能穿戴设备等。展开更多
大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力....大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation,UniVL).UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据.UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法.展开更多
基金supported by the Key Research Program of the Chinese Academy of Sciences(No.ZDBSSSW-JSC006)the Strategic Priority Research Program of the Chinese Academy of Sciences(No.XDA 27030300).
文摘In the past few years,the emergence of pre-training models has brought uni-modal fields such as computer vision(CV)and natural language processing(NLP)to a new era.Substantial works have shown that they are beneficial for downstream uni-modal tasks and avoid training a new model from scratch.So can such pre-trained models be applied to multi-modal tasks?Researchers have ex-plored this problem and made significant progress.This paper surveys recent advances and new frontiers in vision-language pre-training(VLP),including image-text and video-text pre-training.To give readers a better overall grasp of VLP,we first review its recent ad-vances in five aspects:feature extraction,model architecture,pre-training objectives,pre-training datasets,and downstream tasks.Then,we summarize the specific VLP models in detail.Finally,we discuss the new frontiers in VLP.To the best of our knowledge,this is the first survey focused on VLP.We hope that this survey can shed light on future research in the VLP field.
文摘以1995年以来Web of Science数据库有关“体育人工智能”主题的325篇文献为数据来源,利用CiteSpace V软件进行可视化处理和分析,梳理了近25年体育人工智能研究的国家与学科分布、研究热点以及演化趋势,分析了对体育人工智能的研究脉络,并探讨了体育人工智能领域的进展和发展方向。认为:①体育人工智能研究地区分布较广,其中美国、中国和德国处于领先地位;②体育人工智能研究涉及多个学科,主要运用和借鉴了计算机科学、工程学、神经科学、物理学、心理学等学科的研究方法和理论视角;③体育人工智能研究的热点主要为基于计算机视觉技术的神经网络分析预测模型研究、基于计算机深度学习的智能训练反馈系统研究、高效智能穿戴设备等。
文摘大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation,UniVL).UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据.UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法.