近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征...近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法(visual region aggregation and dual-level collaboration,VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能.展开更多
为更好地解决传统模型特征捕捉能力不足,词向量语义表示不准确等问题,提出了结合MacBERT与多层次特征协同网络的音乐社交评论情感分析模型MacBERT-MFCN(MacBERT and Multi-level Feature Collaborative Network)。采用MacBERT模型提取...为更好地解决传统模型特征捕捉能力不足,词向量语义表示不准确等问题,提出了结合MacBERT与多层次特征协同网络的音乐社交评论情感分析模型MacBERT-MFCN(MacBERT and Multi-level Feature Collaborative Network)。采用MacBERT模型提取评论文本特征向量,解决静态词向量无法表示多义词的问题;多层次特征协同网络结合双向内置注意力简单循环单元(Bidirectional Built in Attention Simple Recurrent Unit,BiBASRU)和多层次卷积神经网络(Multilevel Convolutional Neural Network,MCNN)模块,全面捕捉局部和上下文语义特征;软注意力用来衡量分类特征贡献的大小,赋予关键特征更高权重。基于网易云评论文本数据集进行实验,结果表明,MacBERTMFCN模型F1值高达95.56%,能有效地提升文本情感分类准确率。展开更多
文摘近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法(visual region aggregation and dual-level collaboration,VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能.
文摘为更好地解决传统模型特征捕捉能力不足,词向量语义表示不准确等问题,提出了结合MacBERT与多层次特征协同网络的音乐社交评论情感分析模型MacBERT-MFCN(MacBERT and Multi-level Feature Collaborative Network)。采用MacBERT模型提取评论文本特征向量,解决静态词向量无法表示多义词的问题;多层次特征协同网络结合双向内置注意力简单循环单元(Bidirectional Built in Attention Simple Recurrent Unit,BiBASRU)和多层次卷积神经网络(Multilevel Convolutional Neural Network,MCNN)模块,全面捕捉局部和上下文语义特征;软注意力用来衡量分类特征贡献的大小,赋予关键特征更高权重。基于网易云评论文本数据集进行实验,结果表明,MacBERTMFCN模型F1值高达95.56%,能有效地提升文本情感分类准确率。