基于图像信息的辅助,提高从非结构化文本中识别命名实体的准确率,可以有效缓解社交媒体场景中因短文本语义信息不全而产生歧义,图片多却不能发挥作用的问题.尽管现有的研究通常采用跨模态注意力机制合并文本和图像的语义表示,但是大多...基于图像信息的辅助,提高从非结构化文本中识别命名实体的准确率,可以有效缓解社交媒体场景中因短文本语义信息不全而产生歧义,图片多却不能发挥作用的问题.尽管现有的研究通常采用跨模态注意力机制合并文本和图像的语义表示,但是大多不能建立一个一致的表示来融合两种模态之间的语义信息,且图像中的冗余信息往往会影响多模态实体识别(Multimodal Name Entity Recognition,MNER)的性能.为了解决这些问题,本文提出了一种基于异构图模型的MNER方法,可以有效利用文本和图像之间的交互信息.具体地,首先,构建了一个基于BERT-BiLSTM-CRF的实体识别模型,识别出文本中可能存在的实体;其次,以文本中可能存在的实体作为两个模态之间的桥梁,设计了一个由Token、实体和视觉对象组成的异构图网络,并定义了两种边来表示相互间的语义关系;最后,基于文本和图像组成的异构图,设计了一种多模态融合模型(MHGT),从而减轻了图像噪声的负面影响.在两个通用的MNER数据集上的实验结果表明,本文提出的多模态实体识别方法在Twitter2015和Twitter2017上分别获得了75.26%和86.51%的F1值,优于基线模型的性能.展开更多
地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容...地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容能够为识别文本中的实体提供额外的信息,从而提升模型识别实体的性能,并且实体识别还面临着已标注语料匮乏的问题。基于此,本文提出了利用深度迁移学习方法,结合地方志中的文本和图片进行多模态命名实体识别。首先,基于人民日报语料库和中文推特多模态数据集,分别预训练结合了自注意力机制的BiLSTM-attention-CRF模型和自适应联合注意力模型,利用基于神经网络的深度迁移学习方法将权重迁移至地方志多模态命名识别模型中,使模型获得提取文本和图片语义特征的能力;然后,结合过滤门对多模态融合特征去噪;最后,将融合后的多模态特征输入CRF (conditional random fields)层进行解码。本文将提出的模型在地方志多模态数据中进行了实证研究,并同相关基线模型作对比,实验结果表明,本文所提出的模型具有一定优势。展开更多
【目的】梳理归纳多模态命名实体识别研究成果,为后续相关研究提供参考与借鉴。【文献范围】在Web of Science、IEEE Xplore、ACM Digital Library、中国知网数据库中,以“多模态命名实体识别”“多模态信息抽取”“多模态知识图谱”为...【目的】梳理归纳多模态命名实体识别研究成果,为后续相关研究提供参考与借鉴。【文献范围】在Web of Science、IEEE Xplore、ACM Digital Library、中国知网数据库中,以“多模态命名实体识别”“多模态信息抽取”“多模态知识图谱”为检索词进行文献检索,共筛选出83篇代表性文献。【方法】从概念、特征表示、融合策略和预训练模型4个方面对多模态命名实体识别研究进行总结论述,指出现存问题和未来研究方向。【结果】多模态命名实体识别目前主要围绕模态特征表示和融合两个方面展开且在社交媒体领域取得了一定进展,需要进一步改进多模态细粒度特征提取和语义关联映射方法以提升模型的泛化性和可解释性。【局限】直接以多模态命名实体识别为研究主题的文献数量较少,在支撑综述结果方面存在局限性。【结论】针对多模态命名实体识别亟需解决的问题展望未来发展趋势,为进一步拓宽多模态学习在下游任务应用的研究范畴、破解模态壁垒和语义鸿沟提供了新思路。展开更多
为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement f...为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement for multimodal named entity recognition method,MSVSE).该方法提取多种视觉特征用于补全图像语义,挖掘文本特征与多种视觉特征间的语义交互关系,生成多尺度视觉语义特征并进行融合,得到多尺度视觉语义增强的多模态文本表示;使用视觉实体分类器对多尺度视觉语义特征解码,实现视觉特征的语义一致性约束;调用多任务标签解码器挖掘多模态文本表示和文本特征的细粒度语义,通过联合解码解决语义偏差问题,从而进一步提高命名实体识别准确度.为验证该方法的有效性,在Twitter-2015和Twitter-2017数据集上进行实验,并与其他10种方法进行对比,该方法的平均F1值得到提升.展开更多
文摘基于图像信息的辅助,提高从非结构化文本中识别命名实体的准确率,可以有效缓解社交媒体场景中因短文本语义信息不全而产生歧义,图片多却不能发挥作用的问题.尽管现有的研究通常采用跨模态注意力机制合并文本和图像的语义表示,但是大多不能建立一个一致的表示来融合两种模态之间的语义信息,且图像中的冗余信息往往会影响多模态实体识别(Multimodal Name Entity Recognition,MNER)的性能.为了解决这些问题,本文提出了一种基于异构图模型的MNER方法,可以有效利用文本和图像之间的交互信息.具体地,首先,构建了一个基于BERT-BiLSTM-CRF的实体识别模型,识别出文本中可能存在的实体;其次,以文本中可能存在的实体作为两个模态之间的桥梁,设计了一个由Token、实体和视觉对象组成的异构图网络,并定义了两种边来表示相互间的语义关系;最后,基于文本和图像组成的异构图,设计了一种多模态融合模型(MHGT),从而减轻了图像噪声的负面影响.在两个通用的MNER数据集上的实验结果表明,本文提出的多模态实体识别方法在Twitter2015和Twitter2017上分别获得了75.26%和86.51%的F1值,优于基线模型的性能.
文摘地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容能够为识别文本中的实体提供额外的信息,从而提升模型识别实体的性能,并且实体识别还面临着已标注语料匮乏的问题。基于此,本文提出了利用深度迁移学习方法,结合地方志中的文本和图片进行多模态命名实体识别。首先,基于人民日报语料库和中文推特多模态数据集,分别预训练结合了自注意力机制的BiLSTM-attention-CRF模型和自适应联合注意力模型,利用基于神经网络的深度迁移学习方法将权重迁移至地方志多模态命名识别模型中,使模型获得提取文本和图片语义特征的能力;然后,结合过滤门对多模态融合特征去噪;最后,将融合后的多模态特征输入CRF (conditional random fields)层进行解码。本文将提出的模型在地方志多模态数据中进行了实证研究,并同相关基线模型作对比,实验结果表明,本文所提出的模型具有一定优势。
文摘【目的】梳理归纳多模态命名实体识别研究成果,为后续相关研究提供参考与借鉴。【文献范围】在Web of Science、IEEE Xplore、ACM Digital Library、中国知网数据库中,以“多模态命名实体识别”“多模态信息抽取”“多模态知识图谱”为检索词进行文献检索,共筛选出83篇代表性文献。【方法】从概念、特征表示、融合策略和预训练模型4个方面对多模态命名实体识别研究进行总结论述,指出现存问题和未来研究方向。【结果】多模态命名实体识别目前主要围绕模态特征表示和融合两个方面展开且在社交媒体领域取得了一定进展,需要进一步改进多模态细粒度特征提取和语义关联映射方法以提升模型的泛化性和可解释性。【局限】直接以多模态命名实体识别为研究主题的文献数量较少,在支撑综述结果方面存在局限性。【结论】针对多模态命名实体识别亟需解决的问题展望未来发展趋势,为进一步拓宽多模态学习在下游任务应用的研究范畴、破解模态壁垒和语义鸿沟提供了新思路。
文摘为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement for multimodal named entity recognition method,MSVSE).该方法提取多种视觉特征用于补全图像语义,挖掘文本特征与多种视觉特征间的语义交互关系,生成多尺度视觉语义特征并进行融合,得到多尺度视觉语义增强的多模态文本表示;使用视觉实体分类器对多尺度视觉语义特征解码,实现视觉特征的语义一致性约束;调用多任务标签解码器挖掘多模态文本表示和文本特征的细粒度语义,通过联合解码解决语义偏差问题,从而进一步提高命名实体识别准确度.为验证该方法的有效性,在Twitter-2015和Twitter-2017数据集上进行实验,并与其他10种方法进行对比,该方法的平均F1值得到提升.