从非结构化文本中抽取实体和关系是自动构建知识库的基础工作。现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题。因此,提出了一...从非结构化文本中抽取实体和关系是自动构建知识库的基础工作。现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题。因此,提出了一种基于增强序列标注策略的单阶段联合实体关系抽取方法(A Token With Multi-labels Entity and Relation Extraction,ATMREL)。首先,设计了一种增强序列标注策略,将文本中的每个单词标记为多个标签,标签包含每个单词在实体中的位置、关系类型和实体位置信息。然后,将每个单词的标签预测转化为多标签分类任务,同时将联合实体关系抽取转化为序列标注任务。最后,为增强实体对之间的依赖关系,引入实体相关矩阵,用于对抽取结果进行剪枝,以提升模型抽取效果。实验结果表明,与CasRel和TPLinker模型相比,ATMREL模型在NYT和WebNLG数据集上的参数量减少了3.1×10^(6)~5.4×10^(6),平均推理速度提升了2~4.2倍,F1值提升了0.5%~2.1%。展开更多
实体关系抽取任务是信息抽取的核心任务,它对于有效地从爆炸性增长的数据中提取出关键性的信息有着不可替代的作用,也是构建大规模知识图谱的基础任务,因此研究实体关系抽取对各种自然语言处理任务具有重要意义。尽管现有的基于深度学...实体关系抽取任务是信息抽取的核心任务,它对于有效地从爆炸性增长的数据中提取出关键性的信息有着不可替代的作用,也是构建大规模知识图谱的基础任务,因此研究实体关系抽取对各种自然语言处理任务具有重要意义。尽管现有的基于深度学习方法的实体关系抽取已经有了很成熟的理论和较好的性能,但依然还存在着误差累积、实体冗余、交互缺失、三元组重叠等问题。语义信息和句法信息对自然语言处理任务都具有重要作用,为了充分利用这些信息以解决上述提到的问题,提出了一种融合语义和句法图神经网络的二元标记实体关系联合抽取模型FSSRel(Fusion of Semantic and Syntactic Graph Convolutional Networks Binary Tagging Framework for Relation triple extraction)。该模型分为三个阶段进行:第一阶段,对三元组主体的开始结束位置进行预测标记;第二阶段,分别通过语义图神经网络和句法图神经网络提取语义特征和句法特征,并将其融合进编码向量;第三阶段,对语句的每种关系的客体位置进行预测标记,完成最终三元组的提取。实验结果表明,在NYT数据集和WebNLG数据集上,该模型的F1值较基线模型分别提升了2.5%和1.6%,并且在拥有重叠三元组和多三元组等问题的复杂数据上也有良好的表现。展开更多
文摘从非结构化文本中抽取实体和关系是自动构建知识库的基础工作。现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题。因此,提出了一种基于增强序列标注策略的单阶段联合实体关系抽取方法(A Token With Multi-labels Entity and Relation Extraction,ATMREL)。首先,设计了一种增强序列标注策略,将文本中的每个单词标记为多个标签,标签包含每个单词在实体中的位置、关系类型和实体位置信息。然后,将每个单词的标签预测转化为多标签分类任务,同时将联合实体关系抽取转化为序列标注任务。最后,为增强实体对之间的依赖关系,引入实体相关矩阵,用于对抽取结果进行剪枝,以提升模型抽取效果。实验结果表明,与CasRel和TPLinker模型相比,ATMREL模型在NYT和WebNLG数据集上的参数量减少了3.1×10^(6)~5.4×10^(6),平均推理速度提升了2~4.2倍,F1值提升了0.5%~2.1%。
文摘实体关系抽取任务是信息抽取的核心任务,它对于有效地从爆炸性增长的数据中提取出关键性的信息有着不可替代的作用,也是构建大规模知识图谱的基础任务,因此研究实体关系抽取对各种自然语言处理任务具有重要意义。尽管现有的基于深度学习方法的实体关系抽取已经有了很成熟的理论和较好的性能,但依然还存在着误差累积、实体冗余、交互缺失、三元组重叠等问题。语义信息和句法信息对自然语言处理任务都具有重要作用,为了充分利用这些信息以解决上述提到的问题,提出了一种融合语义和句法图神经网络的二元标记实体关系联合抽取模型FSSRel(Fusion of Semantic and Syntactic Graph Convolutional Networks Binary Tagging Framework for Relation triple extraction)。该模型分为三个阶段进行:第一阶段,对三元组主体的开始结束位置进行预测标记;第二阶段,分别通过语义图神经网络和句法图神经网络提取语义特征和句法特征,并将其融合进编码向量;第三阶段,对语句的每种关系的客体位置进行预测标记,完成最终三元组的提取。实验结果表明,在NYT数据集和WebNLG数据集上,该模型的F1值较基线模型分别提升了2.5%和1.6%,并且在拥有重叠三元组和多三元组等问题的复杂数据上也有良好的表现。