针对大多数跨度模型将文本分割成跨度序列时,产生大量非实体跨度,导致了数据不平衡和计算复杂度高等问题,提出了基于跨度和边界探测的实体关系联合抽取模型(joint extraction model for entity relationships based on span and boundar...针对大多数跨度模型将文本分割成跨度序列时,产生大量非实体跨度,导致了数据不平衡和计算复杂度高等问题,提出了基于跨度和边界探测的实体关系联合抽取模型(joint extraction model for entity relationships based on span and boundary detection,SBDM)。SBDM首先使用训练Transformer的双向编码器表征量(bidirectional encoder representations from Transformer,BERT)模型将文本转化为词向量,并融合了通过图卷积获取的句法依赖信息以形成文本的特征表示;接着通过局部信息和句子上下文信息去探测实体边界并进行标记,以减少非实体跨度;然后将实体边界标记形成的跨度序列进行实体识别;最后将局部上下文信息融合到1个跨度实体对中并使用sigmoid函数进行关系分类。实验表明,SBDM在SciERC(multi-task identification of entities,relations,and coreference for scientific knowledge graph construction)数据集、CoNLL04(the 2004 conference on natural language learning)数据集上的关系分类指标S F1分别达到52.86%、74.47%,取得了较好效果。SBDM用于关系分类任务中,能促进跨度分类方法在关系抽取上的研究。展开更多
目前基于传统深度学习的关系抽取方法在复杂语境下抽取较为困难,且未考虑语境中非目标关系对关系抽取所带来的影响.针对这一问题,本文提出了控制输入长短期记忆网络CI-LSTM(control input long short-term memory),该网络在传统LSTM的...目前基于传统深度学习的关系抽取方法在复杂语境下抽取较为困难,且未考虑语境中非目标关系对关系抽取所带来的影响.针对这一问题,本文提出了控制输入长短期记忆网络CI-LSTM(control input long short-term memory),该网络在传统LSTM的基础上增加了由注意力机制和控制门阀单元组成的输入控制单元,控制门阀单元可依据控制向量进行关键位置上的重点学习,注意力机制对单个LSTM的输入的不同特征进行计算.本文通过实验最终选择使用句法依存关系生成控制向量并构建关系抽取模型,同时使用SemEval-2010 Task8关系数据集以及该数据集中具有复杂语境的样本对所提方法进行实验.结果表明,相比于传统的关系抽取方法,本文所提CI-LSTM在准确率上有进一步提升,并在复杂语境中具有更好的表现.展开更多
文摘针对大多数跨度模型将文本分割成跨度序列时,产生大量非实体跨度,导致了数据不平衡和计算复杂度高等问题,提出了基于跨度和边界探测的实体关系联合抽取模型(joint extraction model for entity relationships based on span and boundary detection,SBDM)。SBDM首先使用训练Transformer的双向编码器表征量(bidirectional encoder representations from Transformer,BERT)模型将文本转化为词向量,并融合了通过图卷积获取的句法依赖信息以形成文本的特征表示;接着通过局部信息和句子上下文信息去探测实体边界并进行标记,以减少非实体跨度;然后将实体边界标记形成的跨度序列进行实体识别;最后将局部上下文信息融合到1个跨度实体对中并使用sigmoid函数进行关系分类。实验表明,SBDM在SciERC(multi-task identification of entities,relations,and coreference for scientific knowledge graph construction)数据集、CoNLL04(the 2004 conference on natural language learning)数据集上的关系分类指标S F1分别达到52.86%、74.47%,取得了较好效果。SBDM用于关系分类任务中,能促进跨度分类方法在关系抽取上的研究。