电力安全三元组抽取是构建电力安全知识图谱及搜索系统的基础。面对特殊语句时,电力安全传统深度学习抽取方法识别率低且容易出现误差传播,而用联合抽取方法无法处理实体对重叠和单实体重叠问题。因此,提出基于三元组分类的联合抽取方法...电力安全三元组抽取是构建电力安全知识图谱及搜索系统的基础。面对特殊语句时,电力安全传统深度学习抽取方法识别率低且容易出现误差传播,而用联合抽取方法无法处理实体对重叠和单实体重叠问题。因此,提出基于三元组分类的联合抽取方法,用分类思想进行电力安全三元组抽取。首先从电力安全文本网站提取电力安全标准文本,并开发插件进行手动标注。然后利用Chinese-bert-wwm-ext(Chinese bidirectional encoder representations from transformers whole word masking extesion)预训练模型对电力安全文本数据向量化。随后将词向量枚举,将三元组转换为两对向量组,再设计分类器训练联合抽取模型抽取三元组向量,最后解码出三元组。实验结果:在电力安全数据集上取得了90.2%的F1值,比传统流水线方法Bert-BILSTM-CRF(Bidirectional encoder representations from transformers bidirectional long short-term memory conditional random fields)高10%,比联合抽取模型TPLinker(Token pair linker)高1.3%。该结果表明所提方法便于后续电力安全知识图谱建立。展开更多
针对机电设备领域相关语料匮乏、关系类型特征挖掘不充分以及文本包含重叠三元组的问题,提出一种融合提示学习与先验知识以迭代式对抗训练的三元组抽取方法TBPA(Triplet extraction Based on Prompt and Antagonistic training)。首先,...针对机电设备领域相关语料匮乏、关系类型特征挖掘不充分以及文本包含重叠三元组的问题,提出一种融合提示学习与先验知识以迭代式对抗训练的三元组抽取方法TBPA(Triplet extraction Based on Prompt and Antagonistic training)。首先,利用BERT(Bidirectional Encoder Representations from Transformers)模型在自构语料库上进行微调,以获取输入文本的特征向量;接着,采用投影梯度下降(PGD)方法在嵌入层进行迭代式对抗训练,提高模型对干扰样本的抵御能力和对真实样本的泛化能力;然后,利用单层头尾指针网络识别出头实体,并结合提示学习模板获取头实体对应的领域先验特征,将字向量与Prompt模板中预测得到的提示向量相结合;最后,在分层标注框架下,使用单层头尾指针网络逐个识别预定义的所有关系类型所对应的尾实体。与基线模型CasRel相比,TBPA在精确率、召回率和F1值上分别提高了3.10、6.12、4.88个百分点。实验结果表明,TBPA在煤矿机电设备领域三元组抽取任务中具有一定的优势。展开更多
方面情感三元组抽取旨在识别一条评论中的方面项及其情感倾向,并提取与其相关的观点项.现有方法大多将该类任务分为多个子任务,将子任务组成流水线并完成这类任务.然而,基于流水线思想的方法在实际应用中会受到误差传播、不易使用等因...方面情感三元组抽取旨在识别一条评论中的方面项及其情感倾向,并提取与其相关的观点项.现有方法大多将该类任务分为多个子任务,将子任务组成流水线并完成这类任务.然而,基于流水线思想的方法在实际应用中会受到误差传播、不易使用等因素的影响.为此,文中提出词对关系学习方法,将方面情感三元组抽取任务转化为端到端的词对关系学习任务.方法包含一种可将句中的词对关系进行统一标注以表示所有三元组的词对关系标注的方法,以及为此特别构建的可输出词对关系的词对关系网络.首先,使用双向门控循环单元和混合式注意力对句子进行编码表示.然后,使用注意力图转换模块将句子编码转换为各项标签概率.最后,从词对关系标签结果中提取三元组.此外,将预训练的BERT(Bidirectional Encoder Representation from Transformer)应用于文中方法.在4个标准数据集上的实验表明,文中方法性能较优.展开更多
文摘电力安全三元组抽取是构建电力安全知识图谱及搜索系统的基础。面对特殊语句时,电力安全传统深度学习抽取方法识别率低且容易出现误差传播,而用联合抽取方法无法处理实体对重叠和单实体重叠问题。因此,提出基于三元组分类的联合抽取方法,用分类思想进行电力安全三元组抽取。首先从电力安全文本网站提取电力安全标准文本,并开发插件进行手动标注。然后利用Chinese-bert-wwm-ext(Chinese bidirectional encoder representations from transformers whole word masking extesion)预训练模型对电力安全文本数据向量化。随后将词向量枚举,将三元组转换为两对向量组,再设计分类器训练联合抽取模型抽取三元组向量,最后解码出三元组。实验结果:在电力安全数据集上取得了90.2%的F1值,比传统流水线方法Bert-BILSTM-CRF(Bidirectional encoder representations from transformers bidirectional long short-term memory conditional random fields)高10%,比联合抽取模型TPLinker(Token pair linker)高1.3%。该结果表明所提方法便于后续电力安全知识图谱建立。
文摘针对机电设备领域相关语料匮乏、关系类型特征挖掘不充分以及文本包含重叠三元组的问题,提出一种融合提示学习与先验知识以迭代式对抗训练的三元组抽取方法TBPA(Triplet extraction Based on Prompt and Antagonistic training)。首先,利用BERT(Bidirectional Encoder Representations from Transformers)模型在自构语料库上进行微调,以获取输入文本的特征向量;接着,采用投影梯度下降(PGD)方法在嵌入层进行迭代式对抗训练,提高模型对干扰样本的抵御能力和对真实样本的泛化能力;然后,利用单层头尾指针网络识别出头实体,并结合提示学习模板获取头实体对应的领域先验特征,将字向量与Prompt模板中预测得到的提示向量相结合;最后,在分层标注框架下,使用单层头尾指针网络逐个识别预定义的所有关系类型所对应的尾实体。与基线模型CasRel相比,TBPA在精确率、召回率和F1值上分别提高了3.10、6.12、4.88个百分点。实验结果表明,TBPA在煤矿机电设备领域三元组抽取任务中具有一定的优势。
文摘方面情感三元组抽取旨在识别一条评论中的方面项及其情感倾向,并提取与其相关的观点项.现有方法大多将该类任务分为多个子任务,将子任务组成流水线并完成这类任务.然而,基于流水线思想的方法在实际应用中会受到误差传播、不易使用等因素的影响.为此,文中提出词对关系学习方法,将方面情感三元组抽取任务转化为端到端的词对关系学习任务.方法包含一种可将句中的词对关系进行统一标注以表示所有三元组的词对关系标注的方法,以及为此特别构建的可输出词对关系的词对关系网络.首先,使用双向门控循环单元和混合式注意力对句子进行编码表示.然后,使用注意力图转换模块将句子编码转换为各项标签概率.最后,从词对关系标签结果中提取三元组.此外,将预训练的BERT(Bidirectional Encoder Representation from Transformer)应用于文中方法.在4个标准数据集上的实验表明,文中方法性能较优.