[目的]从水稻病虫草害防治文本中,自动抽取病虫草害与药剂之间的实体与关系,为构建作物系统领域知识图谱提供数据。[方法]针对病虫草害防治文本中含有大量实体没有明确边界以及药剂与病虫草害实体之间存在多种类型关系的特点,设计了一...[目的]从水稻病虫草害防治文本中,自动抽取病虫草害与药剂之间的实体与关系,为构建作物系统领域知识图谱提供数据。[方法]针对病虫草害防治文本中含有大量实体没有明确边界以及药剂与病虫草害实体之间存在多种类型关系的特点,设计了一种基于新标注模式的双层长短期记忆(bi-directional long short-term memory,BiLSTM)网络与注意力机制结合的水稻病虫草害与药剂的实体关系联合抽取算法(joint entity recognition and relation extraction for rice diseases,pests and weeds,JE-DPW)。该方法在解码层利用BiLSTM网络的前向传播和反向传播,增强对病虫草害防治文本中复杂语义特征的提取;再通过softmax分类器获取字符的类别标签,实现实体识别;与此同时,利用注意力机制判断当前字符与之前字符之间存在的关联关系,实现实体与多关系的联合抽取。[结果]利用包含7380个实体、8605个关系的病虫草害防治文本数据集训练模型,使用测试集测试后发现:JE-DPW算法在病虫草害与药剂的实体抽取和关系分类任务中的准确率分别为91.3%和76.8%,对无边界实体识别的准确率为88.1%。与BiLSTM实现实体抽取方法相比,准确率高出8.1%。与利用循环神经网络(recurrent neural network,RNN)和长短期记忆网络(long short-term memory,LSTM)实现关系分类的方法相比,准确率分别高出22.6%和19.7%;随着关系数量的增加,JE-DPW算法在关系抽取上的F1值可保持17.4%~20.1%的优势。[结论]本文提出的算法可以有效提升水稻病虫草害防治文本中实体关系联合抽取的准确度,提高作物系统领域知识库的构建速度。展开更多
为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based ...为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based on deep character and word fusion)。模型编码层通过深度字词融合和上下文语义特征融合,提高密集实体特征识别能力;模型三元组抽取层建立层叠指针网络,提高重叠关系的提取能力。在小麦种质数据集和公开数据集上的一系列对比实验结果表明,WGIE-DCWF模型能够有效提高小麦种质数据实体关系联合抽取效果,同时拥有较好的泛化性,可以为小麦种质信息知识库构建提供技术支撑。展开更多
针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry...针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry disease diagnosis and treatment text,JEER_PD)。JEER_PD使用双重指针标注(Dual-pointer labeling,DPL)策略,建立头、尾2个指针标注器,一次性标注出所有实体的开始和结束位置;引入CLN(Conditional layer normalization)网络层,强化主体抽取任务与客体关系联合抽取任务之间的联系;利用概率平衡策略PBS对抗正负类标签类别失衡,以加速模型收敛。实验表明,JEER_PD准确率、召回率和F1分别为97.69%、97.59%和97.64%,3项指标较现有方法均有显著提升,说明JEER_PD能够快速、准确地抽取家禽疾病诊疗复杂知识文本中的实体关系三元组。展开更多
文摘[目的]从水稻病虫草害防治文本中,自动抽取病虫草害与药剂之间的实体与关系,为构建作物系统领域知识图谱提供数据。[方法]针对病虫草害防治文本中含有大量实体没有明确边界以及药剂与病虫草害实体之间存在多种类型关系的特点,设计了一种基于新标注模式的双层长短期记忆(bi-directional long short-term memory,BiLSTM)网络与注意力机制结合的水稻病虫草害与药剂的实体关系联合抽取算法(joint entity recognition and relation extraction for rice diseases,pests and weeds,JE-DPW)。该方法在解码层利用BiLSTM网络的前向传播和反向传播,增强对病虫草害防治文本中复杂语义特征的提取;再通过softmax分类器获取字符的类别标签,实现实体识别;与此同时,利用注意力机制判断当前字符与之前字符之间存在的关联关系,实现实体与多关系的联合抽取。[结果]利用包含7380个实体、8605个关系的病虫草害防治文本数据集训练模型,使用测试集测试后发现:JE-DPW算法在病虫草害与药剂的实体抽取和关系分类任务中的准确率分别为91.3%和76.8%,对无边界实体识别的准确率为88.1%。与BiLSTM实现实体抽取方法相比,准确率高出8.1%。与利用循环神经网络(recurrent neural network,RNN)和长短期记忆网络(long short-term memory,LSTM)实现关系分类的方法相比,准确率分别高出22.6%和19.7%;随着关系数量的增加,JE-DPW算法在关系抽取上的F1值可保持17.4%~20.1%的优势。[结论]本文提出的算法可以有效提升水稻病虫草害防治文本中实体关系联合抽取的准确度,提高作物系统领域知识库的构建速度。
文摘为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based on deep character and word fusion)。模型编码层通过深度字词融合和上下文语义特征融合,提高密集实体特征识别能力;模型三元组抽取层建立层叠指针网络,提高重叠关系的提取能力。在小麦种质数据集和公开数据集上的一系列对比实验结果表明,WGIE-DCWF模型能够有效提高小麦种质数据实体关系联合抽取效果,同时拥有较好的泛化性,可以为小麦种质信息知识库构建提供技术支撑。
文摘针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry disease diagnosis and treatment text,JEER_PD)。JEER_PD使用双重指针标注(Dual-pointer labeling,DPL)策略,建立头、尾2个指针标注器,一次性标注出所有实体的开始和结束位置;引入CLN(Conditional layer normalization)网络层,强化主体抽取任务与客体关系联合抽取任务之间的联系;利用概率平衡策略PBS对抗正负类标签类别失衡,以加速模型收敛。实验表明,JEER_PD准确率、召回率和F1分别为97.69%、97.59%和97.64%,3项指标较现有方法均有显著提升,说明JEER_PD能够快速、准确地抽取家禽疾病诊疗复杂知识文本中的实体关系三元组。