为了解决农业病虫害命名实体识别过程中存在的内在语义信息缺失、局部上下文特征易被忽略和捕获长距离依赖能力不足等问题,以农业病虫害文本为研究对象,提出一种基于部首嵌入和注意力机制的农业病虫害命名实体识别模型(Chinese agricult...为了解决农业病虫害命名实体识别过程中存在的内在语义信息缺失、局部上下文特征易被忽略和捕获长距离依赖能力不足等问题,以农业病虫害文本为研究对象,提出一种基于部首嵌入和注意力机制的农业病虫害命名实体识别模型(Chinese agricultural diseases and pests named entity recognition with joint radical-embedding and self-attention,RSADP)。首先,该模型将部首嵌入集成到字符嵌入中作为输入,用以丰富语义信息。其中,针对部首嵌入设计了3种特征提取策略,即卷积神经网络(Convolutional neural network,CNN)、双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)和CNNBiLSTM;其次,采用多层不同窗口尺寸的CNNs层提取不同尺度的局部上下文信息;然后,在BiLSTM提取全局序列特征的基础上,采用自注意力机制进一步增强模型提取更长距离依赖的能力;最后,采用条件随机场(Conditional random field,CRF)联合识别实体边界和划分实体类别。在包含11个类别和24715条标注样本的农业病虫害自制语料上进行了实验。结果表明,本文模型RSADP在该数据集上精确率、召回率和F1值分别为94.16%、94.47%和94.32%;在具体实体类别上,RSADP在作物、病害、虫害等易识别实体上F1值高达95.81%、97.76%和97.23%。同时,RSADP在草害、病原等难以识别实体上F1值仍保持86%以上。实验结果表明,本文所提模型能够有效识别农业病虫害命名实体,其识别精度优于其他模型,且具有一定的泛化性。展开更多
为解决病虫害文献识别过程中存在语义特征学习不够、上下文信息不能充分利用等问题,以病虫害相关文献摘要为研究对象,提出一种基于注意力池化策略和堆叠式双向长短期记忆(Bi-directional long-short term memory,BiLSTM)的神经网络模型(...为解决病虫害文献识别过程中存在语义特征学习不够、上下文信息不能充分利用等问题,以病虫害相关文献摘要为研究对象,提出一种基于注意力池化策略和堆叠式双向长短期记忆(Bi-directional long-short term memory,BiLSTM)的神经网络模型(AP-LSTM)。该模型采用堆叠式长短期记忆结构,提高了对语义特征的学习能力,在进行堆叠操作时,通过将输入向量与输出向量拼接,进一步加强了对语义信息的表征;然后采用基于注意力机制的池化策略为不同的词分配不同权重,使模型在抓住重点的同时能够充分利用上下文信息。本文在包含1439条正例、1061条负例的自标注数据集上进行了实验,所提出的AP-LSTM模型在该数据集上的精确率、召回率、F1值和准确率分别为92.67%、97.20%、94.88%和94.00%,实验结果表明,AP-LSTM模型能够有效识别病虫害文献。展开更多
文摘为了解决农业病虫害命名实体识别过程中存在的内在语义信息缺失、局部上下文特征易被忽略和捕获长距离依赖能力不足等问题,以农业病虫害文本为研究对象,提出一种基于部首嵌入和注意力机制的农业病虫害命名实体识别模型(Chinese agricultural diseases and pests named entity recognition with joint radical-embedding and self-attention,RSADP)。首先,该模型将部首嵌入集成到字符嵌入中作为输入,用以丰富语义信息。其中,针对部首嵌入设计了3种特征提取策略,即卷积神经网络(Convolutional neural network,CNN)、双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)和CNNBiLSTM;其次,采用多层不同窗口尺寸的CNNs层提取不同尺度的局部上下文信息;然后,在BiLSTM提取全局序列特征的基础上,采用自注意力机制进一步增强模型提取更长距离依赖的能力;最后,采用条件随机场(Conditional random field,CRF)联合识别实体边界和划分实体类别。在包含11个类别和24715条标注样本的农业病虫害自制语料上进行了实验。结果表明,本文模型RSADP在该数据集上精确率、召回率和F1值分别为94.16%、94.47%和94.32%;在具体实体类别上,RSADP在作物、病害、虫害等易识别实体上F1值高达95.81%、97.76%和97.23%。同时,RSADP在草害、病原等难以识别实体上F1值仍保持86%以上。实验结果表明,本文所提模型能够有效识别农业病虫害命名实体,其识别精度优于其他模型,且具有一定的泛化性。
文摘为解决病虫害文献识别过程中存在语义特征学习不够、上下文信息不能充分利用等问题,以病虫害相关文献摘要为研究对象,提出一种基于注意力池化策略和堆叠式双向长短期记忆(Bi-directional long-short term memory,BiLSTM)的神经网络模型(AP-LSTM)。该模型采用堆叠式长短期记忆结构,提高了对语义特征的学习能力,在进行堆叠操作时,通过将输入向量与输出向量拼接,进一步加强了对语义信息的表征;然后采用基于注意力机制的池化策略为不同的词分配不同权重,使模型在抓住重点的同时能够充分利用上下文信息。本文在包含1439条正例、1061条负例的自标注数据集上进行了实验,所提出的AP-LSTM模型在该数据集上的精确率、召回率、F1值和准确率分别为92.67%、97.20%、94.88%和94.00%,实验结果表明,AP-LSTM模型能够有效识别病虫害文献。