随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整...随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整合利用的方法。针对以上问题,该文基于BERT(bidirectional encoder representation from transformers)模型对命名实体抽取技术展开研究。一方面,增加了双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)层进一步提取文本语义信息;另一方面,采用条件随机场(conditional random field,CRF)替换了BERT的输出层,克服了预测标签的局部最优问题。最后融合以上2种策略提出了改进BERT算法,即将BERT与双向长短记忆网络和条件随机场相结合,实现了缺陷文本的命名实体抽取。实验结果表明,改进BERT算法在7类实体上均取得了较高的F1值(精确率和召回率的加权调和平均值)。与BERT相比,实体抽取的总体精确率和召回率分别提升了0.94%和0.95%。展开更多
当前电网数字化转型升级,电力设备智能运维技术快速发展,在运维过程中积累了大量包含电网重要信息的电力设备缺陷文本。由于文本数据标签稀疏,以及描述语言的模糊性、差异性等问题,电力文本中的运维信息难以被有效挖掘。文章提出了一种...当前电网数字化转型升级,电力设备智能运维技术快速发展,在运维过程中积累了大量包含电网重要信息的电力设备缺陷文本。由于文本数据标签稀疏,以及描述语言的模糊性、差异性等问题,电力文本中的运维信息难以被有效挖掘。文章提出了一种针对电力设备缺陷文本的数据增强方法。首先,使用缺陷文本数据集微调预训练模型ERNIE(enhanced representation through knowledge integration),应用多阶段知识掩码策略将电气领域专业知识集成到对缺陷文本的动态编码中;然后在流形假设的基础上基于降噪自动编码器架构设计破坏函数和重建函数,遵循基于信息价值的掩码单元选择策略构建破坏函数,基于微调过的ERNIE构建重建函数,在“破坏-重建”过程中获得位于原始数据流形范围内的增强样本;其次对增强数据集基于影响函数和多样性度量进行数据选择,过滤掉数据质量差和重复度高的增强样本;最后通过多层训练框架,将增强数据应用于各种缺陷文本挖掘任务。算例基于真实设备巡检、检修记录构建了电力设备缺陷文本等级分类任务。结果表明,所提出的算法对缺陷文本挖掘效果有较大提升,并且可以广泛灵活地应用在多种电力设备缺陷文本挖掘任务中。展开更多
针对电力设备运行和维护中所产生的大量碎片化、非系统性以及相关性不足设备缺陷文本,提出了一种电力设备缺陷文本识别模型。使用基于全词掩码的预训练模型(bidirectional encoder representation from transform-ers,BERT)替换基于随...针对电力设备运行和维护中所产生的大量碎片化、非系统性以及相关性不足设备缺陷文本,提出了一种电力设备缺陷文本识别模型。使用基于全词掩码的预训练模型(bidirectional encoder representation from transform-ers,BERT)替换基于随机掩码的BERT模型,提高了对电力词汇的理解力。使用双向长短期记忆网络(bidirection-al long short-term memory,BiLSTM)提高了模型捕获上下文信息的能力,并提高了模型的鲁棒性,引入注意力机制(attention)可以更好地捕获电力设备缺陷实体之间的复杂依赖关系,从而进一步提升模型的表现。实验结果显示,该模型准确率、召回率、F1值分别为96.26%、96.94%、96.60%,在地点、缺陷内容和设备三种实体上的F1值均优于其他模型。展开更多
文摘随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整合利用的方法。针对以上问题,该文基于BERT(bidirectional encoder representation from transformers)模型对命名实体抽取技术展开研究。一方面,增加了双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)层进一步提取文本语义信息;另一方面,采用条件随机场(conditional random field,CRF)替换了BERT的输出层,克服了预测标签的局部最优问题。最后融合以上2种策略提出了改进BERT算法,即将BERT与双向长短记忆网络和条件随机场相结合,实现了缺陷文本的命名实体抽取。实验结果表明,改进BERT算法在7类实体上均取得了较高的F1值(精确率和召回率的加权调和平均值)。与BERT相比,实体抽取的总体精确率和召回率分别提升了0.94%和0.95%。
文摘当前电网数字化转型升级,电力设备智能运维技术快速发展,在运维过程中积累了大量包含电网重要信息的电力设备缺陷文本。由于文本数据标签稀疏,以及描述语言的模糊性、差异性等问题,电力文本中的运维信息难以被有效挖掘。文章提出了一种针对电力设备缺陷文本的数据增强方法。首先,使用缺陷文本数据集微调预训练模型ERNIE(enhanced representation through knowledge integration),应用多阶段知识掩码策略将电气领域专业知识集成到对缺陷文本的动态编码中;然后在流形假设的基础上基于降噪自动编码器架构设计破坏函数和重建函数,遵循基于信息价值的掩码单元选择策略构建破坏函数,基于微调过的ERNIE构建重建函数,在“破坏-重建”过程中获得位于原始数据流形范围内的增强样本;其次对增强数据集基于影响函数和多样性度量进行数据选择,过滤掉数据质量差和重复度高的增强样本;最后通过多层训练框架,将增强数据应用于各种缺陷文本挖掘任务。算例基于真实设备巡检、检修记录构建了电力设备缺陷文本等级分类任务。结果表明,所提出的算法对缺陷文本挖掘效果有较大提升,并且可以广泛灵活地应用在多种电力设备缺陷文本挖掘任务中。
文摘针对电力设备运行和维护中所产生的大量碎片化、非系统性以及相关性不足设备缺陷文本,提出了一种电力设备缺陷文本识别模型。使用基于全词掩码的预训练模型(bidirectional encoder representation from transform-ers,BERT)替换基于随机掩码的BERT模型,提高了对电力词汇的理解力。使用双向长短期记忆网络(bidirection-al long short-term memory,BiLSTM)提高了模型捕获上下文信息的能力,并提高了模型的鲁棒性,引入注意力机制(attention)可以更好地捕获电力设备缺陷实体之间的复杂依赖关系,从而进一步提升模型的表现。实验结果显示,该模型准确率、召回率、F1值分别为96.26%、96.94%、96.60%,在地点、缺陷内容和设备三种实体上的F1值均优于其他模型。