-
题名基于深度学习的电力实体信息识别方法
被引量:29
- 1
-
-
作者
蒋晨
王渊
胡俊华
徐积全
陈珉
王雅雯
马国明
-
机构
新能源电力系统国家重点实验室(华北电力大学)
国网浙江省电力有限公司
-
出处
《电网技术》
EI
CSCD
北大核心
2021年第6期2141-2149,共9页
-
基金
国家电网公司总部科技项目“面向电网主设备本质安全管理的文本智能分析技术研究”(5500-202019090A-0-0-00)。
-
文摘
电力设备在长期运行与维护过程中积累了大量电力文本,文本中含有常见的故障部位、故障现象与故障检修方法,由于电力文本常采用非结构化的形式进行记录,所以电力信息的自动挖掘难以准确实现。提出了一种新的电力实体信息识别方法(PowerBERT+Bi-LSTM+CRF,PBERTBiLC)。该方法首先采用预训练方式对通用BERT进行参数初置,形成PowerBERT(电力BERT),再将PowerBERT作为文本的字向量语义编码层,以Bi-LSTM作为字符实体信息标签预测层,CRF作为全局标签优化层,共同构建电力实体信息识别模型,实现了电力文本信息的高准确率识别。对现场560份电力设备故障检修文本进行实体识别,在不同实体信息类别上,基于PBERTBiLC的实体信息识别方法比基于词典和最大后向匹配算法的F1值高15.75%~34.38%;且比目前常用的word2vec+Bi-LSTM+CRF的F1值高2.33%~11.25%。
-
关键词
深度学习
双向语言编码
电力实体识别
双向长短时记忆
自然语言处理
-
Keywords
deep learning
BERT
electric entity extraction
bidirectional long and short time memory
natural language processing
-
分类号
TM721
[电气工程—电力系统及自动化]
-
-
题名面向电力调度知识建模的半监督实体识别方法
被引量:3
- 2
-
-
作者
王凯
赵刚
龚晓成
刘剑青
王明轩
于德明
李思
-
机构
国网冀北电力有限公司电力调度控制中心
北京邮电大学人工智能学院
-
出处
《电网技术》
EI
CSCD
北大核心
2023年第9期3855-3863,共9页
-
基金
国家电网有限公司科技项目(5108202114038A0000)。
-
文摘
电力调度知识图谱可有效辅助调度人员进行故障处理、提升电网应急处理能力及智能化水平,近年受到了众多研究者的关注。电力实体识别是建模电力调度知识图谱的基石。现有电力实体识别方法主要基于全监督学习范式,即需要从人工已标注好的数据中学习挖掘实体信息。但人工标注数据耗时耗力,并且相比于电网运行中产生的海量故障处置文本,人工所能标注的数据极为有限。为了能够充分挖掘大规模无标注电力文本中蕴含的实体知识,减轻对有标注数据的需求,降低数据标注工作耗费的人力时间成本,该文提出了一种基于半监督学习的电力实体识别方法(semi-supervised erniebased power entity recognition model,Semi-ERNIE-PER)。该方法引入多粒度掩码预训练模型ERNIE来捕获实体级别的语义信息,并使用所提半监督训练架构和损失函数调度机制来挖掘无标注数据中的实体识别知识,提升电力实体识别性能。为了验证所提出方法的有效性,该文利用电网故障处置预案文本数据集,设计并进行了大量实验。实验结果表明,所提出的半监督电力实体方法相较以往基于全监督学习的最优基线,在全量标注数据下精度、召回率和F1分数上分别提高了4.43%、2.06%和3.24%,特别在标注数据量仅有10%时F1分数相比最优基线提升了15.92%,充分验证了挖掘无标注文本中蕴含的知识对于电力实体识别的有效性。
-
关键词
电网故障处置
知识建模
电力实体识别
半监督学习
深度学习
-
Keywords
grid fault handling
knowledge modeling
power entity recognition
semi-supervised learning
deep learning
-
分类号
TM721
[电气工程—电力系统及自动化]
-
-
题名基于文本特征增强的电力命名实体识别
被引量:4
- 3
-
-
作者
刘文松
胡竹青
张锦辉
刘雪菁
林峰
俞俊
-
机构
南瑞集团有限公司(国网电力科学研究院有限公司)
江苏瑞中数据股份有限公司
-
出处
《电力系统自动化》
EI
CSCD
北大核心
2022年第21期134-142,共9页
-
基金
国家重点研发计划资助项目(2017YFB1001800)
国网电力科学研究院有限公司科技项目“知识图谱技术研究及在科技领域应用”资助。
-
文摘
针对电力领域语料规模小、实体嵌套、实体缩写等特点,提出基于文本特征增强的实体识别方法。首先,通过预设词库和低粒度分词的方式,在合理利用中文单词蕴含的语义信息的同时,降低分词传递误差的影响。其次,设计词级双向门控循环单元学习中文单词构造特征,融合词性和词长特征后,与单词向量拼接成为单词增强向量。然后,基于双向门控循环单元-注意力机制-条件随机场完成实体识别模型的构建和训练。在此基础上,采用电力领域语料库进行验证,F1分数为87.02%,证实了电力命名实体识别效果。
-
关键词
电力实体识别
低粒度分词
单词构造特征
词级双向门控循环单元
-
Keywords
named entity recognition(NER)for electric power industry
low-grain word segment
structure feature of word
wordlevel BiGRU
-
分类号
TM73
[电气工程—电力系统及自动化]
TP391.1
[自动化与计算机技术—计算机应用技术]
-