-
题名电网设备缺陷文本的质量评价与提升方法
被引量:33
- 1
-
-
作者
邵冠宇
王慧芳
何奔腾
-
机构
浙江大学电气工程学院
-
出处
《电网技术》
EI
CSCD
北大核心
2019年第4期1472-1479,共8页
-
文摘
文本质量直接影响着文本挖掘效果的优劣。在总结电网企业缺陷文本存在的质量问题基础上,提出了缺陷文本质量评价和提升方法。首先,通过对大量实际缺陷文本的分析,总结出电网设备缺陷文本的格式及容易出现的不完整、不具体、冗余度过高等问题。然后,基于相应问题,定义了缺陷文本质量的评价指标,并提出了基于"层次-自适应灰色关联分析法"的评价方法。接下来,针对历史缺陷文本中质量较差和缺陷等级与缺陷描述不匹配的文本,利用潜在狄利克雷分布方法,结合国家电网有限公司的缺陷分类标准,进行修正以提升质量;针对新录入文本,利用文本质量评价方法进行质量问题提示,利用词向量映射方法给出修正建议,保证新录入缺陷文本的质量。最后,结合实例对修正前后的缺陷文本进行质量对比,算例表明,修正后的历史缺陷文本在文本质量得分上有较大提升,新录入文本存在的问题也能较为准确地识别并给出对应修正建议。
-
关键词
电网设备缺陷文本
文本质量评价
层次-自适应灰色关联分析法
文本质量提升
潜在狄利克雷分布
-
Keywords
power grid equipment defect text
text quality assessment
hierarchical-adaptive grey relational analysis method
text quality improvement
latent Dirichlet allocation
-
分类号
TM721
[电气工程—电力系统及自动化]
-