期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
联合词汇增强的中文细粒度地理命名实体识别模型研究 被引量:2
1
作者 李发东 王海起 +7 位作者 孔浩然 刘峰 王志海 王琼 徐建波 单宇飞 周啸宇 闫峰 《地球信息科学学报》 EI CSCD 北大核心 2023年第6期1106-1120,共15页
命名实体识别(NER)是自然语言处理众多研究基础,其可以被定义为分类任务,旨在从非结构化文本中定位出命名实体,同时将命名实体分类成预定义类别。与英文相比,中文构词灵活、不具有边界性,且缺乏高质量中文NER数据集,导致中文命名实体识... 命名实体识别(NER)是自然语言处理众多研究基础,其可以被定义为分类任务,旨在从非结构化文本中定位出命名实体,同时将命名实体分类成预定义类别。与英文相比,中文构词灵活、不具有边界性,且缺乏高质量中文NER数据集,导致中文命名实体识别难度较大。细粒度实体是粗粒度实体的细分类型,中文细粒度命名实体尤其是地理命名实体识别难度更大。中文地理命名实体识别无法同时兼顾精度和召回率,改善中文细粒度地理命名实体识别性能至关重要。因此,本文提出2种联合词汇增强模型的中文细粒度地理命名实体识别模型。首先,将词汇作为“知识”注入模型,基于词汇增强方式探究适合细粒度命名实体识别方法,并找出适合细粒度命名实体识别方法BERT-FLAT以及LEBERT;其次,为进一步提升细粒度地理命名实体识别性能,针对上述2种方法在预训练模型、对抗训练以及随机权重平均3个方面进行改进,形成联合词汇增强模型RoBERTa-wwm-FLAT以及LE-RoBERTa-wwm;最后,对联合词汇增强模型进行消融实验,探究不同改进策略对于地理命名实体识别性能影响。基于CLUENER数据集和1个微博数据集的实验表明:(1)与无词汇增强功能模型相比,具有词汇增强功能模型在细粒度命名实体识别任务中F1-score提升了10%左右;(2)针对词汇增强方法进行的3处改进使模型在细粒度地理命名实体识别任务中F1-score提升了0.36%~2.35%;(3)与对抗训练改进、随机权重平均改进相比,预训练模型改进对地理命名实体识别精度的影响最大。 展开更多
关键词 命名实体识别 自然语言处理 中文细粒度实体 地理命名实体识别 词汇增强 预训练模型 对抗训练 随机权重平均
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部