期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
联合词汇增强的中文细粒度地理命名实体识别模型研究
被引量:
2
1
作者
李发东
王海起
+7 位作者
孔浩然
刘峰
王志海
王琼
徐建波
单宇飞
周啸宇
闫峰
《地球信息科学学报》
EI
CSCD
北大核心
2023年第6期1106-1120,共15页
命名实体识别(NER)是自然语言处理众多研究基础,其可以被定义为分类任务,旨在从非结构化文本中定位出命名实体,同时将命名实体分类成预定义类别。与英文相比,中文构词灵活、不具有边界性,且缺乏高质量中文NER数据集,导致中文命名实体识...
命名实体识别(NER)是自然语言处理众多研究基础,其可以被定义为分类任务,旨在从非结构化文本中定位出命名实体,同时将命名实体分类成预定义类别。与英文相比,中文构词灵活、不具有边界性,且缺乏高质量中文NER数据集,导致中文命名实体识别难度较大。细粒度实体是粗粒度实体的细分类型,中文细粒度命名实体尤其是地理命名实体识别难度更大。中文地理命名实体识别无法同时兼顾精度和召回率,改善中文细粒度地理命名实体识别性能至关重要。因此,本文提出2种联合词汇增强模型的中文细粒度地理命名实体识别模型。首先,将词汇作为“知识”注入模型,基于词汇增强方式探究适合细粒度命名实体识别方法,并找出适合细粒度命名实体识别方法BERT-FLAT以及LEBERT;其次,为进一步提升细粒度地理命名实体识别性能,针对上述2种方法在预训练模型、对抗训练以及随机权重平均3个方面进行改进,形成联合词汇增强模型RoBERTa-wwm-FLAT以及LE-RoBERTa-wwm;最后,对联合词汇增强模型进行消融实验,探究不同改进策略对于地理命名实体识别性能影响。基于CLUENER数据集和1个微博数据集的实验表明:(1)与无词汇增强功能模型相比,具有词汇增强功能模型在细粒度命名实体识别任务中F1-score提升了10%左右;(2)针对词汇增强方法进行的3处改进使模型在细粒度地理命名实体识别任务中F1-score提升了0.36%~2.35%;(3)与对抗训练改进、随机权重平均改进相比,预训练模型改进对地理命名实体识别精度的影响最大。
展开更多
关键词
命名实体识别
自然语言处理
中文细粒度实体
地理命名实体识别
词汇增强
预训练模型
对抗训练
随机权重平均
原文传递
题名
联合词汇增强的中文细粒度地理命名实体识别模型研究
被引量:
2
1
作者
李发东
王海起
孔浩然
刘峰
王志海
王琼
徐建波
单宇飞
周啸宇
闫峰
机构
中国石油大学(华东)海洋与空间信息学院
出处
《地球信息科学学报》
EI
CSCD
北大核心
2023年第6期1106-1120,共15页
基金
山东省自然科学基金项目(ZR2021MD068)。
文摘
命名实体识别(NER)是自然语言处理众多研究基础,其可以被定义为分类任务,旨在从非结构化文本中定位出命名实体,同时将命名实体分类成预定义类别。与英文相比,中文构词灵活、不具有边界性,且缺乏高质量中文NER数据集,导致中文命名实体识别难度较大。细粒度实体是粗粒度实体的细分类型,中文细粒度命名实体尤其是地理命名实体识别难度更大。中文地理命名实体识别无法同时兼顾精度和召回率,改善中文细粒度地理命名实体识别性能至关重要。因此,本文提出2种联合词汇增强模型的中文细粒度地理命名实体识别模型。首先,将词汇作为“知识”注入模型,基于词汇增强方式探究适合细粒度命名实体识别方法,并找出适合细粒度命名实体识别方法BERT-FLAT以及LEBERT;其次,为进一步提升细粒度地理命名实体识别性能,针对上述2种方法在预训练模型、对抗训练以及随机权重平均3个方面进行改进,形成联合词汇增强模型RoBERTa-wwm-FLAT以及LE-RoBERTa-wwm;最后,对联合词汇增强模型进行消融实验,探究不同改进策略对于地理命名实体识别性能影响。基于CLUENER数据集和1个微博数据集的实验表明:(1)与无词汇增强功能模型相比,具有词汇增强功能模型在细粒度命名实体识别任务中F1-score提升了10%左右;(2)针对词汇增强方法进行的3处改进使模型在细粒度地理命名实体识别任务中F1-score提升了0.36%~2.35%;(3)与对抗训练改进、随机权重平均改进相比,预训练模型改进对地理命名实体识别精度的影响最大。
关键词
命名实体识别
自然语言处理
中文细粒度实体
地理命名实体识别
词汇增强
预训练模型
对抗训练
随机权重平均
Keywords
named
entity
recognition
natural
language
processing
chinese
fine
-
grained
geographic
entity
geographic
entity
recognition
vocabulary
enhancement
pre-training
model
adversarial
training
stochastic
weight
averaging
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
联合词汇增强的中文细粒度地理命名实体识别模型研究
李发东
王海起
孔浩然
刘峰
王志海
王琼
徐建波
单宇飞
周啸宇
闫峰
《地球信息科学学报》
EI
CSCD
北大核心
2023
2
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部