期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于BLSTM-CRF的自举式术语识别方法研究
1
作者 陈翀 高欣妍 黄红 《情报工程》 2023年第5期97-111,共15页
[目的/意义]自动识别优质术语一直是多领域普遍关注的问题,其中一个突出困难是缺乏领域标注语料,为此本文提出一种基于BLSTM-CRF的自举式领域术语识别方法。[方法/过程]首先选取少量种子术语标注语料,训练BLSTM-CRF模型,识别候选术语;... [目的/意义]自动识别优质术语一直是多领域普遍关注的问题,其中一个突出困难是缺乏领域标注语料,为此本文提出一种基于BLSTM-CRF的自举式领域术语识别方法。[方法/过程]首先选取少量种子术语标注语料,训练BLSTM-CRF模型,识别候选术语;再基于术语质量特征构造筛选准则,从候选术语中挑出优质且新增的结果加入到新一轮训练的标注词汇集合,迭代标注训练,直到新增术语量小于某一阈值或迭代达到特定次数。本文还检测了模型迭代训练效率及在其他领域的推广性,将在计算机领域语料训练出的模型用于新兴的融合出版领域的技术术语识别。[局限]术语质量特征量化方法待综合多指标优化,模型改进学习机制未引入负例且迭代不易收敛等。[结果/结论]本文最终通过标注数量和标注语境丰富度实验表明了采用新增标注数据进行迭代的有效性。以50轮迭代训练后结果为例,在计算机测试语料上识别术语及其所有标注序列的F1值为0.43和0.59,新术语率为0.79,均优于基准BLSTM-CRF模型、BERT-BLSTM-CRF模型效果,证实了新方法启动成本低,领域适应性好,能够有效解决术语识别中训练语料缺乏的问题。在模型迁移效能评价中,抽样判断的术语识别平均正确率为87.7%,说明了迁移学习方法的应用潜力。 展开更多
关键词 术语识别 自举 BLSTM-CRF模型 识别性能评价 术语质量筛选准则
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部