-
题名基于BLSTM-CRF的自举式术语识别方法研究
- 1
-
-
作者
陈翀
高欣妍
黄红
-
机构
北京师范大学政府管理学院
富媒体数字出版内容组织与知识服务重点实验室
-
出处
《情报工程》
2023年第5期97-111,共15页
-
基金
富媒体数字出版内容组织与知识服务重点实验室2022年度开放基金项目。
-
文摘
[目的/意义]自动识别优质术语一直是多领域普遍关注的问题,其中一个突出困难是缺乏领域标注语料,为此本文提出一种基于BLSTM-CRF的自举式领域术语识别方法。[方法/过程]首先选取少量种子术语标注语料,训练BLSTM-CRF模型,识别候选术语;再基于术语质量特征构造筛选准则,从候选术语中挑出优质且新增的结果加入到新一轮训练的标注词汇集合,迭代标注训练,直到新增术语量小于某一阈值或迭代达到特定次数。本文还检测了模型迭代训练效率及在其他领域的推广性,将在计算机领域语料训练出的模型用于新兴的融合出版领域的技术术语识别。[局限]术语质量特征量化方法待综合多指标优化,模型改进学习机制未引入负例且迭代不易收敛等。[结果/结论]本文最终通过标注数量和标注语境丰富度实验表明了采用新增标注数据进行迭代的有效性。以50轮迭代训练后结果为例,在计算机测试语料上识别术语及其所有标注序列的F1值为0.43和0.59,新术语率为0.79,均优于基准BLSTM-CRF模型、BERT-BLSTM-CRF模型效果,证实了新方法启动成本低,领域适应性好,能够有效解决术语识别中训练语料缺乏的问题。在模型迁移效能评价中,抽样判断的术语识别平均正确率为87.7%,说明了迁移学习方法的应用潜力。
-
关键词
术语识别
自举
BLSTM-CRF模型
识别性能评价
术语质量筛选准则
-
Keywords
term Extraction
Bootstrapping,BLSTM-CRF Model
performance evaluation of term recognition
term Quality Criterions
-
分类号
G35
[文化科学—情报学]
TP391
[自动化与计算机技术—计算机应用技术]
-