-
题名面向国防科技领域的技术和术语语料库构建方法
被引量:20
- 1
-
-
作者
冯鸾鸾
李军辉
李培峰
朱巧明
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2020年第8期41-50,共10页
-
基金
国家自然科学基金(61836007,61472265,61876120)。
-
文摘
互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24487个句子和33756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F1值达到70.40%,为进一步的技术和术语识别研究提供了基础。
-
关键词
面向国防科技领域
技术和术语
标注规范
语料库
-
Keywords
oriented national defense science
technology and terminology
annotation guidelines
corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向国防科技领域的技术和术语识别方法研究
被引量:12
- 2
-
-
作者
冯鸾鸾
李军辉
李培峰
朱巧明
-
机构
苏州大学计算机科学与技术学院
江苏省计算机信息技术处理重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2019年第12期231-236,共6页
-
基金
国家自然基金项目重点项目(61836007),面上项目(61772354,61773276)资助
-
文摘
随着自然语言处理技术的发展,人们越来越重视构建面向国防科技领域的知识图谱。而面向国防科技领域的技术和术语识别是构建该领域技术知识图谱的基础。文中基于该领域的语料库,在技术和术语识别的任务上,探索了子词单元在传统序列标注Bi-LSTM+CRF模型上的应用。此外,针对任务的特点,提出了适用于技术和术语识别的语言学特征。基于该领域的语料库,实验结果表明技术和术语识别的F1值达到了71.80%,较基准系统提升了3.04%,能够较好地识别出面向国防科技领域的技术和术语。同时,所提方法也优于基于BERT模型的技术术语识别方法。
-
关键词
面向国防科技领域
技术和术语
子词
Bi-LSTM+CRF模型
语言学特征
-
Keywords
oriented national defense science
Technology and terminology
Subwords
Bi-LSTM+CRF model
Linguistic features
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-