-
题名一种基于统计的地质专业词语识别方法
被引量:1
- 1
-
-
作者
王宏
朱学立
曾涛
乔东玉
郭甲腾
-
机构
河南省地质调查院
河南省金属矿产成矿地质过程与资源利用重点实验室
东北大学资源与土木工程学院
-
出处
《软件导刊》
2020年第4期211-218,共8页
-
基金
国家自然科学基金项目(41671404)
中央高校基本科研业务费项目(N170104019)
中国地质调查局智能地质调查支撑平台建设项目(DD20160355)。
-
文摘
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。
-
关键词
地质文本
中文分词
质串
重复串
上下文邻接
位置成词概率
-
Keywords
geologic text
Chinese word segmentation
prime string
repeated string
context adjacency analysis
position word probability
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-