-
题名基于BiLSTM-CRF的中文层级地址分词
被引量:15
- 1
-
-
作者
程博
李卫红
童昊昕
-
机构
华南师范大学地理科学学院
航天精一(广东)信息科技有限公司
-
出处
《地球信息科学学报》
CSCD
北大核心
2019年第8期1143-1151,共9页
-
基金
广东省重大科技专项(2017B030305005)~~
-
文摘
中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特点,构建针对中文层级地址分词的地址标注体系,并提出融合双向长短时记忆网络和条件随机场(BiLSTM-CRF)的中文层级地址分词模型。该模型既考虑了BiLSTM模型能够记忆上下文地址的特性,也保留了CRF算法可以通过转移概率矩阵控制地址标注输出的能力。针对该地址标注体系标注的训练地址样本,分别使用CRF、LSTM、BiLSTM与BiLSTM-CRF模型进行训练对比。结果表明:①基于中文地址标注体系的模型分词效果更佳,地址标注更为精细,符合实际地址分布情况;②BiLSTM-CRF模型精确度达到93.4%,高于CRF(90.4%)、LSTM(89.3%)和BiLSTM(91.2%),其整体地址分词性能和各层级地址分词效果相对于其他模型更突出;③各模型分词性能与地址层级保持一致,即地址层级越高,分词效果越好。本研究提出的中文地址标注体系和分词模型为开展中文地址标准化工作提供了方法参考,同时也为进一步提升地理编码技术的精准度提供了可能。
-
关键词
中文分词
地址标注
中文层级地址分词
长短时记忆网络(LSTM)
双向长短时记忆和条件随机场模型(BiLSTM-CRF)
-
Keywords
Chinese word segmentation
address tagging
hierarchical word segmentation
Long Short-Term Mem ory (LSTM)
Bidirectional Long Short-Term Memory-Conditional Random Field (BiLSTM-CRF)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-