期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于BiLSTM-CRF的中文层级地址分词 被引量:16
1
作者 程博 李卫红 童昊昕 《地球信息科学学报》 CSCD 北大核心 2019年第8期1143-1151,共9页
中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特... 中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特点,构建针对中文层级地址分词的地址标注体系,并提出融合双向长短时记忆网络和条件随机场(BiLSTM-CRF)的中文层级地址分词模型。该模型既考虑了BiLSTM模型能够记忆上下文地址的特性,也保留了CRF算法可以通过转移概率矩阵控制地址标注输出的能力。针对该地址标注体系标注的训练地址样本,分别使用CRF、LSTM、BiLSTM与BiLSTM-CRF模型进行训练对比。结果表明:①基于中文地址标注体系的模型分词效果更佳,地址标注更为精细,符合实际地址分布情况;②BiLSTM-CRF模型精确度达到93.4%,高于CRF(90.4%)、LSTM(89.3%)和BiLSTM(91.2%),其整体地址分词性能和各层级地址分词效果相对于其他模型更突出;③各模型分词性能与地址层级保持一致,即地址层级越高,分词效果越好。本研究提出的中文地址标注体系和分词模型为开展中文地址标准化工作提供了方法参考,同时也为进一步提升地理编码技术的精准度提供了可能。 展开更多
关键词 中文分词 地址标注 中文层级地址分词 长短时记忆网络(LSTM) 双向长短时记忆和条件随机场模型(BiLSTM-CRF)
原文传递
基于BERT-BiLSTM-CRF的中文地址解析方法 被引量:7
2
作者 吴恪涵 张雪英 +2 位作者 叶鹏 怀安 张航 《地理与地理信息科学》 CSCD 北大核心 2021年第4期10-15,共6页
中文地址解析是地址匹配的重要环节,广泛应用于地址检索、地理编码和地址信息识别等方面。但传统地址解析方法存在覆盖度有限、人工参与过多和泛化能力较差等问题。为发挥深度学习模型在深层结构上自动学习上下文特征的优势,提出一种基... 中文地址解析是地址匹配的重要环节,广泛应用于地址检索、地理编码和地址信息识别等方面。但传统地址解析方法存在覆盖度有限、人工参与过多和泛化能力较差等问题。为发挥深度学习模型在深层结构上自动学习上下文特征的优势,提出一种基于BERT-BiLSTM-CRF深度学习模型的中文地址解析方法:依据中文地址要素多级分类体系,扩展BIOES标注方法并进行地址语料标注;基于预训练语言模型,构建融合BERT、BiLSTM和CRF的综合深度学习模型,通过BERT预训练语言模型获取富含语义信息的字符向量,弥补静态词向量特异性缺失的问题,提高复杂地址要素的提取能力。以2019年深圳市地址数据为例进行模型性能评估,该方法对于多数中文地址要素的解析准确率达90%以上;相比IDCNN-CRF和BiLSTM-CRF等深度学习模型,该方法对只具有小规模地址语料时的地址解析效果更优,且在解析多种地址要素类型时能保持良好的性能。 展开更多
关键词 中文地址 地址要素分类 地址标注 BERT-BiLSTM-CRF 地址解析模型
下载PDF
基于置信度的Active-BiLSTM-CRF中文层级地址分词方法 被引量:3
3
作者 侯位昭 张欣海 +2 位作者 宋凯磊 韩志卓 张世立 《中国电子科学研究院学报》 北大核心 2021年第7期639-644,660,共7页
中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点。高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现。为解决上述... 中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点。高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现。为解决上述问题,文中提出基于置信度的双向长短时记忆和条件随机场主动学习混合模型(Active-BiLSTM-CRF)来构建地址词库,创新性的基于CRF模型在样本上的置信度高效筛出需要标注的关键地址样本,利用BiLSTM记忆地址的上下文信息,通过CRF的转移概率矩阵控制地址标注输出的能力,循环标注并训练模型。最后基于某区县户籍地址数据验证了该方法在有限标注成本下的准确率及召回率,实验显示当标记数据占比在20%时,Active-BiLSTM-CRF模型准确率能达到97.71%,召回率能达到97.34%。 展开更多
关键词 主动学习 置信度 地址分词 双向长短时记忆网络 条件随机场 地址分词标注
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部