期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于置信度的Active-BiLSTM-CRF中文层级地址分词方法 被引量:3
1
作者 侯位昭 张欣海 +2 位作者 宋凯磊 韩志卓 张世立 《中国电子科学研究院学报》 北大核心 2021年第7期639-644,660,共7页
中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点。高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现。为解决上述... 中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点。高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现。为解决上述问题,文中提出基于置信度的双向长短时记忆和条件随机场主动学习混合模型(Active-BiLSTM-CRF)来构建地址词库,创新性的基于CRF模型在样本上的置信度高效筛出需要标注的关键地址样本,利用BiLSTM记忆地址的上下文信息,通过CRF的转移概率矩阵控制地址标注输出的能力,循环标注并训练模型。最后基于某区县户籍地址数据验证了该方法在有限标注成本下的准确率及召回率,实验显示当标记数据占比在20%时,Active-BiLSTM-CRF模型准确率能达到97.71%,召回率能达到97.34%。 展开更多
关键词 主动学习 置信度 地址分词 双向长短时记忆网络 条件随机场 地址分词标注
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部