期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
一种基于规则的模糊中文地址分词匹配方法 被引量:48
1
作者 程昌秀 于滨 《地理与地理信息科学》 CSSCI CSCD 北大核心 2011年第3期26-29,共4页
在研究分析地址模型的基础上,建立了存储标准地址数据集的标准地址库和自定义的地址匹配规则库,提出了一种基于规则的模糊中文地址编码方法。该方法在依据标准地址库分词的同时,也沿着自定义的地址匹配规则进行推理,从而缩小了下次分词... 在研究分析地址模型的基础上,建立了存储标准地址数据集的标准地址库和自定义的地址匹配规则库,提出了一种基于规则的模糊中文地址编码方法。该方法在依据标准地址库分词的同时,也沿着自定义的地址匹配规则进行推理,从而缩小了下次分词所用到的目标数据集,提高了系统执行效率。另外,通过借助构建的规则树与歧义栈,提高了文中定义的两类模糊地址匹配的成功率。最后,基于该算法建立了一个地理编码原型系统,并利用经济普查项目中的相关数据对算法的可用性进行了验证。 展开更多
关键词 地理编码 模糊地址 规则库 地址分词
下载PDF
地址要素识别机制的地名地址分词算法 被引量:25
2
作者 赵阳阳 王亮 仇阿根 《测绘科学》 CSCD 北大核心 2013年第5期74-76,共3页
本文在介绍分析常用中文分词方法及其特点的基础上,针对地名地址字符串,提出基于地址要素识别机制的地名地址分词算法。该算法基于整词二分分词词典,采用FMM算法,增加了基于地址要素的识别机制,从而有效地实现了对地名地址串的拆分。识... 本文在介绍分析常用中文分词方法及其特点的基础上,针对地名地址字符串,提出基于地址要素识别机制的地名地址分词算法。该算法基于整词二分分词词典,采用FMM算法,增加了基于地址要素的识别机制,从而有效地实现了对地名地址串的拆分。识别机制通过判断地址要素的完整性完成对未登录地址名称的处理,解决了分词算法对未登录地址名称的识别问题。测试证明新算法能够有效实现对地名地址串的拆分,从很大程度上解决对未登录地址名称的识别问题。 展开更多
关键词 中文分词 地名地址分词 未登录词识别 分词词典
原文传递
基于分段的ZigBee网络按需可扩展地址分配算法 被引量:20
3
作者 任智 李鹏翔 +1 位作者 姚玉坤 黄勇 《通信学报》 EI CSCD 北大核心 2012年第5期131-137,共7页
提出基于分段的按需可扩展地址分配算法,按照预设的地址量对16bit地址空间进行分段,当路由节点子地址空间不足时对其逐段扩展,使更多节点获得地址;同时改进现有树路由协议使之能够兼容扩展的地址。理论和仿真分析表明所提算法的地址分... 提出基于分段的按需可扩展地址分配算法,按照预设的地址量对16bit地址空间进行分段,当路由节点子地址空间不足时对其逐段扩展,使更多节点获得地址;同时改进现有树路由协议使之能够兼容扩展的地址。理论和仿真分析表明所提算法的地址分配成功率等性能优于DAAM和它的改进方案SLAR。 展开更多
关键词 无线传感器网络 ZIGBEE标准 地址分配 算法 分段
下载PDF
多元地址要素组合的地址匹配方法 被引量:8
4
作者 吕欢欢 宋伟东 《测绘科学》 CSCD 北大核心 2015年第3期96-100,共5页
针对数字城市地理空间框架建设中地址匹配的具体需求和现存中文地址匹配方法中存在的问题,该文提出一种多元地址要素组合的地址匹配方法:分析地名地址数据的分词方法和作为参考数据的地址编码库的物理结构;给出组合策略和匹配流程,针对... 针对数字城市地理空间框架建设中地址匹配的具体需求和现存中文地址匹配方法中存在的问题,该文提出一种多元地址要素组合的地址匹配方法:分析地名地址数据的分词方法和作为参考数据的地址编码库的物理结构;给出组合策略和匹配流程,针对地址要素的不同重要程度分配权重,计算不同组合中各地址要素相似性匹配指数,并采用加权求和方式获得匹配总分;并以城市地址编码数据库为参考数据,工商领域监管对象地名地址数据为输入地址对提出方法进行实验和验证,与其他匹配算法对比的结果表明,提出算法有效、正确、灵活。 展开更多
关键词 数字城市 地址匹配 多元地址要素 地址分词 组合
原文传递
基于统计的中文地址位置语义解析方法研究 被引量:8
5
作者 谢婷婷 严柯 《软件导刊》 2017年第10期19-21,共3页
为获取中文自然地址描述语句中的位置信息,提出一种不依赖于词典的中文地址分词方法。首先根据地址语料库中字串共现的统计规律统计词频,然后对地名地址串进行正则表达式预处理,再对地址串进行全切分处理。通过互信息和信息熵得到最优... 为获取中文自然地址描述语句中的位置信息,提出一种不依赖于词典的中文地址分词方法。首先根据地址语料库中字串共现的统计规律统计词频,然后对地名地址串进行正则表达式预处理,再对地址串进行全切分处理。通过互信息和信息熵得到最优粗分结果,通过置信度对粗分结果进行过滤得到最优分词结果。实验结果表明,该方法在不依赖词典的情况下能有效实现对地名地址串的拆分,正确率和召回率分别达到了80.03%和89.28%。 展开更多
关键词 中文分词 地名地址分词 互信息 信息熵
下载PDF
Lucene自适应分词的地址匹配方法改进与实现 被引量:4
6
作者 张琛 陈张建 +2 位作者 刘江涛 任福 张红伟 《测绘科学》 CSCD 北大核心 2021年第10期185-193,共9页
为提高地理编码系统对输入地址的分词适应性及匹配准确度,该文基于Lucene索引及查询机制提出了一种可适应于中文非标准地址的地址匹配改进方法。首先依据中文地址模式创建地址元素分层索引库,然后将拼音三叉树、同义词配置、未登录词配... 为提高地理编码系统对输入地址的分词适应性及匹配准确度,该文基于Lucene索引及查询机制提出了一种可适应于中文非标准地址的地址匹配改进方法。首先依据中文地址模式创建地址元素分层索引库,然后将拼音三叉树、同义词配置、未登录词配置等功能集成于IK分词器,获得初次匹配结果集合后计算编辑距离并排序选取返回值。匹配系统以浙江省台州市公安地址及行政法人地址为数据基础构建分词库和索引库,结果表明,该方法可实现输入地址的自适应分词,对中文非标准地址的匹配效果良好,能够服务于测绘和地理信息的相关应用场景。 展开更多
关键词 地址匹配 地理编码 地址树模型 Lucene全文检索 地址分词 中文非标准地址 地址标准化
原文传递
K叉树地址的模糊匹配研究与实现 被引量:6
7
作者 李新放 宋转玲 +2 位作者 陈学业 贺彪 刘海行 《测绘通报》 CSCD 北大核心 2018年第9期126-129,155,共5页
在数字城市信息资源的集成和融合中,地名地址匹配是一项非常关键的基础技术。由于中文语义和地名地址描述的复杂性,中文地址的匹配比英文要复杂得多,基于海量中文地址数据进行准确分词,实现快速高效的地址匹配是城市数据集成融合的关键... 在数字城市信息资源的集成和融合中,地名地址匹配是一项非常关键的基础技术。由于中文语义和地名地址描述的复杂性,中文地址的匹配比英文要复杂得多,基于海量中文地址数据进行准确分词,实现快速高效的地址匹配是城市数据集成融合的关键问题。本文在对现有地址编码及分词技术研究的基础上,通过一种基于规则和统计的组合方法来实现中文地址分词,并且使用K叉树的结构实现对中文地址的存储,提高了中文地址匹配查询的准确度和效率。基于预处理后的10 000个深圳市地址数据,通过开发原型系统对该方法进行了比较测试,验证了该方法的有效性。 展开更多
关键词 地址匹配 分词 模糊匹配 K叉树
下载PDF
基于条件随机场模型的中文地址分词研究 被引量:6
8
作者 杨德彬 马卫春 《测绘与空间地理信息》 2021年第11期73-75,79,共4页
地址分词是实现地理编码的重要基础。本文基于条件随机场模型对中文地址分词进行研究,实现了中文地址的快速、准确分词。文中先综合分析各种中文地址分词方法的优势和劣势,设计出一套优化的地址分词标注体系,然后制定地址分词的尾词特... 地址分词是实现地理编码的重要基础。本文基于条件随机场模型对中文地址分词进行研究,实现了中文地址的快速、准确分词。文中先综合分析各种中文地址分词方法的优势和劣势,设计出一套优化的地址分词标注体系,然后制定地址分词的尾词特征和特征模板,采用半监督学习与人工标注相结合的方式获取高质量的标注训练语料,供CRF模型训练;最终根据已标注语料训练条件随机场模型,实现对中文地址信息的自动分词和识别。 展开更多
关键词 中文地址 地理编码 条件随机场 分词 地理信息
下载PDF
基于LSTM网络的中文地址分词法的设计与实现 被引量:6
9
作者 张文豪 卢山 程光 《计算机应用研究》 CSCD 北大核心 2018年第12期3652-3654,共3页
当前中文地址的分词法主要采用基于规则和传统机器学习的方法。这些方法需要人工长期维护词典和提取特征。为避免特征工程和减少人工维护,提出了将长短时记忆(long short-term memory,LSTM)网络和双向长短时记忆(bi-directional long sh... 当前中文地址的分词法主要采用基于规则和传统机器学习的方法。这些方法需要人工长期维护词典和提取特征。为避免特征工程和减少人工维护,提出了将长短时记忆(long short-term memory,LSTM)网络和双向长短时记忆(bi-directional long short-term memory,Bi-LSTM)网络分别应用在中文地址分词任务中,并采用四词位标注法以及增加未标记数据集的方法提升分词性能。在自建数据集上的实验结果表明,中文地址分词任务应用Bi-LSTM网络结构能得到较好的性能,在增加未标记数据集的情况下,可以有效提升模型的性能。 展开更多
关键词 中文地址 分词 卡短时记忆 未标记数据集
下载PDF
基于置信度的Active-BiLSTM-CRF中文层级地址分词方法 被引量:3
10
作者 侯位昭 张欣海 +2 位作者 宋凯磊 韩志卓 张世立 《中国电子科学研究院学报》 北大核心 2021年第7期639-644,660,共7页
中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点。高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现。为解决上述... 中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点。高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现。为解决上述问题,文中提出基于置信度的双向长短时记忆和条件随机场主动学习混合模型(Active-BiLSTM-CRF)来构建地址词库,创新性的基于CRF模型在样本上的置信度高效筛出需要标注的关键地址样本,利用BiLSTM记忆地址的上下文信息,通过CRF的转移概率矩阵控制地址标注输出的能力,循环标注并训练模型。最后基于某区县户籍地址数据验证了该方法在有限标注成本下的准确率及召回率,实验显示当标记数据占比在20%时,Active-BiLSTM-CRF模型准确率能达到97.71%,召回率能达到97.34%。 展开更多
关键词 主动学习 置信度 地址分词 双向长短时记忆网络 条件随机场 地址分词标注
下载PDF
设立切分标志法在中文地址自动分词中的改进与应用 被引量:3
11
作者 刘韬 《电脑知识与技术》 2009年第4Z期2828-2829,共2页
随着位置服务LBS的应用普及,任何人无论在何时何地都可以通过计算机通信网络,方便的查询到目标位置及其周边的信息。中文地址的自动切分是位置服务系统中的一项关键技术。基于中文地址本身的特点,使用设立切分标志法可以实现中文地址快... 随着位置服务LBS的应用普及,任何人无论在何时何地都可以通过计算机通信网络,方便的查询到目标位置及其周边的信息。中文地址的自动切分是位置服务系统中的一项关键技术。基于中文地址本身的特点,使用设立切分标志法可以实现中文地址快速、简捷的切分。 展开更多
关键词 中文地址 位置服务 自动分词 切分标志
下载PDF
基于地籍数据库的中文地址标准化
12
作者 唐静 左小清 欧朝蓉 《地理空间信息》 2019年第1期119-122,125,共5页
地址文本作为描述地理位置的字符串,通过对文本信息的解析可将自然地址描述转化为可被计算机识别的地理空间位置。通过分析地籍数据中地址文本的特点,设计了基于词典匹配算法的地址逐级标准化算法,并开发了相应的原型系统。实验结果的... 地址文本作为描述地理位置的字符串,通过对文本信息的解析可将自然地址描述转化为可被计算机识别的地理空间位置。通过分析地籍数据中地址文本的特点,设计了基于词典匹配算法的地址逐级标准化算法,并开发了相应的原型系统。实验结果的准确率高于95%,且有较高的操作效率,具有一定的地址文本解析价值。 展开更多
关键词 中文地址 地址标准化 地籍数据库 词典匹配 地址分段
下载PDF
数据清洗中中文地址分词技术研究
13
作者 郭文龙 《齐齐哈尔大学学报(自然科学版)》 2012年第5期14-18,共5页
数据清洗中,中文地址类信息对于重复记录的检测起着非常重要的作用。中文地址按照行政归属可划分为五级,通过组建地址信息数据库对中文地址进行匹配,提出基于地址树的中文地址分词技术,构建了中文地址的分词算法流程并设计了算法。
关键词 中文地址 分词 算法 匹配
下载PDF
基于BiLSTM-CRF的中文层级地址分词 被引量:15
14
作者 程博 李卫红 童昊昕 《地球信息科学学报》 CSCD 北大核心 2019年第8期1143-1151,共9页
中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特... 中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特点,构建针对中文层级地址分词的地址标注体系,并提出融合双向长短时记忆网络和条件随机场(BiLSTM-CRF)的中文层级地址分词模型。该模型既考虑了BiLSTM模型能够记忆上下文地址的特性,也保留了CRF算法可以通过转移概率矩阵控制地址标注输出的能力。针对该地址标注体系标注的训练地址样本,分别使用CRF、LSTM、BiLSTM与BiLSTM-CRF模型进行训练对比。结果表明:①基于中文地址标注体系的模型分词效果更佳,地址标注更为精细,符合实际地址分布情况;②BiLSTM-CRF模型精确度达到93.4%,高于CRF(90.4%)、LSTM(89.3%)和BiLSTM(91.2%),其整体地址分词性能和各层级地址分词效果相对于其他模型更突出;③各模型分词性能与地址层级保持一致,即地址层级越高,分词效果越好。本研究提出的中文地址标注体系和分词模型为开展中文地址标准化工作提供了方法参考,同时也为进一步提升地理编码技术的精准度提供了可能。 展开更多
关键词 中文分词 地址标注 中文层级地址分词 长短时记忆网络(LSTM) 双向长短时记忆和条件随机场模型(BiLSTM-CRF)
原文传递
一种中文地址知识库支撑的中文地址分词算法 被引量:11
15
作者 赵成 李滨 《测绘科学技术学报》 CSCD 北大核心 2017年第6期639-643,648,共6页
针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅... 针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅在正确率和召回率等指标上优于传统算法,更提出了一种用于解决未登录地址名词识别问题的新方法。 展开更多
关键词 中文地址 中文地址知识库 中文地址分词 逆向最大匹配算法 未登录地址名词
下载PDF
统计决策树下的城市地址集中文分词 被引量:10
16
作者 应申 李威阳 +2 位作者 贺彪 王维 万远 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2019年第2期302-309,共8页
不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点... 不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点的相对位置关系构建统计决策树提取地址要素;并采用深圳市建筑物地址普查数据进行验证,形成对当前地址地名词典的有益补充。 展开更多
关键词 中文地址分词 决策树 地址要素 地址集
原文传递
基于多信息融合的中文手写地址字符串切分与识别 被引量:7
17
作者 付强 丁晓青 蒋焰 《电子与信息学报》 EI CSCD 北大核心 2008年第12期2916-2920,共5页
该文提出了一种有效的中文手写地址字符串的切分与识别方法。首先,利用笔划提取与笔划合并将字符串图像进行过切分,得到"字根"图像序列;然后综合利用几何信息、识别信息和语义信息挑选最优的"字根"合并路径,得到最... 该文提出了一种有效的中文手写地址字符串的切分与识别方法。首先,利用笔划提取与笔划合并将字符串图像进行过切分,得到"字根"图像序列;然后综合利用几何信息、识别信息和语义信息挑选最优的"字根"合并路径,得到最优的切分结果及对应的最优识别结果。其中,几何信息是根据当前字符串自身的特点统计得到,因此可适应不同书写风格的字符串。识别信息由单字分类器给出,包括10个候选识别结果及其相应的置信度;单字分类器采用MQDF分类器。语义信息用基于字的bi-gram模型进行描述,模型参数是从包含18万条地址数据的数据库中统计得到的。用3000个实际的手写地址样本做试验,单字识别正确率达到88.28%。 展开更多
关键词 地址识别 字符串切分 手写字符串识别
下载PDF
手写中文信封的地址行字符切分算法 被引量:3
18
作者 韩智 刘昌平 殷绪成 《中文信息学报》 CSCD 北大核心 2006年第1期85-90,共6页
在手写体中文信封处理系统中,地址行字符切分是实现地址行识别的关键步骤。本文根据邮政信封地址行字符的特点,有针对性的提出了一种字符切分算法。首先对地址行图像利用投影、求连通区域、笔划穿越数分析等基于字符结构的方法进行初始... 在手写体中文信封处理系统中,地址行字符切分是实现地址行识别的关键步骤。本文根据邮政信封地址行字符的特点,有针对性的提出了一种字符切分算法。首先对地址行图像利用投影、求连通区域、笔划穿越数分析等基于字符结构的方法进行初始切分,得到基本字段序列;然后通过对相邻的基本字段进行组合形成多条候选切分路径,再通过识别的可信度和邮政目标地址库的先验知识信息对路径进行评价分析,从而得到最优的切分路径。该算法经过邮政分拣机采集的实际信封图像测试,纯地址行识别正确率达到78.61%,地址行识别与邮政编码识别相结合的分拣正确率达到95.42%。 展开更多
关键词 人工智能 模式识别 邮政信封地址 脱机手写体汉字 字符切分 OCR
下载PDF
一种使用RoBERTa-BiLSTM-CRF的中文地址解析方法 被引量:6
19
作者 张红伟 杜清运 +1 位作者 陈张建 张琛 《武汉大学学报(信息科学版)》 EI CAS CSCD 北大核心 2022年第5期665-672,共8页
针对当前地址匹配方法严重依赖分词词典、无法有效识别地址中的地址元素及其所属类型的问题,提出了使用深度学习的中文地址解析方法,该方法能够对解析后的地址进行标准化和构成分析以改善地址匹配结果。通过对地址的不同词向量表示及不... 针对当前地址匹配方法严重依赖分词词典、无法有效识别地址中的地址元素及其所属类型的问题,提出了使用深度学习的中文地址解析方法,该方法能够对解析后的地址进行标准化和构成分析以改善地址匹配结果。通过对地址的不同词向量表示及不同序列标注模型的对比评估,结果表明,使用双向门递归单元和双向长短时记忆网络对中文地址解析差别较小,稀疏注意力机制有助于提高地址解析的F1值。所提出的方法在泛化能力测试集上的F1值达到了0.940,在普通测试集上的F1值达到了0.968。 展开更多
关键词 地址解析 中文地址分词 注意力机制 长短时记忆网络 RoBERTa BiLSTM CRF
原文传递
基于概率统计模型的快递地址自动分类方法 被引量:5
20
作者 邵妍 刘燕兵 +1 位作者 谭建龙 郭莉 《计算机工程》 CAS CSCD 2012年第23期277-280,283,共5页
快递货物在中转点向取送点分拣时需要人工判断收货地址所属取送点,为提高分拣的自动化程度和分拣速度,提出一种基于概率统计分类模型的快递地址自动分类方法。该方法以基于概率统计的地址分类模型为核心,通过统计出的最小地址要素与取... 快递货物在中转点向取送点分拣时需要人工判断收货地址所属取送点,为提高分拣的自动化程度和分拣速度,提出一种基于概率统计分类模型的快递地址自动分类方法。该方法以基于概率统计的地址分类模型为核心,通过统计出的最小地址要素与取送点的对应概率分布,对快递地址所属的取送点做出判断。在某快递公司提供的快递地址分类数据上的实验结果表明,该方法的自动分类准确率可达99%以上,每个地址的分类用时为0.43 ms。 展开更多
关键词 快递地址 自动分类 快递分拣 概率统计 中文地址分词 停用字符过滤
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部