期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于网络爬虫的地名数据库维护方法 被引量:24
1
作者 张春菊 张雪英 +1 位作者 朱少楠 徐希涛 《地球信息科学学报》 CSCD 北大核心 2011年第4期492-499,共8页
目前,我国地名数据库建设存在大、中颗粒度地名集中,小颗粒度地名较为缺乏,地名资料陈旧、时效性较低,简称、别名等非标准地名信息和地名的相对位置信息缺失等问题。而地名数据库的更新维护工作主要通过人工测绘手段完成,存在周期长、... 目前,我国地名数据库建设存在大、中颗粒度地名集中,小颗粒度地名较为缺乏,地名资料陈旧、时效性较低,简称、别名等非标准地名信息和地名的相对位置信息缺失等问题。而地名数据库的更新维护工作主要通过人工测绘手段完成,存在周期长、成本高、效率低等缺点。针对这一问题,本文以现有地名数据库和空间关系词汇为基础,基于Google搜索引擎服务,提出一种以网页资源为数据源,利用网络爬虫技术和地名识别技术,进行地名数据库更新维护的方法。首先,设计以地名为主题的网络爬虫,实现非结构化的网页数据中海量空间敏感网页文本的主动获取;然后,采用HTML DOM技术解析空间敏感网页并应用CRF地名识别模型自动识别网页文本中地名;最后,设计相关算法进行网页文本中地名信息的自动解析,实现新地名和地名空间位置信息的获取,进行地名数据库的更新维护。以"南京师范大学仙林宾馆+西北"为空间检索实例,验证了此方法的可行性。 展开更多
关键词 地名数据库 网络爬虫 地名识别 主题相关性
原文传递
基于深度学习的中文地名识别研究 被引量:18
2
作者 沈思 朱丹浩 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第11期1150-1155,共6页
基于深度学习的循环神经网络方法,面向中文字和词的特点,重新定义了地名标注的输入和输出,提出了汉字级别的循环网络标注模型.以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文地名识别的准确率、召回率和F值均有明显提高... 基于深度学习的循环神经网络方法,面向中文字和词的特点,重新定义了地名标注的输入和输出,提出了汉字级别的循环网络标注模型.以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文地名识别的准确率、召回率和F值均有明显提高,其中F值提高了2.88%.在包含罕见词时提高更为明显,F值提高了26.41%. 展开更多
关键词 地名识别 循环神经网络 深度学习
下载PDF
一种基于复合特征的中文地名识别方法 被引量:16
3
作者 魏勇 李鸿飞 +2 位作者 胡丹露 李响 马雷雷 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2018年第1期17-23,共7页
中文地名识别是命名实体识别的重要研究课题之一,也是提高地理信息系统应用水平的关键。传统的地名识别主要基于词性或地名要素特征,特征类型有限。提出了一种基于复合特征的中文地名识别方法,挖掘中文地名在自然语言中的特点,设计了类... 中文地名识别是命名实体识别的重要研究课题之一,也是提高地理信息系统应用水平的关键。传统的地名识别主要基于词性或地名要素特征,特征类型有限。提出了一种基于复合特征的中文地名识别方法,挖掘中文地名在自然语言中的特点,设计了类型、路径、距离和数量四种句法特征,基于地名要素特征、词性特征、句法特征三种复合特征利用条件随机场模型实现了中文地名的训练和识别。通过实验对比复合特征在中文地名识别方法的效果,结果表明复合特征能够有效提高中文地名识别的准确率和召回率,尤其是对于复杂地名的识别,具有良好的效果。 展开更多
关键词 地名识别 复合特征 句法分析 条件随机场
原文传递
基于规则的维吾尔地名识别 被引量:9
4
作者 木合塔尔.艾尔肯 艾斯卡尔.艾木都拉 地里木拉提.吐尔逊 《通信技术》 2013年第7期103-105,共3页
总结了维吾尔地名结构及其特点,并结合维吾尔地名内部结构特征,手动建立了基于新疆维吾尔自治区的地名词典库、首词库、中间词库和特征词库,研究了基于规则的维吾尔语地名识别方法和技术。以包含地名的较大规模维吾尔文本作为测试样本,... 总结了维吾尔地名结构及其特点,并结合维吾尔地名内部结构特征,手动建立了基于新疆维吾尔自治区的地名词典库、首词库、中间词库和特征词库,研究了基于规则的维吾尔语地名识别方法和技术。以包含地名的较大规模维吾尔文本作为测试样本,利用地名内部结构和相邻词信息,通过匹配算法进行了地名识别,并用Visual C++编程工具实现了维吾尔语地名识别算法。最后,给出了实验结果,并分析了出错原因及相应的对策。 展开更多
关键词 维吾尔语 地名识别 地名词典 命名实体识别
原文传递
地名识别与匹配的概率统计方法 被引量:8
5
作者 肖计划 《测绘科学技术学报》 CSCD 北大核心 2014年第4期408-412,共5页
建立了一个试验用地名库和地理语料库,在此基础上构建对地名用字可信度的统计分析模型。通过分析地名在中文文档中的使用习惯和规律,总结出经常与地名一起使用的且具有地名指示含义的辅助字或词,以此为基础建立地名识别辅助词词库和地... 建立了一个试验用地名库和地理语料库,在此基础上构建对地名用字可信度的统计分析模型。通过分析地名在中文文档中的使用习惯和规律,总结出经常与地名一起使用的且具有地名指示含义的辅助字或词,以此为基础建立地名识别辅助词词库和地名识别的规则库。对地名库和地理语料库的用字进行统计分析,通过设定地名用字可信度概率阈值和辅助词指示作用对文本中潜在地名进行初步的筛选形成候选地名;在粗筛选产生的候选地名基础上结合地名识别规则进一步确认,以提高地名识别的准确率。 展开更多
关键词 地名识别 文本挖掘 信息提取 地名统计模型 地理语料库
下载PDF
混合神经网络的中文地名识别方法 被引量:5
6
作者 朱鹏 石丽红 +2 位作者 焦明连 刘晓东 孙浩 《测绘科学》 CSCD 北大核心 2021年第11期159-165,共7页
针对互联网媒体数据中地名信息表达不规范、实体边界不清晰、地名简化表达问题,该文提出了一种混合神经网络的中文地名识别方法。通过ALBERT层学习字级别特征表达与BiLSTM层提取文本上下文语义特征,由CRF层获得全局最优标记序列,更有效... 针对互联网媒体数据中地名信息表达不规范、实体边界不清晰、地名简化表达问题,该文提出了一种混合神经网络的中文地名识别方法。通过ALBERT层学习字级别特征表达与BiLSTM层提取文本上下文语义特征,由CRF层获得全局最优标记序列,更有效地识别并提取中文地名。数据测试表明:相较于BiLSTM的地名识别模型,本文模型精确率提高12.89%,F1值提高10.83%;相较于BiLSTM-CRF的地名识别模型,本文模型精确率提高3.56%,F1值提高2.1%;相较于ALBERT-CRF的地名识别模型,本文模型精确率提高1.22%,F1值提高0.72%。 展开更多
关键词 地名识别 ALBERT BiLSTM 中文地名
原文传递
顾及句法特征的中文地名识别方法 被引量:5
7
作者 魏勇 胡丹露 +1 位作者 李响 张心悦 《测绘科学技术学报》 CSCD 北大核心 2016年第1期99-104,共6页
中文地名识别是命名实体识别的重要研究课题之一,也是扩展地理信息系统数据来源的关键。传统的地名识别主要基于地名元素或词性特征进行识别,特征来源单一。针对上述问题,提出了一种顾及句法特征的中文地名识别方法,挖掘中文地名在自然... 中文地名识别是命名实体识别的重要研究课题之一,也是扩展地理信息系统数据来源的关键。传统的地名识别主要基于地名元素或词性特征进行识别,特征来源单一。针对上述问题,提出了一种顾及句法特征的中文地名识别方法,挖掘中文地名在自然语言中的句法信息,设计了短语结构和依存关系两类句法特征,利用条件随机场模型实现了中文地名的训练和识别。实验表明,句法特征能够有效提高中文地名识别的准确率和召回率,尤其是对于复杂地名的识别,具有良好的效果。 展开更多
关键词 地名识别 句法分析 短语结构 依存关系 条件随机场
下载PDF
基于条件随机场的中文文本弱定位地名识别
8
作者 于翠萍 《辽东学院学报(自然科学版)》 CAS 2022年第3期199-204,共6页
针对中文文本,通过引入语言学相关知识,分析了强定位地名和弱定位地名的用词特征和上下文特征,提取形式化的规则。此外,提出一种基于条件随机场的弱定位地名识别方法,将弱定位地名识别问题转化为序列标注问题。以150篇共18万字的新浪网... 针对中文文本,通过引入语言学相关知识,分析了强定位地名和弱定位地名的用词特征和上下文特征,提取形式化的规则。此外,提出一种基于条件随机场的弱定位地名识别方法,将弱定位地名识别问题转化为序列标注问题。以150篇共18万字的新浪网新闻页面文本为例进行实验验证,结果表明,提出的方法能够有效识别弱定位地名,召回率为90.57%,准确率为92.36%,F值为91.46%。 展开更多
关键词 中文文本 地名识别 弱定位地名 条件随机场
下载PDF
基于条件随机场的地名识别
9
作者 田婧 李玉森 《无线互联科技》 2018年第23期101-103,共3页
地名是自然语言文本中最基本的命名实体。地名作为文本中描述空间位置信息的重要组成部分,在空间关系描述、水利工程等领域具有广泛应用。地名语义解析通过利用自然语言处理、机器学习等手段,实现文本中地名自动识别及其空间位置语义的... 地名是自然语言文本中最基本的命名实体。地名作为文本中描述空间位置信息的重要组成部分,在空间关系描述、水利工程等领域具有广泛应用。地名语义解析通过利用自然语言处理、机器学习等手段,实现文本中地名自动识别及其空间位置语义的智能化判断。文章在综述国内外相关研究进展的基础上,通过分析汉语中地名描述的语言特点,探讨了较为有效的地名识别、语义判断及其可视化方法。 展开更多
关键词 语义判断 地名识别 可视化
下载PDF
基于条件随机场与规则改进的复杂中文地名识别 被引量:10
10
作者 毛波 滕炜 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2020年第5期456-463,共8页
中文地名构词能力强、特征多样,难以从文本中准确定位到地名的位置和边界。为实现复杂中文地名的准确自动识别,深入分析了复杂中文地名的特征,将地名识别问题转换为序列标注问题,训练条件随机场(conditional random field,CRF)模型对地... 中文地名构词能力强、特征多样,难以从文本中准确定位到地名的位置和边界。为实现复杂中文地名的准确自动识别,深入分析了复杂中文地名的特征,将地名识别问题转换为序列标注问题,训练条件随机场(conditional random field,CRF)模型对地名进行识别,并结合规则对CRF结果进行了修正和补召。为进一步提高对复杂地名的识别精度,设计了一种基于信息熵和点互信息的复杂地名识别算法,该算法利用地名数据库生成关联性词典,并基于该词典对文本相邻用字之间的关联性进行计算,从而确定复杂地名与上下文的边界,最终实现复杂地名的识别。实验结果显示,所提方法能够将现有的规则集合高效地用于地名识别,与CRF模型配合,提高了识别精度。在测试集上所提出的地名识别算法的准确度都高于包括深度学习算法在内的目前主流的识别算法。 展开更多
关键词 复杂地名识别 条件随机场 信息熵
原文传递
基于NN/HMM混合模型的汉语地名识别系统 被引量:4
11
作者 欧嘉致 陈凯江 李宗葛 《计算机工程与应用》 CSCD 北大核心 2002年第23期220-222,228,共4页
文章介绍了一个基于NN/HMM混合模型的汉语地名识别系统,该系统能自动判别并拒识词表之外的词。文中训练的基于HMM的模型,包括关键词模型、填充模型和“反关键词”模型。笔者对识别器的输出结果进行验证,把基于HMM的统计特征送到神经网... 文章介绍了一个基于NN/HMM混合模型的汉语地名识别系统,该系统能自动判别并拒识词表之外的词。文中训练的基于HMM的模型,包括关键词模型、填充模型和“反关键词”模型。笔者对识别器的输出结果进行验证,把基于HMM的统计特征送到神经网络处理,由网络的输出来判断是否为词表之外的词。该文在实验中建立了一个基于传统N-Best方法的基准模型并试验了三种不同的网络拓扑结构,包括前馈后向传播网络、Elman后向传播网络以及可训练级联前导后向传播网络。实验结果表明前馈后向传播网络的性能最好,与基准模型比较平均错误率下降54.4%。 展开更多
关键词 NN/HMM混合模型 汉语地名识别系统 语音识别 神经网络 前馈后向传播网络
下载PDF
句类分析准则在作战文书地名识别中的应用 被引量:3
12
作者 李颖 王青海 池毓焕 《计算机工程与设计》 CSCD 北大核心 2013年第8期2903-2907,共5页
针对军用要图自动标绘对地名识别高精度的要求,紧扣"作战文书行文规范"这一特点,将句类分析之标点准则(语句的首尾边界是首块和末块的天然首尾边界)、介词准则(汉语的语块移位标志符由介词充当)、动词准则(充当特征块的动词... 针对军用要图自动标绘对地名识别高精度的要求,紧扣"作战文书行文规范"这一特点,将句类分析之标点准则(语句的首尾边界是首块和末块的天然首尾边界)、介词准则(汉语的语块移位标志符由介词充当)、动词准则(充当特征块的动词是其它语块的天然边界)等应用于作战文书地名识别,采用基于规则的方法加以实现,实验结果F值在88%-97%之间。因此,作为作战文书向军用要图自动转换的预处理,地名识别这一结果是可用的。 展开更多
关键词 中文地名识别 语块边界感知 句类分析 作战文书 概念层次网络理论
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部