期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
面向灾害应急响应的地质灾害链知识图谱构建方法 被引量:18
1
作者 吴亮 +2 位作者 马凯 谢忠 陶留锋 《地球科学》 EI CAS CSCD 北大核心 2023年第5期1875-1891,共17页
知识图谱是形式化描述实体及其相互关系的知识系统,其在应急救灾、时空预测决策等方面发挥着重要的作用.灾害应急领域面临数据骤增而应急关键知识匮乏问题,由此从灾害链角度分析地质灾害发展过程中关联的诸多要素,提出了一种自顶向下和... 知识图谱是形式化描述实体及其相互关系的知识系统,其在应急救灾、时空预测决策等方面发挥着重要的作用.灾害应急领域面临数据骤增而应急关键知识匮乏问题,由此从灾害链角度分析地质灾害发展过程中关联的诸多要素,提出了一种自顶向下和自底向上结合的地质灾害链知识图谱构建方法.首先,基于灾害链角度对地质灾害间复杂形成机理及成链规律进行分析,在已有地质灾害知识基础上,基于自顶向下方法建立了统一的用于信息抽取的地质灾害链本体语义表达框架,包括描述地质灾害知识体系的地质灾害事件本体、承载地质灾害发生的地质环境本体、受地质灾害作用下的地理对象本体及地质灾害在灾前、灾中和灾后时空过程中对应的应急处置方法本体;其次,结合自底向上方法构建数据层,通过知识融合、知识存储对概念、实例与属性等要素及其关联关系进行识别;最后以汶川地震为例并对知识图谱进行可视化表达.结果表明,本方法能有效地对四类要素及其关系进行识别,实现了数据‒信息‒知识的转换,为地质灾害领域的知识图谱构建提供技术参考. 展开更多
关键词 地质灾害链 知识图谱 领域本体 自然语言处理 应急响应 灾害地质.
原文传递
结合BERT与BiGRU-Attention-CRF模型的地质命名实体识别 被引量:8
2
作者 谢雪景 谢忠 +5 位作者 马凯 陈建国 李虎 潘声勇 陶留锋 《地质通报》 CAS CSCD 北大核心 2023年第5期846-855,共10页
从地质文本中提取地质命名实体,对地质大数据的深度挖掘与应用具有重要意义。定义了地质命名实体的概念并制订了标注规范,设计了地质实体对象化表达模型。地质文本存在大量长实体、复杂嵌套实体,增加了地质命名实体识别的挑战性。针对... 从地质文本中提取地质命名实体,对地质大数据的深度挖掘与应用具有重要意义。定义了地质命名实体的概念并制订了标注规范,设计了地质实体对象化表达模型。地质文本存在大量长实体、复杂嵌套实体,增加了地质命名实体识别的挑战性。针对上述问题,①引入BERT模型生成顾及上下文信息的高质量词向量表征;②采用双向门控循环单元-注意力机制-条件随机场(BiGRU-Attention-CRF)对前一层输出的语义编码进行序列标注与解码。通过与主流深度学习模型进行对比,该模型的F1值为84.02%,均比其他模型表现出更优异的性能,能在小规模地质语料库上有较好的识别效果。 展开更多
关键词 命名实体识别 地质命名实体 BERT 注意力机制 BiGRU
下载PDF
基于Xception网络的岩石图像分类识别研究 被引量:7
3
作者 谭永健 田苗 +4 位作者 徐德馨 盛冠群 马凯 潘声勇 《地理与地理信息科学》 CSCD 北大核心 2022年第3期17-22,共6页
准确、高效地识别岩石岩性是大数据时代地球科学研究的必然趋势和发展方向。传统岩石岩性识别方法多依赖人工判别,对相关知识与判别经验的要求很高。针对这一问题,该文提出一种基于Xception网络的自动化岩石图像分类方法,将InceptionV3... 准确、高效地识别岩石岩性是大数据时代地球科学研究的必然趋势和发展方向。传统岩石岩性识别方法多依赖人工判别,对相关知识与判别经验的要求很高。针对这一问题,该文提出一种基于Xception网络的自动化岩石图像分类方法,将InceptionV3网络中的卷积操作替换为深度可分离卷积模块,同时引入残差连接机制以大量减少模型参数与计算量,然后结合迁移学习思想提高图像分类准确率。选取嵊州地质调研中人工采集的10类岩石样本图像构建岩石图像数据集进行验证,结果表明,Xception网络模型对岩石岩性识别的准确率达86%,比其他主流的岩石图像分类模型的识别精度更高。 展开更多
关键词 岩石图像 岩性识别 迁移学习 深度可分离卷积
下载PDF
求解TSP问题的改进蚁群算法 被引量:5
4
作者 王胜 谭家政 +1 位作者 刘勇 《武汉理工大学学报(信息与管理工程版)》 CAS 2013年第3期340-344,共5页
在带精英策略的最大最小蚁群算法的基础上,提出了一种对所找到的最短路径较为敏感,能快速收敛,并能跳出局部最短路径的用于求解TSP问题的改进蚁群算法。它以节约算法找到的路径作为初始最短路径,使得该改进的蚁群算法在一个高起点上进... 在带精英策略的最大最小蚁群算法的基础上,提出了一种对所找到的最短路径较为敏感,能快速收敛,并能跳出局部最短路径的用于求解TSP问题的改进蚁群算法。它以节约算法找到的路径作为初始最短路径,使得该改进的蚁群算法在一个高起点上进行优化;为了抓住最优路径的某些局部特征,为蚂蚁的概率选择公式提供更全面的先验知识;通过加强找到的最短路径上的信息素的相对引导作用来提高算法向最短路径收敛的速度;对局部最短路径应用禁忌策略来避免算法陷入局部最优。在求解TSP问题上,将该算法与带精英策略的最大最小蚁群算法进行了比较,发现该算法的收敛速度更快,解的质量更高。 展开更多
关键词 TSP 蚁群算法 收敛 节约算法
下载PDF
基于数据湖技术的地质大数据底座架构研究与应用
5
作者 黄家凯 秦丽娟 +2 位作者 郑诗语 陶留锋 《自然资源信息化》 2024年第2期43-49,68,共8页
地质数据是经济社会发展的上游要素,具有非常重要的价值。当前,地质大数据研究存在数据底座与应用系统未解耦、数据即服务(Data as a Service,DaaS)未充分厘清的问题,这导致地质数据的可复用性差。本文在系统应用数据湖技术的基础上,聚... 地质数据是经济社会发展的上游要素,具有非常重要的价值。当前,地质大数据研究存在数据底座与应用系统未解耦、数据即服务(Data as a Service,DaaS)未充分厘清的问题,这导致地质数据的可复用性差。本文在系统应用数据湖技术的基础上,聚焦多源、异构、海量、时空相关地质数据的汇聚、治理与服务,研究提出基于数据湖技术的地质大数据底座架构,设计由数据采集与清洗层、数据存储层、数据计算与分析层、数据服务层、数据治理层构成的技术架构,并对部分关键技术选型进行验证,为地质大数据中心建设工程提供实践参考。 展开更多
关键词 地质数据湖 地质大数据 数据底座 数据汇聚 数据服务
下载PDF
地球科学知识图谱一站式共享服务系统 被引量:1
6
作者 诸云强 代小亮 +9 位作者 杨杰 王曙 孙凯 李威蓉 祁彦民 胡蕾 闾海荣 王新兵 周成虎 《高校地质学报》 CAS CSCD 北大核心 2023年第3期325-336,共12页
知识图谱作为当前最有效的知识组织和服务方式,已经成为人工智能的基石,在语义搜索、机器翻译、信息推荐等方面得到了广泛的应用。大数据时代下,地球科学(以下简称地学)分散、多源、异构数据的整合集成、挖掘分析及其知识的智能发现等... 知识图谱作为当前最有效的知识组织和服务方式,已经成为人工智能的基石,在语义搜索、机器翻译、信息推荐等方面得到了广泛的应用。大数据时代下,地球科学(以下简称地学)分散、多源、异构数据的整合集成、挖掘分析及其知识的智能发现等迫切需要知识图谱的支撑。为了促进地学知识图谱的建设与应用,自2019年启动以来,“深时数字地球国际大科学计划”(Deep-time Digital Earth,简称DDE)就将知识图谱作为其重要的研究建设内容,经过3年多的建设,DDE已经建设形成了大量的地学知识图谱,亟需一站式共享这些知识图谱。文章首先介绍了DDE知识图谱内容体系,分析了DDE知识图谱内容组成及其特征;在此基础上,开展了地学知识图谱一站式共享服务系统的设计,包括系统功能体系和架构的设计;最后介绍了系统实现的技术路线及其关键技术。实践证明系统可有效实现DDE知识图谱的一站式共享服务,可为类似的知识共享服务系统提供参考。 展开更多
关键词 地球科学 知识图谱 一站式 集成共享 服务系统
下载PDF
顾及复杂时空特征及关系的地球科学知识图谱自适应表达模型
7
作者 诸云强 孙凯 +6 位作者 王曙 周成虎 陆锋 闾海荣 王新兵 祁彦民 《中国科学:地球科学》 CSCD 北大核心 2023年第11期2609-2622,共14页
地球科学(以下简称“地学”)知识图谱可以将各类地学知识组织成计算机可理解、可计算的语义网络,是地学知识有效的组织和服务方式,已经成为地学研究的热点和前沿之一.地学知识包含众多的学科领域知识,具有多尺度、多粒度、多维度等复杂... 地球科学(以下简称“地学”)知识图谱可以将各类地学知识组织成计算机可理解、可计算的语义网络,是地学知识有效的组织和服务方式,已经成为地学研究的热点和前沿之一.地学知识包含众多的学科领域知识,具有多尺度、多粒度、多维度等复杂的时空特征及关系.因此,建立符合地学知识特点的地学知识图谱表达模型,是地学知识图谱构建与应用的基础和前提.针对现有知识图谱表达模型采有固定元组,难以充分表达复杂时空特征及关系的问题,本文首先对地学知识分类、地学知识时空特征及关系进行了系统分析,在此基础上,提出了顾及复杂时空特征及关系的地学知识图谱自适应表达模型.该模型在统一时空本体的约束下,基于地学知识的时空关联度,采用不同元组对不同类型的地学知识进行自适应表达.通过该模型,不仅可实现地学知识的高效表达,避免时空特征表达的隔裂,提升地学知识的检索精度和效率,还可以通过时空本体,实现时空信息的统一对齐转换与计算推理. 展开更多
关键词 地球科学 知识图谱 表达模型 时空特征 时空关系
原文传递
基于多特征融合的图像检索方法 被引量:2
8
作者 谭家政 +1 位作者 蔡大伟 刘勇 《三峡大学学报(自然科学版)》 CAS 2014年第1期94-98,共5页
提出了一种综合颜色直方图和彩色共生矩阵相结合的彩色图像检索方法.首先,对彩色图像进行量化,并利用直方图计算图像之间的欧式距离;然后,利用彩色共生矩阵提取图像的纹理特征并计算图像之间的欧式距离;最后,利用综合加权的颜色特征和... 提出了一种综合颜色直方图和彩色共生矩阵相结合的彩色图像检索方法.首先,对彩色图像进行量化,并利用直方图计算图像之间的欧式距离;然后,利用彩色共生矩阵提取图像的纹理特征并计算图像之间的欧式距离;最后,利用综合加权的颜色特征和纹理特征实现图像检索.实验结果表明,与直方图和灰度共生矩阵相比,该方法能较好地满足用户需求,具有较高的检索性能. 展开更多
关键词 图像检索 彩色共生矩阵 颜色特征 纹理特征
下载PDF
改进的HSV阴影去除算法研究 被引量:2
9
作者 谭家政 刘勇 《物联网技术》 2014年第1期84-86,共3页
针对视频序列图像中运动目标的阴影会造成运动目标的物理变形,影响运动目标的检测与跟踪等问题,提出了一种基于HSV色彩空间的无阈值阴影去除算法。该方法通过分析阴影与背景的HSV彩色空间中的特性,并利用阴影与运动目标在H、S、V三个分... 针对视频序列图像中运动目标的阴影会造成运动目标的物理变形,影响运动目标的检测与跟踪等问题,提出了一种基于HSV色彩空间的无阈值阴影去除算法。该方法通过分析阴影与背景的HSV彩色空间中的特性,并利用阴影与运动目标在H、S、V三个分量中的不同特点,提出了一种无阈值的阴影消除算法。实验结果表明,该方法能够很好地去除阴影区域,同时又保持前景目标区域的完整性。 展开更多
关键词 阴影去除 无阈值 HSV彩色空间
下载PDF
基于视觉原理的曲线重构算法研究 被引量:1
10
作者 蔡大伟 刘勇 +1 位作者 曹涛 《计算机与数字工程》 2014年第6期1079-1082,共4页
曲线和曲面的重构是逆向工程中的重要问题,特别是按照计算机图形学中点线面的发展规律,曲线重构更是其中很重要的一步,为后面的曲面重构奠定了研究基础。论文研究和实现了一种曲线重构算法,该算法将人类的视觉具有的接近性和连续性融入... 曲线和曲面的重构是逆向工程中的重要问题,特别是按照计算机图形学中点线面的发展规律,曲线重构更是其中很重要的一步,为后面的曲面重构奠定了研究基础。论文研究和实现了一种曲线重构算法,该算法将人类的视觉具有的接近性和连续性融入到了曲线重构算法中。实验结果表明了该算法的有效性。 展开更多
关键词 逆向工程 曲线重构 视觉原理
下载PDF
地质领域文本实体关系联合抽取方法 被引量:4
11
作者 王斌 +4 位作者 徐德馨 马凯 谢忠 潘声勇 陶留锋 《高校地质学报》 CAS CSCD 北大核心 2023年第3期419-428,共10页
地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重... 地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重叠关系进行识别,避免传统流水线模型中由于实体识别错误造成级联误差。文章构建了高质量地质领域实体关系语料库,提出了基于预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)和双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)的序列标注模型,实现对实体关系的联合抽取。在构建数据集上进行了实验,结果表明,本文提出的联合抽取模型在实体关系抽取上的F1值达到0.671,验证了本文模型在地质实体关系抽取的有效性。 展开更多
关键词 地质领域 实体关系联合抽取 知识图谱 BERT BiGRU
下载PDF
区域地质调查文本中文命名实体识别 被引量:4
12
作者 田苗 +4 位作者 马凯 谢忠 金相国 段雨希 陶留锋 《地质论评》 CAS CSCD 北大核心 2023年第4期1423-1433,共11页
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。笔者等在阐述地质命名实体识别任务基础上,分析... 作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。笔者等在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。 展开更多
关键词 地质命名实体识别 轻量级预训练模型 ALBERT 知识图谱 地质报告
下载PDF
面向地质图的知识图谱构建及智能问答应用 被引量:2
13
作者 段雨希 +4 位作者 田苗 马凯 谢忠 陶留锋 刘俊杰 《地质科学》 CAS CSCD 北大核心 2024年第2期588-602,共15页
海量地质图件蕴含着丰富的地学基础知识及专家经验知识。地质图主要表达了通过区域地质调查、矿产地质调查所获取的地球表面的地质知识(如地层单元、岩体、断裂等)。如何快速地从矢量地质图件中抽取地质知识并形成知识服务是目前地学知... 海量地质图件蕴含着丰富的地学基础知识及专家经验知识。地质图主要表达了通过区域地质调查、矿产地质调查所获取的地球表面的地质知识(如地层单元、岩体、断裂等)。如何快速地从矢量地质图件中抽取地质知识并形成知识服务是目前地学知识图谱及知识服务研究的前沿。由于传统的地质图知识抽取主要依赖人工方式进行综合分析,本文聚焦于矢量地质图件知识表达与抽取研究,提出了一种地质图知识表达框架,提取地质图中所包含的地质实体及关系,将地质图信息以知识图谱的形式表达,并开展了基于地质矢量知识图谱的智能问答应用。最后以江西省于都县银坑幅矢量数据集为例开展实验验证分析,结果表明,本文方法能够较为全面地获取地质图中各个地质对象的信息,提高了地质图语义表达的效果,同时也可以提高地质学习人员对地质图的理解和认识,让计算机能够大规模获取地质图的知识内容。 展开更多
关键词 地质图知识表达模型 地质知识图谱 地质矢量图件 智能问答 空间认知
下载PDF
顾及中文汉字多特征的矿产资源实体识别 被引量:3
14
作者 刘志豪 金相国 +3 位作者 陶留锋 黄振 谢忠 《地质科学》 CAS CSCD 北大核心 2023年第4期1535-1553,共19页
矿产资源地质报告中蕴含大量专家经验及基础地质知识。快速准确地从海量矿产资源文本中抽取形成结构化知识已成为目前研究热点,命名实体识别是信息抽取与知识挖掘的重要步骤。针对矿产资源地质文本中存在实体长度长、专业术语多、实体... 矿产资源地质报告中蕴含大量专家经验及基础地质知识。快速准确地从海量矿产资源文本中抽取形成结构化知识已成为目前研究热点,命名实体识别是信息抽取与知识挖掘的重要步骤。针对矿产资源地质文本中存在实体长度长、专业术语多、实体嵌套等问题,已有基于深度学习的命名实体识别直接应用在矿产资源领域性能低下,本文提出了一种矿产资源命名实体识别深度学习模型:ALBERT(A Lite Bidirectional Encoder Representations from Transformers)-BiLSTM(Bi-directional Long Short-Term Memory)-CRF(Conditional Random Field),通过ALBERT预训练语言模型获取地质文本丰富语义特征,同时结合汉字拼音、字形和词边界特征来共同作为嵌入层,从而提高对复杂实体的识别能力。本文方法在人民日报、电子简历数据集及构建的矿产资源数据集上进行实验,结果表明提出方法在准确率、召回率、F1值上分别达到70.97%、64.33%、67.49%。 展开更多
关键词 矿产资源报告 命名实体识别 预训练模型 多特征融合
下载PDF
多模态数据的地质图关联网络构建及知识服务
15
作者 段雨希 +4 位作者 田苗 吴麒瑞 马凯 陶留锋 谢忠 《地质论评》 CAS CSCD 北大核心 2024年第4期1469-1482,共14页
地质图件及其附属资源(如描述文本)作为地质知识的重要存储媒介,蕴含着大量的地学知识及专家经验知识及隐式知识。快速精准地对多模态地质数据进行知识规范化定义、形式化表达、语义化关联和精准化推理是目前地学知识抽取及挖掘的前沿... 地质图件及其附属资源(如描述文本)作为地质知识的重要存储媒介,蕴含着大量的地学知识及专家经验知识及隐式知识。快速精准地对多模态地质数据进行知识规范化定义、形式化表达、语义化关联和精准化推理是目前地学知识抽取及挖掘的前沿。当前,海量的地学数据中图件及附属描述信息知识分布零散,图件中的信息无法有效地与描述信息进行关联并提供知识服务。笔者等以多模态地质数据为数据源,建立了多源数据驱动下的地质图知识表达模型,通过地质基础知识、规则知识及决策知识来表达图件中蕴含的显隐式地质知识,从语义、空间、属性3个维度表示地质对象间的关系;并基于领域知识针对地质图件及描述信息开展了地质实体及关系的精准抽取及存储研究,最后以江西省于都县银坑幅G50E011007图幅1∶50000矿产地质调查矢量数据为例进行了验证与分析,实验结果验证了笔者等所提出的知识表达模型及知识抽取方法,能够较好地解决地质知识建模中图文关联弱、知识挖掘不充分等问题。 展开更多
关键词 地质知识模型 地质图件 知识图谱 决策知识 智能问答
下载PDF
地球表层系统开放科学数据目录关联网络构建研究进展
16
作者 郝孟璂 +4 位作者 谢忠 陶留锋 李伟杰 王洋 刘建东 《地球信息科学学报》 EI CSCD 北大核心 2024年第4期866-880,共15页
快速发现、挖掘并利用海量地球表层系统(以下简称“地表系统”)开放科学数据,是大数据时代下地表系统开放科学数据共享新的发展趋势和前沿研究方向。地表系统开放科学数据具有组织分散、多源异构、多模态、多类型等特性,通常以专题共享... 快速发现、挖掘并利用海量地球表层系统(以下简称“地表系统”)开放科学数据,是大数据时代下地表系统开放科学数据共享新的发展趋势和前沿研究方向。地表系统开放科学数据具有组织分散、多源异构、多模态、多类型等特性,通常以专题共享网站、数据服务、元数据、期刊论文(特别是数据论文)等形式存在,研究发展适应不同模态的地表系统开放数据挖掘方法、分析其共享质量是充分利用这些数据的关键科学问题。关联网络为地表系统开放科学数据的语义互联和知识发现提供了有力的支撑,其以元数据URI(Uniform Resource Identifier)为节点,元数据间的语义关系为边,节点间关联性的强弱作为边的值。本文从地表系统开放科学数据关联网络构建角度出发,对其发展现状、基本特征和构建技术进行了调研与分析。首先选取国内外典型关联网络和相关文献作为研究对象,根据所选取的9个主流关联网络和200余篇相关文献,从关联网络的基本特征和构建技术2个方面进行比较分析。在基本特征方面,分析了关联网络的数据来源、自动化程度和更新方式;在构建技术方面,介绍了关联指标的选择,讨论了地表系统开放科学数据特征的提取、表示和计算方法。最后提出了未来地表系统关联网络构建的建议,包括构建高质量、全覆盖的地表系统开放科学数据本体、考虑顾及“时间-空间-内容”地学知识复杂关系及推理、建立面向多语言的地表系统开放科学数据关联网络方法以及提升地表系统开放科学数据关联网络应用成效等。 展开更多
关键词 地球表层系统 关联网络 数据目录 特征计算 元数据 共享程度评价 数据本体 关联指标
原文传递
人在回路学习增强的地理命名实体识别 被引量:2
17
作者 杨盈 +3 位作者 谢忠 田苗 郑诗语 郑帅 《测绘通报》 CSCD 北大核心 2023年第8期155-160,177,共7页
地理命名实体识别是高质量地理知识图谱构建的重要环节,被广泛应用于地理编码、语义检索及地理知识推理等方面。主流的深度学习模型存在标注语料库耗时费力、模型可解释性差等问题。为发挥人在回路机制推动学习模型利用少量样本学习的优... 地理命名实体识别是高质量地理知识图谱构建的重要环节,被广泛应用于地理编码、语义检索及地理知识推理等方面。主流的深度学习模型存在标注语料库耗时费力、模型可解释性差等问题。为发挥人在回路机制推动学习模型利用少量样本学习的优势,本文提出了一种人在回路学习增强的地理命名实体识别方法。即以部分标注及未标注地理语料为输入,基于BERT-BiLSTM-CRF模型进行训练并对待标注语料库进行识别,对于模型识别错误的句子提供人工干预形式对其进行纠正,并将纠正之后的句子重新输送到学习模型中进行迭代训练,最终形成标准地理命名实体数据集及人在回路强化后的抽取模型。以地理大百科全书数据为例进行模型性能评估,该方法对于多数地理命名实体识别解析准确率达90%以上,相比已有深度学习模型,该方法仅需要少量标注样本且识别效果更优,对多种地理命名实体识别类型能够保持较好性能。 展开更多
关键词 地理命名实体识别 人在回路 深度学习 预训练模型 BERT-BiLSTM-CRF
下载PDF
基于XLNet的多数据源中文地名匹配方法
18
作者 郑诗语 +2 位作者 谢忠 陶留锋 李伟杰 《地理空间信息》 2024年第8期59-63,88,共6页
地址作为社会发展中重要的基础性数据资源,已成为城市地理空间数据化建设的重要组成部分。地名匹配旨在比较表示相同真实世界位置的配对字符串。当前地名匹配方法依赖于字符串相似性独立或多种混合相似性度量方法,这些方法无法有效地捕... 地址作为社会发展中重要的基础性数据资源,已成为城市地理空间数据化建设的重要组成部分。地名匹配旨在比较表示相同真实世界位置的配对字符串。当前地名匹配方法依赖于字符串相似性独立或多种混合相似性度量方法,这些方法无法有效地捕捉长句子上下文信息,不能充分理解地址含义。因此,提出一种基于XLNet算法的地名匹配方法,利用深度神经网络将一对地名分类为匹配或不匹配。该方法利用长程记忆并使用双信息流注意力掩码对事件序列进行重构,以利用其双向信息建立表征。实验结果表明,该方法可解决长地址匹配问题,模型能较好地理解上下文语义信息,优于先前研究的单个相似度量及基于监督机器学习的方法。 展开更多
关键词 地名匹配 地名实体 XLNet Softmax 回归模型
下载PDF
基于四份区域地质调查报告构建的命名实体识别试验数据集研发 被引量:4
19
作者 马凯 田苗 +3 位作者 谭永健 王曙 谢忠 《全球变化数据学报(中英文)》 CSCD 2022年第1期78-84,I0080-I0086,共14页
区域地质调查报告是全面反映区域地质调查工作成果的重要技术文件。目前全国地质资料馆已经积累了海量的地质成果报告,对其进行信息抽取和挖掘可以充分挖掘现有报告的隐含价值,促进新知识的发现。本文面向自然语言处理领域的命名实体识... 区域地质调查报告是全面反映区域地质调查工作成果的重要技术文件。目前全国地质资料馆已经积累了海量的地质成果报告,对其进行信息抽取和挖掘可以充分挖掘现有报告的隐含价值,促进新知识的发现。本文面向自然语言处理领域的命名实体识别任务,构建了基于四份区域地质调查报告的命名实体识别试验数据集,该数据集可以用于训练和测试地质命名实体模型。数据集共包含四份区域地质调查成果报告,对地质时间、地质构造、地层、岩石、矿物和地点六类典型的地质命名实体进行了标注,对数据集分别进行了一致性检验、测试、评估等工作,保证了数据集的质量。数据集大小为4.84 MB,存储格式为.txt文本。 展开更多
关键词 区域地质调查报告 命名实体识别 一致性检验 测试 评估
原文传递
基于注意力机制的孪生网络地质调查空间实体与文本信息匹配 被引量:1
20
作者 马凯 +2 位作者 谢忠 陶留锋 黄波 《高校地质学报》 CAS CSCD 北大核心 2023年第3期337-344,共8页
对来源不同的地质对象进行关联匹配,并通过模型对其结构、属性及语义关系进行表示是后期语义查询及聚类等任务的重要支撑。文章针对地质调查空间实体与外部文本描述语义异构、表达差异等问题,提出了一种基于注意力机制的孪生网络地质调... 对来源不同的地质对象进行关联匹配,并通过模型对其结构、属性及语义关系进行表示是后期语义查询及聚类等任务的重要支撑。文章针对地质调查空间实体与外部文本描述语义异构、表达差异等问题,提出了一种基于注意力机制的孪生网络地质调查空间实体与文本描述信息关联匹配模型。首先,将地质调查空间实体的属性信息转换成为文本段落,以句向量基本粒度对地质空间实体进行文本语义编码;接着将两类文本对象映射到统一向量空间中,并输入到孪生网络中进行特征学习,最后在构建真实数据集上进行模型性能的实验测评。结果显示,该模型能够较好表示地质调查空间实体句子语义信息,其识别F1值相比基准实验提高了8.4个百分点,优于选取的对比方法。 展开更多
关键词 地质调查实体 文本多语义表征 信息匹配 语义相似性
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部