期刊文献+
共找到607篇文章
< 1 2 31 >
每页显示 20 50 100
电子病历中命名实体的智能识别 被引量:47
1
作者 叶枫 陈莺莺 +2 位作者 周根贵 李昊旻 李莹 《中国生物医学工程学报》 CAS CSCD 北大核心 2011年第2期256-262,共7页
电子病历中命名实体的识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而我国目前对此的研究相对较少。在比较现有的实体识别方法和模型后,采用条件随机场模型(CRF)机器学习的方法,对疾病、临床症状、手术操作3类中文... 电子病历中命名实体的识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而我国目前对此的研究相对较少。在比较现有的实体识别方法和模型后,采用条件随机场模型(CRF)机器学习的方法,对疾病、临床症状、手术操作3类中文病历中常见的命名实体进行智能识别。首先,通过分析电子病历的数据特征,选择以语言符号、词性、构词特征、词边界、上下文为特征集。然后,基于随机抽取的来自临床医院多个科室的电子病历数据,构建小规模语料库并进行标注。最后,利用条件随机场算法执行工具CRF++进行3次对照实验。通过逐步分析特征集中的多种特征对CRF自动识别的影响,提出在中文病历环境下CRF特征选择和模板设计的一些基本规则。在对照实验中,本方法取得了良好效果,3类实体的最佳F值分别达到了92.67%、93.76%和95.06%。 展开更多
关键词 电子病历 命名实体识别 机器学习 条件随机场
下载PDF
面向军事文本的命名实体识别 被引量:48
2
作者 冯蕴天 张宏军 郝文宁 《计算机科学》 CSCD 北大核心 2015年第7期15-18,47,共5页
针对军事文本中的命名实体,提出一种基于条件随机场模型的半监督命名实体识别方法,旨在将人员军职军衔名、军事装备名、军用物资名、军事设施名、军事机构名(含部队番号)以及军用地名等军事命名实体的识别融合到一个统一的技术框架中。... 针对军事文本中的命名实体,提出一种基于条件随机场模型的半监督命名实体识别方法,旨在将人员军职军衔名、军事装备名、军用物资名、军事设施名、军事机构名(含部队番号)以及军用地名等军事命名实体的识别融合到一个统一的技术框架中。该方法针对军事文本的语法特点建立高效的特征集合,建立条件随机场模型对军事命名实体进行识别,并依次使用基于词典的方法和基于规则的方法对识别结果进行校正。实验表明,该方法在军事文本中能够出色地完成命名实体识别任务,在测试语料上的F-值最高达到90.9%,接近通用领域中命名实体识别的水平。 展开更多
关键词 军事文本 命名实体识别 条件随机场 半监督学习 军事信息处理
下载PDF
基于条件随机场的中文地名识别方法 被引量:45
3
作者 邬伦 刘磊 +1 位作者 李浩然 高勇 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2017年第2期150-156,共7页
在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识... 在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识别率偏低或过拟合等问题。本文引入语言学相关知识,分析中文地名用字特征,在传统的地名专名+通名的结构上,更细致地划分地名的词素类型,总结归纳各词素类型的特征,将这些特征融入条件随机场的方法中,使地名识别问题转化为序列标注问题。并根据中文地名的特征,制定形式化规则,设计基于字的标注规范。在此基础上,设计中文地名特征模板,通过条件随机场模型训练和预测,识别自然语言文本中的中文地名。采用170万字的人民日报标注语料进行实验验证,结果表明本文方法对中文地名识别的召回率、准确率和F值分别达到92.69%、96.73%和94.67%,优于已有研究成果,能为地理信息科学领域的研究和应用提供更有效的地名服务。 展开更多
关键词 地名识别 条件随机场 自然语言处理 中文地名
原文传递
基于条件随机场方法的开放领域新词发现 被引量:43
4
作者 陈飞 刘奕群 +3 位作者 魏超 张云亮 张敏 马少平 《软件学报》 EI CSCD 北大核心 2013年第5期1051-1060,共10页
开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网... 开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means聚类、等频率、基于信息增益这3种离散化方法对新词发现结果的影响.通过在SogouT大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果. 展开更多
关键词 新词发现 conditION random field(CRF) 中文分词
下载PDF
基于改进U-Net网络的高分遥感影像水体提取 被引量:30
5
作者 何红术 黄晓霞 +4 位作者 李红旮 倪凌佳 王新歌 陈崇 柳泽 《地球信息科学学报》 CSCD 北大核心 2020年第10期2010-2022,共13页
传统基于光谱信息的水体提取未能考虑水体形状、纹理、大小、相邻关系等问题,且存在同物异谱、异物同谱现象,导致水体提取精度较低。而传统基于分类提取水体方法设计特征过程较为繁琐,且不能挖掘深度信息特征。因此,本文提出改进的U-Ne... 传统基于光谱信息的水体提取未能考虑水体形状、纹理、大小、相邻关系等问题,且存在同物异谱、异物同谱现象,导致水体提取精度较低。而传统基于分类提取水体方法设计特征过程较为繁琐,且不能挖掘深度信息特征。因此,本文提出改进的U-Net网络语义分割方法,借鉴经典U-Net网络的解编码结构对网络进行改进:①将VGG网络用于收缩路径以提取特征;②在扩张路径中对低维特征信息进行加强,将收缩特征金字塔上一层的特征图与下一层对应扩张路径上的特征图进行融合,以提高提取结果分割精度;③在分类后处理中引入条件随机场,以将分割结果精细化。在保持相同训练集、验证集和测试集的情况下,分别用SegNet、经典U-Net网络和改进的U-Net网络做对照试验。试验结果表明,改进的U-Net网络结构在IoU、精准率和Kappa系数指标上均高于SegNet和经典U-Net网络,与SegNet相比,3项指标分别提升了10.5%、12.3%和0.14,与经典U-Net网络结果相比,各个指标分别提升了5.8%、4.4%和0.05。改进的网络水体提取结果较为完整,对小目标水体能够准确提取。改进的U-Net网络能够有效地实现水体提取任务。 展开更多
关键词 U-Net 水体提取 高分遥感影像 条件随机场 图像分割 VGG16 青岛 西宁
原文传递
基于BiLSTM-CRF的关键词自动抽取 被引量:29
6
作者 陈伟 吴友政 +1 位作者 陈文亮 张民 《计算机科学》 CSCD 北大核心 2018年第B06期91-96,113,共7页
关键词自动抽取是自然语言处理(Natural Language Processing,NLP)的一项重要任务,给个性化推荐、网购等应用提供了重要的技术支撑。针对关键词自动抽取问题,提出一种新的基于双向长短期记忆网络条件随机场(Bidirectional Long Short-Te... 关键词自动抽取是自然语言处理(Natural Language Processing,NLP)的一项重要任务,给个性化推荐、网购等应用提供了重要的技术支撑。针对关键词自动抽取问题,提出一种新的基于双向长短期记忆网络条件随机场(Bidirectional Long Short-Term Memory Network Conditional Random Field,BiLSTM-CRF)的方法,并将该问题刻画为序列标注问题。首先,该方法通过对输入的文本进行建模,把文本表示为低维高密度的向量;然后,使用分类算法对各个词进行分类;最后,使用CRF对整个标注序列进行解码,得到最终结果。在一个大规模的真实数据中进行实验,结果表明该方法较基准系统性能提高约1个百分点。 展开更多
关键词 自然语言处理 关键词抽取 条件随机场 长短期记忆网络
下载PDF
整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别 被引量:28
7
作者 李纲 潘荣清 +1 位作者 毛进 操玉杰 《现代情报》 CSSCI 2020年第4期3-12,58,共11页
[目的/意义]通过整合BiLSTM-CRF神经网络和具有先验领域知识的词典资源,提高中文电子病历领域中的实体识别效果。[方法/过程]采用BiLSTM-CRF神经网络模型,以CCKS-2017测评任务提供的脱敏中文电子病历数据为实验数据集,结合Word2Vec和外... [目的/意义]通过整合BiLSTM-CRF神经网络和具有先验领域知识的词典资源,提高中文电子病历领域中的实体识别效果。[方法/过程]采用BiLSTM-CRF神经网络模型,以CCKS-2017测评任务提供的脱敏中文电子病历数据为实验数据集,结合Word2Vec和外部词典构造神经网络的词嵌入输入改进实体识别模型。[结果/结论]与传统的CRF和单纯的BiLSTM-CRF模型相比,引入先验知识的词典资源可以取得更好的实体识别效果,F1值达到最高的90.41%。深度学习模型BiLSTM-CRF能够显著提升传统CRF方法的实体识别效果,同时先验的词典知识能进一步增强神经网络的性能。 展开更多
关键词 实体识别 长短期记忆网络 条件随机场 电子病历 词典资源 深度学习 BiLSTM-CRF神经网络模型
下载PDF
基于LSTM-CRF命名实体识别技术的研究与应用 被引量:28
8
作者 张聪品 方滔 刘昱良 《计算机技术与发展》 2019年第2期106-108,142,共4页
随着深度神经网络的发展,深度学习不仅占据了模式识别等领域的统治地位,而且已应用到自然语言处理的各个方面,如中文命名实体识别。对电子病历中的命名实体进行识别时,构建了内嵌条件随机场的长短时神经网络模型,使用长短时神经网络隐... 随着深度神经网络的发展,深度学习不仅占据了模式识别等领域的统治地位,而且已应用到自然语言处理的各个方面,如中文命名实体识别。对电子病历中的命名实体进行识别时,构建了内嵌条件随机场的长短时神经网络模型,使用长短时神经网络隐含层的上下文向量作为输出层标注的特征,使用内嵌的条件随机场模型表示标注之间的约束关系。该模型识别出了电子病历中的身体部位、疾病名称、检查、症状和治疗五类实体,准确率达到96.29%,精确率达到了91. 61%,召回率96.22%,F值93.85,其中症状这一实体类别,精确率达到96.08%,召回率98.98%,F值97.51。实验结果表明,内嵌条件随机场的长短时记忆神经网络模型在识别中文命名实体方面是有效的,有助于自动抽取中文电子病历中实体之间的关系、构建医疗知识图谱。 展开更多
关键词 长短时记忆神经网络 条件随机场 命名实体 电子病历
下载PDF
基于语法的情感词汇自动获取 被引量:26
9
作者 陈建美 林鸿飞 杨志豪 《智能系统学报》 2009年第2期100-106,共7页
情感计算是目前人工智能领域的热门课题,而词汇的情感计算又是准确完成文本情感计算的基础.目前情感词汇的获取大多采用人工获取的方法,如何自动地获取情感词汇,已成为当前情感计算研究亟需解决的问题.提出了情感词汇的自动提取机制,首... 情感计算是目前人工智能领域的热门课题,而词汇的情感计算又是准确完成文本情感计算的基础.目前情感词汇的获取大多采用人工获取的方法,如何自动地获取情感词汇,已成为当前情感计算研究亟需解决的问题.提出了情感词汇的自动提取机制,首先分析了情感词汇的一般语法规律,例如,重叠的规律,受否定词、程度副词修饰的规律等.然后在情感词汇的这些语法规律的基础上,运用CRF模型实现了情感词汇的自动获取.最后,分析了不同的语法规律对情感词汇自动获取的作用大小,并对实验结果进行了详细分析,实验结果表明情感词汇自动获取方法是有效的. 展开更多
关键词 情感词汇 词汇自动获取 情感计算 条件随机域
下载PDF
加入自注意力机制的BERT命名实体识别模型 被引量:26
10
作者 毛明毅 吴晨 +1 位作者 钟义信 陈志成 《智能系统学报》 CSCD 北大核心 2020年第4期772-779,共8页
命名实体识别属于自然语言处理领域词法分析中的一部分,是计算机正确理解自然语言的基础。为了加强模型对命名实体的识别效果,本文使用预训练模型BERT(bidirectional encoder representation from transformers)作为模型的嵌入层,并针对... 命名实体识别属于自然语言处理领域词法分析中的一部分,是计算机正确理解自然语言的基础。为了加强模型对命名实体的识别效果,本文使用预训练模型BERT(bidirectional encoder representation from transformers)作为模型的嵌入层,并针对BERT微调训练对计算机性能要求较高的问题,采用了固定参数嵌入的方式对BERT进行应用,搭建了BERT-BiLSTM-CRF模型。并在该模型的基础上进行了两种改进实验。方法一,继续增加自注意力(self-attention)层,实验结果显示,自注意力层的加入对模型的识别效果提升不明显。方法二,减小BERT模型嵌入层数。实验结果显示,适度减少BERT嵌入层数能够提升模型的命名实体识别准确性,同时又节约了模型的整体训练时间。采用9层嵌入时,在MSRA中文数据集上F1值提升至94.79%,在Weibo中文数据集上F1值达到了68.82%。 展开更多
关键词 命名实体识别 BERT 自注意力机制 深度学习 条件随机场 自然语言处理 双向长短期记忆网络 序列标注
下载PDF
基于时空单词的两人交互行为识别方法 被引量:25
11
作者 韩磊 李君峰 贾云得 《计算机学报》 EI CSCD 北大核心 2010年第4期776-784,共9页
文中提出一种基于时空单词的两人交互行为识别方法,该方法从行为视频中提取丰富的时空兴趣点,基于人体剪影的连通性分析和时空兴趣点的历史信息,把时空兴趣点划分给不同的人体,并在兴趣点样本空间聚类生成时空码本(spatial-temporal cod... 文中提出一种基于时空单词的两人交互行为识别方法,该方法从行为视频中提取丰富的时空兴趣点,基于人体剪影的连通性分析和时空兴趣点的历史信息,把时空兴趣点划分给不同的人体,并在兴趣点样本空间聚类生成时空码本(spatial-temporal codebook).对于给定的时空兴趣点集,通过投票得到表示单人原子行为的时空单词(spatial-temporal words).采用条件随机场模型建模单人原子行为,在两人交互行为的语义建模过程中,人工建立表示领域知识(domain knowledge)的一阶逻辑知识库,并训练马尔可夫逻辑网用以两人交互行为的推理.两人交互行为库上的实验结果证明了该方法的有效性. 展开更多
关键词 交互行为分析 行为识别 时空特征 条件随机场 马尔可夫逻辑网
下载PDF
基于CNN-CRF的中文电子病历命名实体识别研究 被引量:26
12
作者 曹依依 周应华 +1 位作者 申发海 李智星 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2019年第6期869-875,共7页
智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究.针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架.为得到高质... 智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究.针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架.为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正.把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体.实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高. 展开更多
关键词 实体识别 中文电子病历 卷积神经网路 条件随机场
下载PDF
基于BERT模型的司法文书实体识别方法 被引量:23
13
作者 陈剑 何涛 +1 位作者 闻英友 马林涛 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第10期1382-1387,共6页
采用手工分析案件卷宗,容易产生案件实体遗漏现象及提取特征效率低下问题.为此,使用基于双向训练Transformer的编码器表征预训练模型.在手工标注的语料库中微调模型参数,再由长短时记忆网络与条件随机场对前一层输出的语义编码进行解码... 采用手工分析案件卷宗,容易产生案件实体遗漏现象及提取特征效率低下问题.为此,使用基于双向训练Transformer的编码器表征预训练模型.在手工标注的语料库中微调模型参数,再由长短时记忆网络与条件随机场对前一层输出的语义编码进行解码,完成实体抽取.该预训练模型具有巨大的参数量、强大的特征提取能力和实体的多维语义表征等优势,可有效提升实体抽取效果.实验结果表明,本文提出的模型能实现89%以上的实体提取准确度,显著优于传统的循环神经网络和卷积神经网络模型. 展开更多
关键词 深度学习 预训练模型 双向长短时记忆网络 条件随机场 命名实体识别
下载PDF
面向数字人文的馆藏方志古籍地名自动识别模型构建 被引量:20
14
作者 李娜 包平 《图书馆》 CSSCI 北大核心 2018年第5期67-73,共7页
在数字人文背景下,以馆藏方志古籍为语料库,以摘抄自地方志的农业专题资料《方志物产》之山西分卷为例,在全文人工标注的基础上,构建基于条件随机场的古汉语地名自动识别模型,通过交叉验证方法测试模型的识别性能,用精确率P、召回率R和... 在数字人文背景下,以馆藏方志古籍为语料库,以摘抄自地方志的农业专题资料《方志物产》之山西分卷为例,在全文人工标注的基础上,构建基于条件随机场的古汉语地名自动识别模型,通过交叉验证方法测试模型的识别性能,用精确率P、召回率R和调和平均数F为测评指标,最佳的测试效果分别为98.16%、91.55%、94.57%。结果显示,条件随机场模型在基于人工标注的方志古籍语料上能够取得较好的识别效果,为深化图书馆馆藏古籍的整理利用提供借鉴。 展开更多
关键词 条件随机场 方志古籍 地名 馆藏资源
下载PDF
基于深度表示的中医病历症状表型命名实体抽取研究 被引量:20
15
作者 原旎 卢克治 +5 位作者 袁玉虎 舒梓心 杨扩 张润顺 李晓东 周雪忠 《世界科学技术-中医药现代化》 CSCD 北大核心 2018年第3期355-362,共8页
目的:命名实体识别在自然语言处理中是最基本的任务之一,本文通过应用深度表示的方法实现临床上的现病史数据的自动标识。方法:本文随机选取了10 426条现病史句子作为主要的文本研究对象,分别用词嵌入(word2vec)和网络结构特征(node2vec... 目的:命名实体识别在自然语言处理中是最基本的任务之一,本文通过应用深度表示的方法实现临床上的现病史数据的自动标识。方法:本文随机选取了10 426条现病史句子作为主要的文本研究对象,分别用词嵌入(word2vec)和网络结构特征(node2vec)两种构建向量的方法生成不同的词向量特征,再在基于条件随机场(Conditional Random Field,CRF)和结构化支持向量机(Structured Support Vector Machines,SSVM)的方法上进行十重交叉验证,计算并比较基于深度表示的症状表型命名实体抽取的性能。结果:传统的CRF算法的三个评价指标(准确率,召回率,F值)为(0.888 9,0.786 9,0.834 8);基于WENER方法下的CRF和SSVM的评价指标为(0.975 0,0.984 9,0.979 8)和(0.992 8,0.988 9,0.990 8);在GENER方法下基于词的CRF和SSVM算法的三个评价指标为(0.972 8,0.976 8,0.975 2)和(0.983 3,0.974 5,0.978 8);GENER方法下基于字的CRF和SSVM算法的评价指标为(0.927 8,0.862 8,0.887 9)和(0.943 7,0.946 8,0.941 3)。结论:深度表示的命名实体抽取算法性能要比传统的非深度表示的命名实体标识算法性能好。另外,通过比较深度表示的两种算法的性能后发现,无论是基于word2vec生成的词向量还是基于node2vec生成的词向量,SSVM模型算法性能均优于CRF算法的性能。 展开更多
关键词 条件随机场 结构化支持向量机 命名实体抽取 中医病历
下载PDF
基于BLSTM-CNN-CRF的中文命名实体识别方法 被引量:19
16
作者 刘宇鹏 栗冬冬 《哈尔滨理工大学学报》 CAS 北大核心 2020年第1期115-120,共6页
传统的命名实体识别方法依赖大量的人工选择的特征和专业领域的外部知识,针对这一问题,提出了一种新颖的神经网络结构,该算法结合了双向LSTM,CNN和CRF可以同时自动获取到基于字符级别和词语级别的表示,是一种真正意义上的端到端的结构,... 传统的命名实体识别方法依赖大量的人工选择的特征和专业领域的外部知识,针对这一问题,提出了一种新颖的神经网络结构,该算法结合了双向LSTM,CNN和CRF可以同时自动获取到基于字符级别和词语级别的表示,是一种真正意义上的端到端的结构,不再需要人工选择特征和数据的预处理,可以应用到各个领域的命名实体识别任务中去。最后,通过实验证明该算法在医疗领域和新闻领域的F1值分别达到了90.97%和92.19%。 展开更多
关键词 命名实体识别 长短期记忆网络 卷积神经网络 条件随机场
下载PDF
空-谱融合的条件随机场高光谱影像分类方法 被引量:18
17
作者 魏立飞 余铭 +2 位作者 钟燕飞 袁自然 黄灿 《测绘学报》 EI CSCD 北大核心 2020年第3期343-354,共12页
高光谱遥感数据具有光谱信息丰富、图谱合一的特点,目前已经广泛地应用在对地观测中。传统的高光谱分类模型大多过分依赖影像光谱信息,没有充分利用空间特征信息,这使得分类精度还有很大的提升空间。条件随机场是一种概率模型,能够较好... 高光谱遥感数据具有光谱信息丰富、图谱合一的特点,目前已经广泛地应用在对地观测中。传统的高光谱分类模型大多过分依赖影像光谱信息,没有充分利用空间特征信息,这使得分类精度还有很大的提升空间。条件随机场是一种概率模型,能够较好地融合空间上下文信息,在高光谱影像分类中已经得到越来越多的关注,但大部分条件随机场模型存在超平滑的现象,会导致影像细节丢失。针对该问题,本文提出了一种优化融合影像空-谱信息的高分辨率/高光谱影像分类方法,该方法将影像的纹理信息与原始光谱信息进行融合,利用SVM分类器对其进行预分类,并将各类概率定义为一元势函数,以融合空间特征信息;然后将空间平滑项和局部类别标签成本项加入二元势函数中,以考虑空间背景信息,并保留各类别中的详细信息。最后,通过两组的高分辨率/高光谱影像数据进行试验。结果表明,与SVM算法、传统的条件随机场方法和面向对象的分类方法相比,本文提出的算法在整体分类精度上分别提高了10%、9%和8%以上,同时在保持地物边缘完整性、避免“同谱异物”与“同物异谱”的现象方面有较明显的优势。 展开更多
关键词 高光谱遥感影像 条件随机场 空-谱融合 影像分类
下载PDF
基于自筛选深度学习的滑坡易发性预测建模及其可解释性 被引量:14
18
作者 黄发明 陈彬 +3 位作者 毛达雄 刘乐开 张子荷 朱莉 《地球科学》 EI CAS CSCD 北大核心 2023年第5期1696-1710,共15页
针对滑坡易发性预测建模中滑坡-非滑坡样本可能存在误差、环境因子间非线性关系较复杂且机器学习可解释性未被关注等重要问题,拟提出一种基于自筛选的双向长短时记忆网络与条件随机场的滑坡易发性预测模型(Selfscreening Bi-directional... 针对滑坡易发性预测建模中滑坡-非滑坡样本可能存在误差、环境因子间非线性关系较复杂且机器学习可解释性未被关注等重要问题,拟提出一种基于自筛选的双向长短时记忆网络与条件随机场的滑坡易发性预测模型(Selfscreening Bi-directional Long Short-Term Memory and Conditional Random Fields,SBiLSTM-CRF).SBiLSTM-CRF模型具有深度学习网络层数深、宽度广及可循环迭代建模的优势,能预测出环境因子间的非线性关系,并通过迭代自动筛选阈值区间外的错误滑坡样本.该模型可用于解释各环境因子之间耦合关系的内部作用机制.将SBiLSTM-CRF模型用于陕西延长县滑坡易发性预测,并与cpLSTM-CRF、随机森林、支持向量机、随机梯度下降和逻辑回归模型比较.结果表明,SBiLSTM-CRF克服了传统机器学习中存在的样本误差以及因子间复杂的非线性关系问题,具有更高的预测性能.通过该模型的可解释性能力揭示了坡度、高程和岩性等因子控制延长县的黄土滑坡发育的机制. 展开更多
关键词 滑坡易发性预测 深度学习 双向长短时记忆网络 条件随机场 可解释性 工程地质.
原文传递
中文电子病历的分词及实体识别研究 被引量:18
19
作者 王若佳 赵常煜 王继民 《图书情报工作》 CSSCI 北大核心 2019年第2期34-42,共9页
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表... [目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。 展开更多
关键词 电子病历 中文分词 实体识别 健康医疗大数据 AC自动机 条件随机场
原文传递
基于领域词典与CRF双层标注的中文电子病历实体识别 被引量:18
20
作者 龚乐君 张知菲 《工程科学学报》 EI CSCD 北大核心 2020年第4期469-475,共7页
医疗实体识别是电子病历文本信息抽取的基本任务.针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状,提出了一种基于领域词典和条件随机场(CRF)的双层标注模型.该... 医疗实体识别是电子病历文本信息抽取的基本任务.针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状,提出了一种基于领域词典和条件随机场(CRF)的双层标注模型.该模型通过对外部资源的统计分析构建医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,将领域词典识别的准确性和机器学习的自动性融为一体,从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体.该模型在测试数据中的宏精确率为96.7%、宏召回率为97.7%、宏F1值为97.2%.同时对比分析了采用注意力机制的深度神经网络的识别效果,因受到领域数据集大小的限制,在该测试数据集中后者表现不佳.实验结果表明了该双层标注模型对中文医疗实体识别的高效性. 展开更多
关键词 中文电子病历 医疗实体识别 领域词典 条件随机场 注意力机制
下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部