随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这...随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。展开更多
针对电子病历结构化中的命名实体识别问题,提出一种基于分词任务和命名实体识别任务相结合的多任务双向长短期记忆网络模型(Bidirectional Long Short-Term Memory Conditional Random Feld,Bi-LSTM-CRF).该模型通过加入共享LSTM捕获分...针对电子病历结构化中的命名实体识别问题,提出一种基于分词任务和命名实体识别任务相结合的多任务双向长短期记忆网络模型(Bidirectional Long Short-Term Memory Conditional Random Feld,Bi-LSTM-CRF).该模型通过加入共享LSTM捕获分词任务中的词边界信息,丰富了命名实体识别任务的特征集,进而达到提高命名实体的效果.实验采集数据由新疆某三甲医院提供的500份冠心病患者的出院小结和2000份心血管疾病患者的出院小结组成.实验结果表明:F-measure值达到了0.927,满足临床的实际需求.展开更多
语义角色标注的传统方法采用基于句法特征的统计机器学习方法。由于依存句法可以表示词语之间的语义关系,故在语义角色标注中取得了较好的性能;但该方法存在特征抽取过程繁琐,难以捕捉句子中长距离依赖等问题。随着深度学习的兴起,研究...语义角色标注的传统方法采用基于句法特征的统计机器学习方法。由于依存句法可以表示词语之间的语义关系,故在语义角色标注中取得了较好的性能;但该方法存在特征抽取过程繁琐,难以捕捉句子中长距离依赖等问题。随着深度学习的兴起,研究者将基于双向长短时记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)神经网络模型用于语义角色标注。该模型可以自动学习特征,并对词与词之间的远距离依赖关系进行有效建模。本文提出融合Bi-LSTM-CRF模型与依存句法特征的方法,并且引入Gate过滤机制对词向量表示进行调整,以达到利用句法特征提高语义角色标注精度的同时,规避特征工程的繁琐。CPB上的实验结果表明,利用本文所提方法的汉语语义角色标注的F1值达到79.53%,比前人的方法有了较为显著的提升。展开更多
针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)...针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)模型抽取产品特征的扩充情感词,综合特征词的语素相似度、同义词林相似度和TF-IDF(term frequency-inverse document frequency)余弦相似度,采用K-medoids聚类算法,识别相同的产品特征。试验结果表明,在手机和笔记本数据集上,该方法的最大调整兰德指数分别达到0.579和0.595 9,而最小熵值分别达到0.782 6和0.745 7,均优于结合语素的调整Jaccard相似度、Word2Vec相似度和基于二分K-means的Word2Vec相似度三种基线试验方法。展开更多
文摘随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。
文摘针对电子病历结构化中的命名实体识别问题,提出一种基于分词任务和命名实体识别任务相结合的多任务双向长短期记忆网络模型(Bidirectional Long Short-Term Memory Conditional Random Feld,Bi-LSTM-CRF).该模型通过加入共享LSTM捕获分词任务中的词边界信息,丰富了命名实体识别任务的特征集,进而达到提高命名实体的效果.实验采集数据由新疆某三甲医院提供的500份冠心病患者的出院小结和2000份心血管疾病患者的出院小结组成.实验结果表明:F-measure值达到了0.927,满足临床的实际需求.
文摘语义角色标注的传统方法采用基于句法特征的统计机器学习方法。由于依存句法可以表示词语之间的语义关系,故在语义角色标注中取得了较好的性能;但该方法存在特征抽取过程繁琐,难以捕捉句子中长距离依赖等问题。随着深度学习的兴起,研究者将基于双向长短时记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)神经网络模型用于语义角色标注。该模型可以自动学习特征,并对词与词之间的远距离依赖关系进行有效建模。本文提出融合Bi-LSTM-CRF模型与依存句法特征的方法,并且引入Gate过滤机制对词向量表示进行调整,以达到利用句法特征提高语义角色标注精度的同时,规避特征工程的繁琐。CPB上的实验结果表明,利用本文所提方法的汉语语义角色标注的F1值达到79.53%,比前人的方法有了较为显著的提升。
文摘针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)模型抽取产品特征的扩充情感词,综合特征词的语素相似度、同义词林相似度和TF-IDF(term frequency-inverse document frequency)余弦相似度,采用K-medoids聚类算法,识别相同的产品特征。试验结果表明,在手机和笔记本数据集上,该方法的最大调整兰德指数分别达到0.579和0.595 9,而最小熵值分别达到0.782 6和0.745 7,均优于结合语素的调整Jaccard相似度、Word2Vec相似度和基于二分K-means的Word2Vec相似度三种基线试验方法。