军事命名实体(Military Named Entities,MNEs)内部嵌套关系复杂、语法区分不明显,从而影响实体识别效果,针对这一问题,提出了一种小粒度策略下基于条件随机场(Conditional Random Fields,CRFs)的MNEs识别方法。运用小粒度策略,结合手工...军事命名实体(Military Named Entities,MNEs)内部嵌套关系复杂、语法区分不明显,从而影响实体识别效果,针对这一问题,提出了一种小粒度策略下基于条件随机场(Conditional Random Fields,CRFs)的MNEs识别方法。运用小粒度策略,结合手工构建的MNEs标注语料进行建模,采用CRFs模型识别出不可再分的小粒度MNEs,再通过对小粒度MNEs进行组合得到完整的MNEs。最后,通过实验对该方法进行了验证,结果表明:在作战文书语料的开放测试中,MNEs识别的召回率达到72%以上,准确率达到85%以上。展开更多
海量电子病历(Electronic Medical Record,EMR)数据是支撑医疗智能化研究的重要原料,然而电子病历文本数据的半结构化甚至无结构化特点,造成后续对其分析利用的极大困难.虽然近年来基于深度学习的命名实体识别(Named Entity Recognition...海量电子病历(Electronic Medical Record,EMR)数据是支撑医疗智能化研究的重要原料,然而电子病历文本数据的半结构化甚至无结构化特点,造成后续对其分析利用的极大困难.虽然近年来基于深度学习的命名实体识别(Named Entity Recognition,NER)成为对电子病历进行自动化信息抽取的核心技术,但鉴于中文电子病历(Chinese Electronic Medical Record,CEMR)具有包括病历文本的非规范性与专业性、医疗实体的独特性和标注语料的稀缺性在内的独特文本数据特征,该研究目前仍存在诸多挑战.本文对中文电子病历命名实体识别的研究与进展进行了综述,系统梳理了命名实体识别的概念、相关理论模型以及制约中文电子病历命名实体识别准确率和识别效率的主要原因;从技术发展角度详细分析了中文电子病历命名实体识别方法的变革历程;并对中文电子病历命名实体识别效果做了实验验证与深入分析,指出了现有模型的不足与改进方向.鉴于国内近年来与中文信息学处理相关的测评会议CCKS持续关注中文电子病历命名实体识别,本文特别对CCKS在该领域五年来的全部代表性测评论文做了纵横对比分析,并通过在主流模型上的深入实验与研究,为后续该领域的继续推进寻求了思路.展开更多
目的探索利用点阵(lattice)长短期记忆(long short term mermory network,LSTM)神经网络构建命名实体识别(named entity recognition,NER)模型解决中文医学文本的信息提取问题。方法利用Lattice LSTM来表征句子中的词汇词(lexiconword)...目的探索利用点阵(lattice)长短期记忆(long short term mermory network,LSTM)神经网络构建命名实体识别(named entity recognition,NER)模型解决中文医学文本的信息提取问题。方法利用Lattice LSTM来表征句子中的词汇词(lexiconword),从而将潜在词信息整合到基于字符的长短期记忆网络—条件随机场(long short term memory-conditional random?eld,LSTM-CRF)模型中。进一步使用一个大型自动获取的词典来匹配句子,进而构建基于词的Lattice。利用Lattice LSTM结构自动控制从句子开头至结尾的信息流。结果门控单元可用于将来自不同路径的信息动态传送到每个字符。在NER数据基础上进行训练后,LatticeLSTM能够学会从语境中自动找到更有用的词汇,以取得更好的NER性能。结论与基于字符和词的NER方法相比,本文所提出的模型优势在于利用显性词汇信息而不是字符序列进行标注,同时较少出现分词误差。展开更多
文摘军事命名实体(Military Named Entities,MNEs)内部嵌套关系复杂、语法区分不明显,从而影响实体识别效果,针对这一问题,提出了一种小粒度策略下基于条件随机场(Conditional Random Fields,CRFs)的MNEs识别方法。运用小粒度策略,结合手工构建的MNEs标注语料进行建模,采用CRFs模型识别出不可再分的小粒度MNEs,再通过对小粒度MNEs进行组合得到完整的MNEs。最后,通过实验对该方法进行了验证,结果表明:在作战文书语料的开放测试中,MNEs识别的召回率达到72%以上,准确率达到85%以上。
文摘海量电子病历(Electronic Medical Record,EMR)数据是支撑医疗智能化研究的重要原料,然而电子病历文本数据的半结构化甚至无结构化特点,造成后续对其分析利用的极大困难.虽然近年来基于深度学习的命名实体识别(Named Entity Recognition,NER)成为对电子病历进行自动化信息抽取的核心技术,但鉴于中文电子病历(Chinese Electronic Medical Record,CEMR)具有包括病历文本的非规范性与专业性、医疗实体的独特性和标注语料的稀缺性在内的独特文本数据特征,该研究目前仍存在诸多挑战.本文对中文电子病历命名实体识别的研究与进展进行了综述,系统梳理了命名实体识别的概念、相关理论模型以及制约中文电子病历命名实体识别准确率和识别效率的主要原因;从技术发展角度详细分析了中文电子病历命名实体识别方法的变革历程;并对中文电子病历命名实体识别效果做了实验验证与深入分析,指出了现有模型的不足与改进方向.鉴于国内近年来与中文信息学处理相关的测评会议CCKS持续关注中文电子病历命名实体识别,本文特别对CCKS在该领域五年来的全部代表性测评论文做了纵横对比分析,并通过在主流模型上的深入实验与研究,为后续该领域的继续推进寻求了思路.
文摘命名实体识别(named entity recognition,NER)是自然语言处理中重要的基础任务,而中文命名实体识别(Chinese named entity recognition,CNER)因分词歧义和一词多义等问题使其尤显困难。针对这些问题,提出多头注意力机制(multi-heads attention mechanism,Multi-Attention)与字词融合的中文命名实体识别模型(CWA-CNER)。将汉语文本字向量与其在句中可能成词的词向量进行拼接,并将其送入长短时记忆网络(bidirectional long short-term memory neural network,BiLSTM)提取上下文语义信息,进而利用多头注意力机制捕获句中元素间联系的紧密程度,最后通过条件随机场(conditional random field,CRF)进行实体标注。该模型在Boson数据集,1998和2014年《人民日报》三种语料上进行实验,其F1值均达到90%以上,结果表明了模型的有效性。
文摘目的探索利用点阵(lattice)长短期记忆(long short term mermory network,LSTM)神经网络构建命名实体识别(named entity recognition,NER)模型解决中文医学文本的信息提取问题。方法利用Lattice LSTM来表征句子中的词汇词(lexiconword),从而将潜在词信息整合到基于字符的长短期记忆网络—条件随机场(long short term memory-conditional random?eld,LSTM-CRF)模型中。进一步使用一个大型自动获取的词典来匹配句子,进而构建基于词的Lattice。利用Lattice LSTM结构自动控制从句子开头至结尾的信息流。结果门控单元可用于将来自不同路径的信息动态传送到每个字符。在NER数据基础上进行训练后,LatticeLSTM能够学会从语境中自动找到更有用的词汇,以取得更好的NER性能。结论与基于字符和词的NER方法相比,本文所提出的模型优势在于利用显性词汇信息而不是字符序列进行标注,同时较少出现分词误差。