期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
Lattice LSTM神经网络法中文医学文本命名实体识别模型研究 被引量:12
1
作者 王博冉 林夏 +2 位作者 朱晓东 朱万琳 马学华 《中国卫生信息管理杂志》 2019年第1期84-88,共5页
目的探索利用点阵(lattice)长短期记忆(long short term mermory network,LSTM)神经网络构建命名实体识别(named entity recognition,NER)模型解决中文医学文本的信息提取问题。方法利用Lattice LSTM来表征句子中的词汇词(lexiconword)... 目的探索利用点阵(lattice)长短期记忆(long short term mermory network,LSTM)神经网络构建命名实体识别(named entity recognition,NER)模型解决中文医学文本的信息提取问题。方法利用Lattice LSTM来表征句子中的词汇词(lexiconword),从而将潜在词信息整合到基于字符的长短期记忆网络—条件随机场(long short term memory-conditional random?eld,LSTM-CRF)模型中。进一步使用一个大型自动获取的词典来匹配句子,进而构建基于词的Lattice。利用Lattice LSTM结构自动控制从句子开头至结尾的信息流。结果门控单元可用于将来自不同路径的信息动态传送到每个字符。在NER数据基础上进行训练后,LatticeLSTM能够学会从语境中自动找到更有用的词汇,以取得更好的NER性能。结论与基于字符和词的NER方法相比,本文所提出的模型优势在于利用显性词汇信息而不是字符序列进行标注,同时较少出现分词误差。 展开更多
关键词 神经网络 中文医学文本 命名实体识别
下载PDF
基于自注意力机制与词汇增强的中文医学命名实体识别
2
作者 罗歆然 李天瑞 贾真 《计算机应用》 CSCD 北大核心 2024年第2期385-392,共8页
针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符... 针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符序列的上下文信息并捕捉较长距离的依赖关系;然后,对字符序列中每个字符的潜在单词信息进行字词对建模,采用自注意力机制实现不同单词之间的内部交互;最后,通过基于双线性注意力机制的词汇适配器将词汇信息集成到文本序列中的每个字符中,有效增强语义信息的同时充分利用单词丰富的边界信息,并抑制相关性低的单词。实验结果表明,所提模型与基于字符的基线模型相比,平均F1值分别提升了1.37~2.38个百分点,并在结合BERT后取得了最优的效果。 展开更多
关键词 医学命名实体识别 中文医学文本 词汇适配器 自注意力机制 双向长短期记忆网络
下载PDF
面向中文医学文本命名实体识别的神经网络模块分解分析 被引量:2
3
作者 段宇锋 贺国秀 《数据分析与知识发现》 CSCD 北大核心 2023年第2期26-37,共12页
【目的】对基于神经网络的中文医学文本命名实体识别模型进行分解,研究符号表示层和上下文编码层中基础神经网络模块功能以及多神经网络模块协同组合对实体识别性能的影响。【方法】基于CCKS2017、CCKS2019和IMCS-NER等中文医学文本命... 【目的】对基于神经网络的中文医学文本命名实体识别模型进行分解,研究符号表示层和上下文编码层中基础神经网络模块功能以及多神经网络模块协同组合对实体识别性能的影响。【方法】基于CCKS2017、CCKS2019和IMCS-NER等中文医学文本命名实体识别任务发布的基准语料,对比分析神经网络模型的符号表示层和上下文编码层采用不同神经网络模块时的性能差异。以此为基础,分别构建将多神经网络模块集成、并联、串联的实体识别模型,比较并分析其性能差异。【结果】符号表示层使用hfl/chinese-macbert-base、hfl/chinese-roberta-wwm-ext、hfl/chinese-bert-wwm-ext等预训练语言模型能显著提高识别性能,平均F1值分别达到0.8816、0.8816、0.8812;在上下文编码层融合神经网络模块能够提高识别性能。其中,基于集成的神经网络性能最优,F1值分别达到0.9330、0.8211、0.9181。【局限】实验仅基于中文医学文本语料,所得结论有待在其他语种的语料上进行验证。【结论】基础神经网络模块的类型和多神经网络模块的协同方式显著影响神经网络在中文医学文本命名实体识别任务上的表现。 展开更多
关键词 命名实体识别 神经网络 模块分解 中文医学文本
原文传递
融合多特征及协同注意力的医学命名实体识别
4
作者 刘歆宁 《计算机工程与应用》 CSCD 北大核心 2024年第6期188-198,共11页
针对当前中文医疗命名实体识别中未融合医学领域文本独有的特征信息导致实体识别准确率无法有效提升的情况,及单注意力机制影响实体分类效果的问题,提出一种基于多特征融合和协同注意力机制的中文医疗命名实体识别方法。利用预训练模型... 针对当前中文医疗命名实体识别中未融合医学领域文本独有的特征信息导致实体识别准确率无法有效提升的情况,及单注意力机制影响实体分类效果的问题,提出一种基于多特征融合和协同注意力机制的中文医疗命名实体识别方法。利用预训练模型得到原始医学文本的向量表示,再利用双向门控循环神经网络(BiGRU)获取字粒度的特征向量。结合医疗领域命名实体鲜明的部首特征,利用迭代膨胀卷积神经网络(IDCNN)提取部首级别的特征向量。使用协同注意力网络(co-attention network)整合特征向量,生成<文字-部首>对的双相关特征,再利用条件随机场(CRF)输出实体识别结果。实验结果表明,在CCKS数据集上,相较于其他的实体识别模型能取得更高的准确率、召回率和F1值,同时虽然增加了识别模型的复杂程度,但性能并没有明显的降低。 展开更多
关键词 中文医学文本 命名实体识别 多特征融合 协同注意力机制 BERT模型
下载PDF
基于多特征嵌入的中文医学命名实体识别
5
作者 黄健格 贾真 +1 位作者 张凡 李天瑞 《计算机科学》 CSCD 北大核心 2023年第6期243-250,共8页
针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充... 针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充字符的潜在词组信息;然后,根据中文的象形文字特点和文本序列特点,分别引入字符结构特征和序列结构特征,使用卷积神经网络对两种结构特征进行编码,得到radical-level词嵌入和sentence-level词嵌入;最后,将得到的多种特征嵌入进行拼接,输入长短期记忆网络编码,并使用条件随机场输出实体预测结果。将自建中文医疗数据和CHIP_2020任务提供的医疗数据作为数据集进行实验,实验结果表明,与基准模型相比,所提模型同时融合了词汇特征和文本结构特征,能够有效识别医学命名实体。 展开更多
关键词 命名实体识别 中文医学文本 词汇信息 文本结构特征 深度学习
下载PDF
基于指针标注的中文医学文本实体关系抽取研究 被引量:1
6
作者 罗文龙 王勇 《计算机科学与应用》 2022年第1期169-177,共9页
随着医学领域科学技术的不断发展,产生了大量的医学文本数据,如何从海量的非结构化数据中获取有效的信息成为医学和自然语言处理的研究热点。作为信息抽取的关键一环,实体关系抽取可以获取自然语言句子中实体对及其之间的语义关系。当... 随着医学领域科学技术的不断发展,产生了大量的医学文本数据,如何从海量的非结构化数据中获取有效的信息成为医学和自然语言处理的研究热点。作为信息抽取的关键一环,实体关系抽取可以获取自然语言句子中实体对及其之间的语义关系。当前中文医学文本的实体关系抽取方法存在词组信息缺失和关系重叠等问题,基于此,本文提出了一个Flat-Lattice-指针标注联合抽取模型。利用相对位置对词组信息进行编码,增强实体边界,并通过指针标注框架,将关系作为一种主实体到客实体的映射函数,解决了关系重叠的问题。在中文医学文本数据集上与多个基准模型进行对比,证明了该模型在中文医学文本实体关系抽取上的有效性,其准确率、召回率和F1值均高于基准模型。 展开更多
关键词 实体关系抽取 中文医学文本 关系重叠 词组信息
下载PDF
文本挖掘在中文医学疾病关系抽取中的应用
7
作者 姜智尹 程翔 《福建电脑》 2023年第8期56-58,共3页
随着新型冠状病毒在全球的爆发,人们越来越重视生命健康与用药安全。近些年,生物医学科研领域呈现快速发展趋势,形成了庞大的文本数据资源。本文聚焦于中文医学文本数据,提出了Bert-wwm编码与Casrel标注器解码相结合的抽取模型,并与原... 随着新型冠状病毒在全球的爆发,人们越来越重视生命健康与用药安全。近些年,生物医学科研领域呈现快速发展趋势,形成了庞大的文本数据资源。本文聚焦于中文医学文本数据,提出了Bert-wwm编码与Casrel标注器解码相结合的抽取模型,并与原模型进行了实验对比。结果表明,基于该模型的F1值为63.3%,与基础模型相比有了进一步的提升。 展开更多
关键词 中文医学文本挖掘 关系抽取 预训练模型 层级标注器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部