期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于结构功能和实体识别的文本语义表示——以病历领域为例 被引量:5
1
作者 胡吉明 钱玮 +1 位作者 文鹏 吕晓光 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第8期110-121,共12页
【目的】融合中文病历的结构功能信息,丰富病历文本的语义内涵,提升文本表示的准确性和后续文本挖掘效果。【方法】依据中文病历结构功能特征,创新文本语义表示策略,使用BiLSTM-CRF模型实现基于结构的命名实体智能识别,在词向量层面引... 【目的】融合中文病历的结构功能信息,丰富病历文本的语义内涵,提升文本表示的准确性和后续文本挖掘效果。【方法】依据中文病历结构功能特征,创新文本语义表示策略,使用BiLSTM-CRF模型实现基于结构的命名实体智能识别,在词向量层面引入实体及结构信息,经由TextCNN模型进一步提取局部上下文特征,得到文本语义内涵更为丰富的向量表示形式。【结果】在命名实体识别实验中,基于结构的医疗实体识别精确率、召回率和F值分别达93.20%、95.19%和94.19%;在文本表示的分类验证实验中,所提病历文本表示方法的分类准确率达到92.12%。【局限】需进一步加强对更多类型文本的验证,细化结构识别过程,使所提方法更好地应用于文本挖掘工作。【结论】本文将病历结构功能信息引入病历文本表示工作,实验证明了其既能有效提高命名实体识别准确度,又能进一步丰富文本语义内涵和提升文本表示效果。 展开更多
关键词 中文病历 文本结构功能 命名实体识别 文本语义表示 BiLSTM-CRF模型
原文传递
基于自注意力机制与词汇增强的中文医学命名实体识别
2
作者 罗歆然 李天瑞 贾真 《计算机应用》 CSCD 北大核心 2024年第2期385-392,共8页
针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符... 针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符序列的上下文信息并捕捉较长距离的依赖关系;然后,对字符序列中每个字符的潜在单词信息进行字词对建模,采用自注意力机制实现不同单词之间的内部交互;最后,通过基于双线性注意力机制的词汇适配器将词汇信息集成到文本序列中的每个字符中,有效增强语义信息的同时充分利用单词丰富的边界信息,并抑制相关性低的单词。实验结果表明,所提模型与基于字符的基线模型相比,平均F1值分别提升了1.37~2.38个百分点,并在结合BERT后取得了最优的效果。 展开更多
关键词 医学命名实体识别 中文医学文本 词汇适配器 自注意力机制 双向长短期记忆网络
下载PDF
面向中文医学文本命名实体识别的神经网络模块分解分析 被引量:2
3
作者 段宇锋 贺国秀 《数据分析与知识发现》 CSCD 北大核心 2023年第2期26-37,共12页
【目的】对基于神经网络的中文医学文本命名实体识别模型进行分解,研究符号表示层和上下文编码层中基础神经网络模块功能以及多神经网络模块协同组合对实体识别性能的影响。【方法】基于CCKS2017、CCKS2019和IMCS-NER等中文医学文本命... 【目的】对基于神经网络的中文医学文本命名实体识别模型进行分解,研究符号表示层和上下文编码层中基础神经网络模块功能以及多神经网络模块协同组合对实体识别性能的影响。【方法】基于CCKS2017、CCKS2019和IMCS-NER等中文医学文本命名实体识别任务发布的基准语料,对比分析神经网络模型的符号表示层和上下文编码层采用不同神经网络模块时的性能差异。以此为基础,分别构建将多神经网络模块集成、并联、串联的实体识别模型,比较并分析其性能差异。【结果】符号表示层使用hfl/chinese-macbert-base、hfl/chinese-roberta-wwm-ext、hfl/chinese-bert-wwm-ext等预训练语言模型能显著提高识别性能,平均F1值分别达到0.8816、0.8816、0.8812;在上下文编码层融合神经网络模块能够提高识别性能。其中,基于集成的神经网络性能最优,F1值分别达到0.9330、0.8211、0.9181。【局限】实验仅基于中文医学文本语料,所得结论有待在其他语种的语料上进行验证。【结论】基础神经网络模块的类型和多神经网络模块的协同方式显著影响神经网络在中文医学文本命名实体识别任务上的表现。 展开更多
关键词 命名实体识别 神经网络 模块分解 中文医学文本
原文传递
融合多特征及协同注意力的医学命名实体识别
4
作者 刘歆宁 《计算机工程与应用》 CSCD 北大核心 2024年第6期188-198,共11页
针对当前中文医疗命名实体识别中未融合医学领域文本独有的特征信息导致实体识别准确率无法有效提升的情况,及单注意力机制影响实体分类效果的问题,提出一种基于多特征融合和协同注意力机制的中文医疗命名实体识别方法。利用预训练模型... 针对当前中文医疗命名实体识别中未融合医学领域文本独有的特征信息导致实体识别准确率无法有效提升的情况,及单注意力机制影响实体分类效果的问题,提出一种基于多特征融合和协同注意力机制的中文医疗命名实体识别方法。利用预训练模型得到原始医学文本的向量表示,再利用双向门控循环神经网络(BiGRU)获取字粒度的特征向量。结合医疗领域命名实体鲜明的部首特征,利用迭代膨胀卷积神经网络(IDCNN)提取部首级别的特征向量。使用协同注意力网络(co-attention network)整合特征向量,生成<文字-部首>对的双相关特征,再利用条件随机场(CRF)输出实体识别结果。实验结果表明,在CCKS数据集上,相较于其他的实体识别模型能取得更高的准确率、召回率和F1值,同时虽然增加了识别模型的复杂程度,但性能并没有明显的降低。 展开更多
关键词 中文医学文本 命名实体识别 多特征融合 协同注意力机制 BERT模型
下载PDF
基于中文医药文本的实体识别和图谱构建 被引量:1
5
作者 杨晔 裴雷 侯凤贞 《中国药科大学学报》 CAS CSCD 北大核心 2023年第3期363-371,共9页
知识图谱技术促进了新药研发的进展,但国内研究起点晚且领域知识多以文本形式存储,图谱重用率低。因此,本研究基于多源异构的医药文本,设计了以Bert-wwm-ext预训练模型为基础,并融合级联思想的中文命名实体识别模型,从而减少了传统单次... 知识图谱技术促进了新药研发的进展,但国内研究起点晚且领域知识多以文本形式存储,图谱重用率低。因此,本研究基于多源异构的医药文本,设计了以Bert-wwm-ext预训练模型为基础,并融合级联思想的中文命名实体识别模型,从而减少了传统单次分类的复杂度,进一步提高了文本识别的效率。实验结果显示,该模型在自建的训练语料上的F1分数达0.903,精确率达89.2%,召回率达91.5%。同时,将模型应用于公开数据集CCKS2019上,结果显示该模型能够更好地识别中文文本中的医疗实体。最后,利用此模型构建了一个中文医药知识图谱,图谱包含13530个实体,10939个属性,以及39247个相关关系。本研究所提出的中文医药实体识别与图谱构建方法,有望助力研究者加快医药知识新发现,从而缩短新药研发进程。 展开更多
关键词 中文医药文本 命名实体识别模型 Bert-wwm-ext预训练模型 级联思想 知识图谱
下载PDF
基于多特征嵌入的中文医学命名实体识别
6
作者 黄健格 贾真 +1 位作者 张凡 李天瑞 《计算机科学》 CSCD 北大核心 2023年第6期243-250,共8页
针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充... 针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充字符的潜在词组信息;然后,根据中文的象形文字特点和文本序列特点,分别引入字符结构特征和序列结构特征,使用卷积神经网络对两种结构特征进行编码,得到radical-level词嵌入和sentence-level词嵌入;最后,将得到的多种特征嵌入进行拼接,输入长短期记忆网络编码,并使用条件随机场输出实体预测结果。将自建中文医疗数据和CHIP_2020任务提供的医疗数据作为数据集进行实验,实验结果表明,与基准模型相比,所提模型同时融合了词汇特征和文本结构特征,能够有效识别医学命名实体。 展开更多
关键词 命名实体识别 中文医学文本 词汇信息 文本结构特征 深度学习
下载PDF
支持中文医疗问答的基于注意力机制的栈卷积神经网络模型 被引量:2
7
作者 滕腾 潘海为 +3 位作者 张可佳 牟雪莲 张锡明 陈伟鹏 《计算机应用》 CSCD 北大核心 2022年第4期1125-1130,共6页
当前的中文问答匹配技术大多都需要先进行分词,中文医疗文本的分词问题需要维护医学词典来缓解分词错误对后续任务影响,而维护词典需要大量人力和知识,致使分词问题一直具有极大的挑战性。同时,现有的中文医疗问答匹配方法都是对问题和... 当前的中文问答匹配技术大多都需要先进行分词,中文医疗文本的分词问题需要维护医学词典来缓解分词错误对后续任务影响,而维护词典需要大量人力和知识,致使分词问题一直具有极大的挑战性。同时,现有的中文医疗问答匹配方法都是对问题和答案分开建模,并未考虑问题和答案中各自包含的关键词汇间的关联关系。因此,提出了一种基于注意力机制的栈卷积神经网络(Att-StackCNN)模型来解决中文医疗问答匹配问题。首先,使用字嵌入对问题和答案进行编码以得到二者各自的字嵌入矩阵;然后,通过利用问题和答案的字嵌入矩阵构造注意力矩阵来得到二者各自的特征注意力映射矩阵;接着,利用栈卷积神经网络(Stack-CNN)模型同时对上述矩阵进行卷积操作,从而得到问题和答案各自的语义表示;最后,进行相似度计算,并利用相似度计算最大边际损失以更新网络参数。所提模型在cMedQA数据集上的Top-1正确率比Stack-CNN模型高接近1个百分点,比Multi-CNNs模型高接近0.5个百分点。实验结果表明,Att-StackCNN模型可以提升中文医疗问答匹配效果。 展开更多
关键词 字嵌入 注意力 栈卷积神经网络 中文医疗文本 问答匹配
下载PDF
医古文课程思政教育与能力培养的探索与实践 被引量:2
8
作者 傅海燕 于恒 +3 位作者 战佳阳 胡秋实 陈子殊睿 赵鸿君 《辽宁中医药大学学报》 CAS 2023年第2期1-4,共4页
医古文是中医药类的专业基础课,是对学生进行德育与人文素质教育的重要课程。课程以立德树人为本,从《大医精诚》及文选的字里行间蕴藏的古代医家高尚品德、仁爱精神、强烈的责任感及勤奋刻苦的学习态度等内容教育学生,为学生树立“大... 医古文是中医药类的专业基础课,是对学生进行德育与人文素质教育的重要课程。课程以立德树人为本,从《大医精诚》及文选的字里行间蕴藏的古代医家高尚品德、仁爱精神、强烈的责任感及勤奋刻苦的学习态度等内容教育学生,为学生树立“大医精诚”的榜样。坚持知识能力和素质的有机结合,在掌握古汉语字词、语法等知识的基础上,注重培养阅读分析与利用中医药古籍的综合能力,同时设立“医古文阅读理解等级考试”,进一步提升学生的古医籍阅读分析与利用的能力。 展开更多
关键词 医古文 课程思政 阅读分析能力 等级考试
下载PDF
CHIP 2020评测任务2概述:中文医学文本实体关系抽取 被引量:4
9
作者 甘子发 昝红英 +5 位作者 关同峰 李雯昕 张欢 朱田恬 穗志方 陈清财 《中文信息学报》 CSCD 北大核心 2022年第6期101-108,共8页
第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关... 第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关系三元组。共有174支队伍参加了评测任务,最终17支队伍提交了42组结果,该任务以微平均F_(1)值为最终评估标准,提交结果中F_(1)最高值达0.6486。 展开更多
关键词 实体关系抽取 中文医学文本处理 信息抽取
下载PDF
文本挖掘在中文医学疾病关系抽取中的应用
10
作者 姜智尹 程翔 《福建电脑》 2023年第8期56-58,共3页
随着新型冠状病毒在全球的爆发,人们越来越重视生命健康与用药安全。近些年,生物医学科研领域呈现快速发展趋势,形成了庞大的文本数据资源。本文聚焦于中文医学文本数据,提出了Bert-wwm编码与Casrel标注器解码相结合的抽取模型,并与原... 随着新型冠状病毒在全球的爆发,人们越来越重视生命健康与用药安全。近些年,生物医学科研领域呈现快速发展趋势,形成了庞大的文本数据资源。本文聚焦于中文医学文本数据,提出了Bert-wwm编码与Casrel标注器解码相结合的抽取模型,并与原模型进行了实验对比。结果表明,基于该模型的F1值为63.3%,与基础模型相比有了进一步的提升。 展开更多
关键词 中文医学文本挖掘 关系抽取 预训练模型 层级标注器
下载PDF
基于Vocab-GCN的中文医疗文本分类方法
11
作者 杜永兴 孙彤彤 +3 位作者 周李涌 李灵芳 李宝山 弓彦章 《传感器与微系统》 CSCD 北大核心 2023年第8期152-156,共5页
提出一种应用于中文医疗文本分类的基于词汇级的图卷积神经网络(Vocab-GCN)模型。该模型不仅可以直接对医学文本关系图进行学习,在图嵌入中保存关系图的全局结构信息,得到含有语义网络的深层病理关系,而且仅依靠两层卷积神经网络(CNN)... 提出一种应用于中文医疗文本分类的基于词汇级的图卷积神经网络(Vocab-GCN)模型。该模型不仅可以直接对医学文本关系图进行学习,在图嵌入中保存关系图的全局结构信息,得到含有语义网络的深层病理关系,而且仅依靠两层卷积神经网络(CNN)就展现出了良好的学习优势。实验结果表明:基于Vocab-GCN的中文医疗文本分类方法相比于最优的深度学习方法提高了6.17%的分类准确率,适用于患者初步对疾病类型做出诊断。 展开更多
关键词 图卷积神经网络 深度学习 中文医疗文本分类 疾病诊断
下载PDF
面向知识发现的中文电子病历标注方法研究 被引量:12
12
作者 胡佳慧 方安 +2 位作者 赵琬清 杨晨柳 任慧玲 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第7期123-132,共10页
【目的】研究基于中文电子病历的标注方法,提升临床文本分析与处理能力,促进临床知识发现。【方法】提出中文电子病历标注思路,并构建可视化交互平台,基于电子病历文本的字与词特征,综合利用自然语言处理和机器学习方法开展临床命名实... 【目的】研究基于中文电子病历的标注方法,提升临床文本分析与处理能力,促进临床知识发现。【方法】提出中文电子病历标注思路,并构建可视化交互平台,基于电子病历文本的字与词特征,综合利用自然语言处理和机器学习方法开展临床命名实体识别实证研究。【结果】获得700份标注病历语料,基于Pipeline的标注方法总体F值达0.8772,较基于原始标注病历数据集的命名实体识别效果提升32.9%。【局限】由于电子病历包含与隐私相关的敏感信息,本研究基于开放评测数据开展实验研究,语料库大小受限。【结论】本研究所提出的中文电子病历标注方法和所构建的标注平台适用于临床文本处理,能够促进医学临床文本资源的知识关联化。 展开更多
关键词 中文电子病历 文本标注 自然语言处理 机器学习 知识发现
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部