-
题名基于多特征嵌入的中文医学命名实体识别
- 1
-
-
作者
黄健格
贾真
张凡
李天瑞
-
机构
西南交通大学计算机与人工智能学院
四川省制造业产业链协同与信息化支撑技术重点实验室
综合交通大数据应用技术国家工程实验室
-
出处
《计算机科学》
CSCD
北大核心
2023年第6期243-250,共8页
-
基金
国家自然科学基金(62176221)。
-
文摘
针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充字符的潜在词组信息;然后,根据中文的象形文字特点和文本序列特点,分别引入字符结构特征和序列结构特征,使用卷积神经网络对两种结构特征进行编码,得到radical-level词嵌入和sentence-level词嵌入;最后,将得到的多种特征嵌入进行拼接,输入长短期记忆网络编码,并使用条件随机场输出实体预测结果。将自建中文医疗数据和CHIP_2020任务提供的医疗数据作为数据集进行实验,实验结果表明,与基准模型相比,所提模型同时融合了词汇特征和文本结构特征,能够有效识别医学命名实体。
-
关键词
命名实体识别
中文医学文本
词汇信息
文本结构特征
深度学习
-
Keywords
Named entity recognition
Chinese medical text
Lexical information
Text structure features
Deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-