-
题名中文常见医疗问题命名实体识别研究
- 1
-
-
作者
赵瑛
任燕春
王铁
许丹彤
-
机构
内蒙古科技大学信息工程学院
-
出处
《现代电子技术》
2022年第16期121-126,共6页
-
基金
国家自然科学基金项目(81460279)
国家自然科学基金项目(61841204)
+4 种基金
内蒙古自治区自然科学基金(2018LH08066)
内蒙古自治区自然科学基金(2015MS0604)
内蒙古自治区高等学校科学研究项目(NJZY145)
包头市科技计划项目(2015C2006⁃14
2017C1002)。
-
文摘
为了达到提高中文常见医疗问题命名实体识别的效果,并为医疗领域知识图谱及其知识搜索奠定基础的目的,文中借助BiLSTM⁃CRF模型在解决序列问题时的优越性和BERT模型的强大表义能力,将BERT集成到BiLSTM⁃CRF中组成BERT⁃BiLSTM⁃CRF模型。该模型通过引入BERT提取文本全局特征和局部特征,从而生成表义更加丰富的字向量,同时还具备BiLSTM网络捕获上下文语义信息和CRF标注偏置纠错的能力。鉴于目前缺少该领域的标注语料,该研究采用人工方式构建标注语料库。实验结果表明:BERT⁃BiLSTM⁃CRF模型的医疗实体识别效果优于传统的BiLSTM⁃CRF模型;且该模型在基于BIOE标注方案下实体识别效果较好,F1值达到97%;从类别上看,疾病类、症状类、检查类F1值达到99%,药物类达到92%。总体而言,中文常见医疗问题在基于BERT⁃BiLSTM⁃CRF模型并采用BIOE标注方案下实体识别效果最好,其中疾病类、症状类、检查类的实体识别效果较好。
-
关键词
中文常见医疗问题
命名实体识别
BERT⁃BiLSTM⁃CRF模型
特征提取
语义信息
标注偏置纠错
-
Keywords
Chinese common medical problem
named entity recognition
BERT⁃BiLSTM⁃CRF model
feature extraction
semantic information
annotation offset error correction
-
分类号
TN911-34
[电子电信—通信与信息系统]
TP311
[电子电信—信息与通信工程]
-