-
题名中文电子病历命名实体标注语料库构建
被引量:19
- 1
-
-
作者
曲春燕
关毅
杨锦锋
赵永杰
刘雅欣
-
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨医科大学附属第四医院
哈尔滨医科大学附属第二医院
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2015年第2期143-150,共8页
-
基金
国家自然科学基金(60975077)资助项目
-
文摘
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。
-
关键词
中文电子病历(cemr)
命名实体
标注语料库
标注规范
标注一致性(IAA)
-
Keywords
Chinese electronic medical record( cemr), named entity, annotated corpus, annotation specifi-cation, inter-annotator agreement (IAA)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向中文电子病历的词法语料标注研究
被引量:9
- 2
-
-
作者
蒋志鹏
赵芳芳
关毅
杨锦锋
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2014年第6期609-615,共7页
-
基金
国家自然科学基金(60975077)资助项目
-
文摘
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。
-
关键词
中文电子病历(cemr)
词性标注
标注一致性
语料差异
错误分析
-
Keywords
Chinese electronic medical record (cemr), part-of-speech tagging, annotation consistency, statistical lexical differences, error analysis
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-