摘要
医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标注方法费力费时,已难以适应大数据发展的需求。该文以构建中文医学知识图谱的任务为驱动,构建了半自动化实体及关系标注平台。该平台融合多种算法,能够实现文本预标注、进度控制、质量把控和数据分析等多种功能。利用该平台,进行了医学知识图谱中实体和关系标注,结果表明该平台能够在文本资源建设中控制标注过程,保证标注质量,提高标注效率。同时该平台也被应用于其他文本标注任务,表明该平台具有较好的任务移植性。
The medical text is an important data foundation for the implementation of intelligent healthcare.As a kind of semi-structured or unstructured data,the medical text needs to be labeled for entity and entity relationships,paving the way for text structuring,named entity recognition,and automatic relationship extraction.Aimed at constructing the Chinese medical knowledge graph,a semi-automated entity and relationship labeling platform is designed to integrate multiple algorithms for pre-labeling,schedule control,quality control and data analysis.Based on this platform,the medical knowledge graph entity and relationship labeling are carried out.The results show that the labeling platform can control the labeling process in the construction of text resources,ensure the labeling quality,and improve the labeling efficiency.
作者
张坤丽
赵旭
关同峰
尚柏羽
李羽蒙
昝红英
ZHANG Kunli;ZHAO Xu;GUAN Tongfeng;SHANG Baiyu;LI Yumeng;ZAN Hongying(School of Information Engineering,Zhengzhou University,Zhengzhou,Henan 450001,China;The PengCheng Laboratory,Shenzhen,Guangdong 518055,China)
出处
《中文信息学报》
CSCD
北大核心
2020年第6期36-44,共9页
Journal of Chinese Information Processing
基金
国家重点研发计划(2017YFB1002101)
国家社会科学基金(18ZDA315)
中国博士后科学基金(2019TQ0286)
河南省科技攻关项目(192102210260)
河南省医学科技攻关计划省部共建项目(SB201901021)
河南省高等学校重点科研项目(19A520003,20A520038)
关键词
文本标注
标注平台
实体标注
关系标注
数据分析
text annotation
labeling platform
entity annotation
relationship annotation
data analysis