-
题名基于依存句法分析的病理报告结构化处理方法
被引量:10
- 1
-
-
作者
田驰远
陈德华
王梅
乐嘉锦
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第12期2669-2680,共12页
-
基金
上海市科技创新行动计划项目(15511106900)
上海市科技发展基金项目(16JC1400802)
+1 种基金
中央高校基本科研业务费东华大学励志计划项目(B201312)
上海市信息化发展专项资金项目(XX-XXFZ-01-14-6349)~~
-
文摘
病理检查报告中的文本通常为非结构化数据,不利于计算机自动分析和处理.目前文本结构化主要采用信息关系抽取方法,然而病理检查报告所具有的语义特殊性,给中文信息关系抽取带来了挑战.为解决上述问题,设计了一种针对病理检查报告的结构化方法,首先通过神经网络语言模型获得病理报告中的同义词表,合并一义多词现象;在此基础上,生成病理检查报告文本的依存关系树,并提出切分短句和信息标注的剪裁策略,以简化初始生成的依存关系树结构,从而使语法关系更加清晰,提高结构化结果的准确度;进而,利用依存句法分析结果从中文检查报告中提取指标及对应指标值,并自动生成结构化模板.实验采用医生真实使用的医疗病理检查报告进行验证,其结果表明:该方法在指标词和对应指标值提取任务中的准确率可以分别达到82.91%和79.11%,为相关研究打下了基础.
-
关键词
医疗数据
病理报告
依存句法分析
文本结构化处理
神经网络语言模型
-
Keywords
medical data
pathological reports
dependency parsing
text structured processing
neural network language model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-