-
题名基于协同集成学习的医疗实体标准化方法
被引量:2
- 1
-
-
作者
姜京池
侯俊屹
李雪
关毅
关昌赫
-
机构
哈尔滨工业大学物联网与泛在智能中心
哈尔滨工业大学语言技术研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2023年第3期135-142,共8页
-
基金
国家青年自然基金(NSFC62006063)
黑龙江省博士后面上自然基金(LBH-Z20015)
-
文摘
医疗实体标准化旨在将电子病历、患者主诉等文本数据中非标准化术语映射为统一且规范的医疗实体。针对医学文本普遍存在的标注语料规模小、规范化程度低等领域特点,该文提出了一种基于多模型协同的集成学习框架,用以解决医疗实体标准化问题。该框架通过建立多模型之间的“合作与竞争”模式,能够兼具字符级、语义级等不同标准化方法的优势。具体而言,运用知识蒸馏技术进行协同学习,从各模型中汲取有效特征;利用竞争意识综合各模型的实体标准化结果,保证候选集的多样性。在CHIP-CDN 2021医疗实体标准化评测任务中,该文提出的方法在盲测数据集上达到了73.985%的F_(1)值,在包括百度BDKG、蚂蚁金融Antins、思必驰AIspeech在内的255支队伍中,取得了第二名的成绩。后续实验结果进一步表明,该方法可有效对医疗文本中的术语进行标准化处理。
-
关键词
医疗实体标准化
知识蒸馏
集成学习
CHIP-CDN
2021
-
Keywords
medical entity standardization
knowledge distillation
ensemble learning
CHIP-CDN 2021
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主动学习与众包的农业知识标注体系及语料库构建
- 2
-
-
作者
姜京池
关昌赫
刘劼
关毅
柯善风
-
机构
哈尔滨工业大学物联网与泛在智能中心
哈尔滨工业大学语言技术研究中心
北大荒信息有限公司
物联网智能技术工信部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2023年第1期33-45,共13页
-
基金
2030—“新一代人工智能”重大项目(SQ2021AAA010643)
国家青年自然基金(NSFC62006063)
黑龙江省博士后自然基金(LBH-Z20015)。
-
文摘
农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系。在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系。在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础。
-
关键词
语料构建
农业知识图谱
标注体系
-
Keywords
corpus construction
agricultural knowledge graph
annotation scheme
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于知识增强的多视野表征学习辅助诊断方法
- 3
-
-
作者
王好天
李鑫
关毅
杨洋
李雪
姜京池
-
机构
哈尔滨工业大学语言技术研究中心
哈尔滨工业大学物联网与泛在智能中心
-
出处
《中文信息学报》
CSCD
北大核心
2023年第12期167-176,共10页
-
基金
科技创新2030——“新一代人工智能”重大项目(2021ZD0113302)。
-
文摘
针对辅助诊断过程中病人所患疾病不单一,多种疾病之间存在内在关联,及长病历文本特征提取较为困难等问题,该文提出一种基于知识增强的多视野表征学习方法。该方法首先使用Bi-LSTM和注意力网络、医疗知识图融合、预训练模型分别从字符视野、实体视野、文档视野提取疾病表征,并通过融合多视野信息从长病历文本中准确抽取疾病诊断相关特征。而后建模疾病间内在关联关系,基于图神经网络方法进行知识融合以增强疾病表征,并实现疾病预测。该模型利用多视野表征学习与知识增强方法,提升了疾病预测的性能,通过结果可视化为模型提供了可解释性。在华为云杯评测数据上的实验表明,该方法优于其他基线方法,消融实验验证了该方法各模块的有效性。
-
关键词
知识增强
多视野表征学习
辅助诊断
多标签分类
-
Keywords
knowledge augmentation
multi-view representation learning
auxiliary diagnosis
multi-label classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-