摘要
针对现有机器阅读理解模型存在长答案不完整、短答案冗余,即模型对答案的边界信息捕捉能力有待提升问题,该文基于“问题分类+答案预测联合学习”的流水线式策略,提出了一种通过答案长短特征分类指导机器阅读理解的神经网络模型。该方法采用预训练语言模型对问题和文章进行语义表示,并以待预测答案的长短类型对相应问题进行分类,然后将问题分类的结果用于指导阅读理解中的答案预测模块,最终以多任务学习的方式得到全部答案的开始位置和结束位置。实验结果表明,该模型在CMRC2018数据集上的EM平均值为67.4%,F1平均值为87.6%,相比基线模型,分别提升了0.9%和1.1%。在自建的中文桥梁检测问答数据集上的EM平均值为89.4%、F1平均值为94.7%,相比基线模型,分别提升了1.2%和0.5%。在更少训练集规模的CMRC2018和中文繁体数据集DRCD上,该文方法也优于基线模型。
Existing machine reading comprehension models are defected in capturing the boundary information of the answer,leading to incomplete long answers and redundant short answers.This paper proposes a strategy to guide the machine reading comprehension through classification of answer length features.With the question and the document encoded by RoBERTa_wwm_ext pre-trained model,the questions are classified according to the predicted length of the answer.The result of the question classification is used to guide the answer prediction module in reading comprehension,where the beginning and end positions of all answers are finally obtained in the way of multitask learning.Compared with the baseline models,the experimental results on the CMRC2018 dataset,the self-built Chinese bridge inspection question and answer dataset and the traditional Chinese data set DRCD all confirm the superior performance of the proposed method according to either EM value or F value.
作者
杨建喜
向芳悦
李韧
李东
蒋仕新
张露伊
肖桥
YANG Jianxi;XIANG Fangyue;LI Ren;LI Dong;JIANG Shixin;ZHANG Luyi;XIAO Qiao(School of Information Science and Engineering,Chongqing Jiaotong University,Chongqing 400074,China)
出处
《中文信息学报》
CSCD
北大核心
2023年第5期112-121,共10页
Journal of Chinese Information Processing
基金
国家自然科学基金(62003063)
重庆市自然科学基金(cstc2020jcyj-msxmX0047)
重庆市教委科学技术研究项目(KJZD-M202000702,KJQN202000726)
重庆交通大学研究生科研创新项目(2021yjkc002)。