【目的】调研和梳理相关文献,总结多文档摘要研究框架和主流模型。【文献范围】以“Multi-Document Summarization”、“多文档摘要”为检索词,分别在AI Open Index、Paper with Code和CNKI数据库中进行检索,共筛选出76篇文献。【方法...【目的】调研和梳理相关文献,总结多文档摘要研究框架和主流模型。【文献范围】以“Multi-Document Summarization”、“多文档摘要”为检索词,分别在AI Open Index、Paper with Code和CNKI数据库中进行检索,共筛选出76篇文献。【方法】归纳多文档摘要技术实现的主流框架,依据关键技术对近年最新模型和算法进行分类概述,并对未来研究提出展望。【结果】对比阐述了多文档摘要最新模型与传统方法的优缺点,并对高质量多文档摘要数据集、现阶段评价指标进行总结。【局限】在实验结果对比部分,只讨论了Multi-News等数据集上部分应用较为广泛模型的评估结果,缺乏全部模型在同一数据集上的实验结果对比。【结论】多文档摘要任务仍存在很多亟待解决的问题,如生成摘要的事实性不高、摘要模型的通用性差等。展开更多
信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing,NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容...信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing,NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容,帮助用户快速获取关键信息.针对目前多文档摘要中存在的信息不全面、冗余度高的问题,提出一种基于多粒度语义交互的抽取式摘要方法,将多粒度语义交互网络与最大边界相关法(maximal marginal relevance,MMR)相结合,通过不同粒度的语义交互训练句子的表示,捕获不同粒度的关键信息,从而保证摘要信息的全面性;同时结合改进的MMR以保证摘要信息的低冗余度,通过排序学习为输入的多篇文档中的各个句子打分并完成摘要句的抽取.在Multi-News数据集上的实验结果表明基于多粒度语义交互的抽取式多文档摘要模型优于LexRank、TextRank等基准模型.展开更多
当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法...当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法。该方法首先构建单调亚模(Submodular)目标函数;然后,通过训练PV-DM模型得到句子向量计算句子间的语义相似度,进而求解单调亚模目标函数;最后,利用优化算法抽取句子生成摘要。在标准数据集Opinosis上的实验结果表明该方法优于当前主流的多文档摘要方法。展开更多
文摘【目的】调研和梳理相关文献,总结多文档摘要研究框架和主流模型。【文献范围】以“Multi-Document Summarization”、“多文档摘要”为检索词,分别在AI Open Index、Paper with Code和CNKI数据库中进行检索,共筛选出76篇文献。【方法】归纳多文档摘要技术实现的主流框架,依据关键技术对近年最新模型和算法进行分类概述,并对未来研究提出展望。【结果】对比阐述了多文档摘要最新模型与传统方法的优缺点,并对高质量多文档摘要数据集、现阶段评价指标进行总结。【局限】在实验结果对比部分,只讨论了Multi-News等数据集上部分应用较为广泛模型的评估结果,缺乏全部模型在同一数据集上的实验结果对比。【结论】多文档摘要任务仍存在很多亟待解决的问题,如生成摘要的事实性不高、摘要模型的通用性差等。
文摘信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing,NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容,帮助用户快速获取关键信息.针对目前多文档摘要中存在的信息不全面、冗余度高的问题,提出一种基于多粒度语义交互的抽取式摘要方法,将多粒度语义交互网络与最大边界相关法(maximal marginal relevance,MMR)相结合,通过不同粒度的语义交互训练句子的表示,捕获不同粒度的关键信息,从而保证摘要信息的全面性;同时结合改进的MMR以保证摘要信息的低冗余度,通过排序学习为输入的多篇文档中的各个句子打分并完成摘要句的抽取.在Multi-News数据集上的实验结果表明基于多粒度语义交互的抽取式多文档摘要模型优于LexRank、TextRank等基准模型.
文摘当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法。该方法首先构建单调亚模(Submodular)目标函数;然后,通过训练PV-DM模型得到句子向量计算句子间的语义相似度,进而求解单调亚模目标函数;最后,利用优化算法抽取句子生成摘要。在标准数据集Opinosis上的实验结果表明该方法优于当前主流的多文档摘要方法。