期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
基于LDA重要主题的多文档自动摘要算法 被引量:11
1
作者 刘娜 路莹 +1 位作者 唐晓君 李明霞 《计算机科学与探索》 CSCD 北大核心 2015年第2期242-248,共7页
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建... 提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。 展开更多
关键词 文档摘要 主题模型 重要主题
下载PDF
面向地震应急响应的互联网信息处理 被引量:9
2
作者 宋建功 王之欣 +3 位作者 李勤勇 李雅婷 马世龙 吕江花 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2017年第6期1155-1164,共10页
近年来国内外地震灾害给人类的生命财产造成了巨大损失。海量的互联网地震灾情信息可为应急响应和及时救援提供决策支持的依据,因此互联网灾情信息高效快速处理需求迫切。针对地震互联网灾情信息处理的研究,定义了地震事件模型、网页对... 近年来国内外地震灾害给人类的生命财产造成了巨大损失。海量的互联网地震灾情信息可为应急响应和及时救援提供决策支持的依据,因此互联网灾情信息高效快速处理需求迫切。针对地震互联网灾情信息处理的研究,定义了地震事件模型、网页对象模型等,用极限方法定义Web信息收敛性,刻画了互联网灾情信息传播特点。根据灾情信息时效性特点,提出了一种支持动态收敛性的Web信息抽取算法,完成互联网灾情信息提取。提出一种针对灾害信息随时间的变化进行时序统计的方法,形成信息统计报告,为制定救援决策提供依据。设计并实现了面向地震应急响应的互联网信息智能处理系统,并进行了工程实践验证。 展开更多
关键词 地震灾害 应急响应 信息提取 数据清洗 文档摘要
下载PDF
基于潜在狄利克雷分布模型的多文档情感摘要 被引量:9
3
作者 荀静 刘培玉 +1 位作者 杨玉珍 张艳辉 《计算机应用》 CSCD 北大核心 2014年第6期1636-1640,共5页
针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重... 针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重要度和句子的特征计算句子的权重;最终提取情感文摘。实验结果表明,该方法能够有效地识别情感关键句,在准确率、召回率和F值上均有不错的效果。 展开更多
关键词 潜在狄利克雷分布模型 主观句子 情感分析 文档摘要
下载PDF
基于混合机器学习模型的多文档自动摘要 被引量:8
4
作者 唐晓波 翟夏普 《情报理论与实践》 CSSCI 北大核心 2019年第2期145-150,共6页
[目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中... [目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中文文本的多文档自动摘要混合模型,并对该模型所包含的句子向量化、分类器分类、句群划分和句子重组四个部分做了详细说明。该混合模型在摘要提取的过程不仅考虑了句子的形式特征,还融合了句子的深层语义,最后采用基于改进的PageRank算法对摘要句进行重组。[结果/结论]当摘要句为30时,该模型的ROUGE-1得分平均值为0.2074,明显高于TextRank (0.0728)和基于聚类的算法(0.1074)。实验结果表明该模型在多主题的中文长文本上是有效的。[局限]由于中文语料的限制,本实验的数据量相对较小,模型的适应能力未在大数据集上验证。 展开更多
关键词 混合机器学习 文档摘要 语义结构模型 信息抽取
原文传递
结合LDA和谱聚类的多文档摘要 被引量:8
5
作者 付玲 张晖 《计算机工程与应用》 CSCD 2013年第16期142-145,154,共5页
自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(Latent Dirichlet Allocation)的基础上,使用Gibbs抽样估计主题在单词上的概率... 自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(Latent Dirichlet Allocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档摘要。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档摘要。使用ROUGE自动摘要评测工具包对DUC2002数据集评测摘要质量,结果表明,该方法能有效地提高摘要的质量。 展开更多
关键词 LATENT DIRICHLET Allocation (LDA) GIBBS抽样 谱聚类 文档摘要
下载PDF
引入主题节点的异构图舆情摘要方法
6
作者 宝日彤 曾淼瑞 孙海春 《科学技术与工程》 北大核心 2024年第23期9965-9972,共8页
微博等社交软件承载着网民对社会舆论事件的不同观点,如何在海量主题评论中识别出有价值的信息已经成为重要课题。提出了一种基于异构图的舆情摘要方法,有效提取热点事件的主流观点,便于引导化解互联网舆情危机。针对多文档摘要任务中... 微博等社交软件承载着网民对社会舆论事件的不同观点,如何在海量主题评论中识别出有价值的信息已经成为重要课题。提出了一种基于异构图的舆情摘要方法,有效提取热点事件的主流观点,便于引导化解互联网舆情危机。针对多文档摘要任务中难以捕捉跨文档语义关系的难点问题,将主题节点引入评论句子图从而挖掘出输入文档间的潜在语义关联。具体地,抽取评论的主题并构建包含主题节点的异构图模型,利用图注意力机制进行不同粒度节点语义信息的交互,最后结合最大边界相关算法进行候选摘要句子的抽取。实验结果显示,改进模型在英文通用Multi-News数据集上Rouge1、Rouge2、,RougeL分数分别提升了0.46%、0.46%、0.48%;与已有Textrank、Sumpip等热点模型对比,在自制微博评论数据集上该模型性能达到最好。 展开更多
关键词 文档摘要 舆情摘要 主题节点 图注意力机制 微博评论摘要
下载PDF
多文档摘要研究综述
7
作者 宝日彤 孙海春 《数据分析与知识发现》 EI CSCD 北大核心 2024年第2期17-32,共16页
【目的】调研和梳理相关文献,总结多文档摘要研究框架和主流模型。【文献范围】以“Multi-Document Summarization”、“多文档摘要”为检索词,分别在AI Open Index、Paper with Code和CNKI数据库中进行检索,共筛选出76篇文献。【方法... 【目的】调研和梳理相关文献,总结多文档摘要研究框架和主流模型。【文献范围】以“Multi-Document Summarization”、“多文档摘要”为检索词,分别在AI Open Index、Paper with Code和CNKI数据库中进行检索,共筛选出76篇文献。【方法】归纳多文档摘要技术实现的主流框架,依据关键技术对近年最新模型和算法进行分类概述,并对未来研究提出展望。【结果】对比阐述了多文档摘要最新模型与传统方法的优缺点,并对高质量多文档摘要数据集、现阶段评价指标进行总结。【局限】在实验结果对比部分,只讨论了Multi-News等数据集上部分应用较为广泛模型的评估结果,缺乏全部模型在同一数据集上的实验结果对比。【结论】多文档摘要任务仍存在很多亟待解决的问题,如生成摘要的事实性不高、摘要模型的通用性差等。 展开更多
关键词 文档摘要 文本摘要 内容选择 Transformer模型 预训练模型
原文传递
基于事件指导的多文档生成式摘要方法 被引量:6
8
作者 王振超 孙锐 姬东鸿 《计算机应用研究》 CSCD 北大核心 2017年第2期343-346,356,共5页
建立在理解篇章语义基础之上的生成式摘要,在思想上相对于抽取式摘要更加合理,但在具体实现上却面临语义理解、自然语言生成等难题。提出了一种以事件作为基本语义单元的生成式摘要方法,通过对事件聚类反映篇章的主题分布,并利用事件指... 建立在理解篇章语义基础之上的生成式摘要,在思想上相对于抽取式摘要更加合理,但在具体实现上却面临语义理解、自然语言生成等难题。提出了一种以事件作为基本语义单元的生成式摘要方法,通过对事件聚类反映篇章的主题分布,并利用事件指导多语句压缩生成自然语句构建摘要。通过在DUC标准数据集上进行评测,最终的ROUGE得分媲美目前主流的生成式方法,从而说明事件能够很好地承载篇章的主干信息,同时有效地指导多语句压缩过程中冗余信息的去除和自然语言的生成。 展开更多
关键词 事件 生成式 组合语义 子主题 语句压缩 文档摘要
下载PDF
基于协同图排序的对比新闻自动摘要 被引量:4
9
作者 黄小江 万小军 肖建国 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期31-38,共8页
采用协同图排序模型,为两个可比的新闻话题自动生成对比摘要。利用一个话题内句子之间的相似性,以及不同话题中句子之间的对比性,采用迭代增强的方法,同时计算两个话题中每个句子的重要程度,并考虑信息的新颖程度,选择适当的句子组成对... 采用协同图排序模型,为两个可比的新闻话题自动生成对比摘要。利用一个话题内句子之间的相似性,以及不同话题中句子之间的对比性,采用迭代增强的方法,同时计算两个话题中每个句子的重要程度,并考虑信息的新颖程度,选择适当的句子组成对比摘要。实验结果表明了该方法的有效性。 展开更多
关键词 对比新闻摘要 对比文本挖掘 文档摘要 图排序
下载PDF
基于布谷鸟搜索优化算法的多文档摘要方法 被引量:4
10
作者 周诗源 王英林 《计算机工程》 CAS CSCD 北大核心 2020年第7期58-64,71,共8页
为最大化生成摘要的信息量,提出一种基于布谷鸟搜索(CS)算法与多目标函数的多文档摘要方法。对多文档数据进行预处理,通过句子分割、分词、移除停用词和词干化将文档转化为词语的基本处理形式,计算经数据预处理后的句子信息量得分并将... 为最大化生成摘要的信息量,提出一种基于布谷鸟搜索(CS)算法与多目标函数的多文档摘要方法。对多文档数据进行预处理,通过句子分割、分词、移除停用词和词干化将文档转化为词语的基本处理形式,计算经数据预处理后的句子信息量得分并将其作为CS算法的输入,再基于多目标函数生成包含原始文档重要信息的句子以组成最终的摘要。实验结果表明,与基于粒子群优化算法和双层K最近邻算法的多文档摘要方法相比,该方法在最大化生成摘要信息量的前提下,保证了高可读性和低冗余性,并且在DUC基准数据集上的摘要平均准确度高达0.99。 展开更多
关键词 文档摘要 布谷鸟搜索算法 数据预处理 目标函数 信息量
下载PDF
基于谱聚类的多文档摘要新方法 被引量:4
11
作者 林立 胡侠 朱俊彦 《计算机工程》 CAS CSCD 北大核心 2010年第22期64-65,68,共3页
提出一种基于谱聚类的多文档摘要方法。在将文档中主题相关的句子进行聚类的基础上,同时考虑不同主题类别的重要性,综合句子位置、长度等因素以得到句子的重要性得分。根据重要性从高到低抽取满足字数要求的句子作为最终摘要。实验结果... 提出一种基于谱聚类的多文档摘要方法。在将文档中主题相关的句子进行聚类的基础上,同时考虑不同主题类别的重要性,综合句子位置、长度等因素以得到句子的重要性得分。根据重要性从高到低抽取满足字数要求的句子作为最终摘要。实验结果表明,该方法相较于传统摘要方法有更好的性能,能够有效地提高摘要的质量。 展开更多
关键词 文档摘要 谱聚类 信息检索
下载PDF
一种集成框架下的分布式多文档自动摘要方法 被引量:3
12
作者 罗毅辉 熊曙初 《情报杂志》 CSSCI 北大核心 2013年第11期133-136,132,共5页
提出一种集成框架下的分布式多文档自动摘要方法,该方法克服了现有集中式多文档摘要集成方法的缺陷,能够对分布在不同网络节点上的文档摘要系统的文本摘要结果进行集成,更适合因特网环境下的多文档摘要任务。实验结果表明,该方法相对于... 提出一种集成框架下的分布式多文档自动摘要方法,该方法克服了现有集中式多文档摘要集成方法的缺陷,能够对分布在不同网络节点上的文档摘要系统的文本摘要结果进行集成,更适合因特网环境下的多文档摘要任务。实验结果表明,该方法相对于传统摘要方法有更好的性能,能够有效地提高文本摘要的质量,与集中式多文档摘要集成方法性能相当。 展开更多
关键词 文档摘要 集成方法 分布式 0-1整数规划
下载PDF
基于仿射传播算法的多文档摘要方法 被引量:3
13
作者 刘晓燕 黄宇 尤红建 《国外电子测量技术》 2014年第8期29-33,共5页
大多现行的基于聚类的多文档摘要方法存在对聚类算法初始设置敏感的问题。针对上述问题,提出了一种基于仿射传播(affinity propagation,AP)算法的中文多文档摘要方法。AP算法无需选择聚类初始点,在迭代的过程中自动确定聚类中心与聚类... 大多现行的基于聚类的多文档摘要方法存在对聚类算法初始设置敏感的问题。针对上述问题,提出了一种基于仿射传播(affinity propagation,AP)算法的中文多文档摘要方法。AP算法无需选择聚类初始点,在迭代的过程中自动确定聚类中心与聚类个数。解决了余弦相似矩阵与AP算法输入不匹配的问题。使用类MMR算法对类内中心句进行排序并按压缩比抽取句子,对抽取句子并排序最终生成摘要。基于中文语料的实验表明,该方法生成的摘要具有较高的信息覆盖率。 展开更多
关键词 AP算法 文档摘要 自动文摘 信息获取
下载PDF
基于多粒度语义交互的抽取式多文档摘要 被引量:1
14
作者 田媛 郝文宁 +2 位作者 陈刚 靳大尉 邹傲 《计算机系统应用》 2022年第7期186-193,共8页
信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing,NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容... 信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing,NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容,帮助用户快速获取关键信息.针对目前多文档摘要中存在的信息不全面、冗余度高的问题,提出一种基于多粒度语义交互的抽取式摘要方法,将多粒度语义交互网络与最大边界相关法(maximal marginal relevance,MMR)相结合,通过不同粒度的语义交互训练句子的表示,捕获不同粒度的关键信息,从而保证摘要信息的全面性;同时结合改进的MMR以保证摘要信息的低冗余度,通过排序学习为输入的多篇文档中的各个句子打分并完成摘要句的抽取.在Multi-News数据集上的实验结果表明基于多粒度语义交互的抽取式多文档摘要模型优于LexRank、TextRank等基准模型. 展开更多
关键词 文档摘要 抽取式 粒度语义交互 MMR 排序学习
下载PDF
一种面向实体的演化式多文档摘要生成方法 被引量:2
15
作者 宋俊 韩啸宇 +2 位作者 黄宇 黄廷磊 付琨 《广西师范大学学报(自然科学版)》 CAS 北大核心 2015年第2期36-41,共6页
本文针对多文档摘要没有考虑实体、仅仅生成通用摘要的问题,提出面向实体的演化式多文档摘要生成方法。本文首先利用一个概率主题模型联合建模文档主题的演化和实体的参与情况,然后结合实体对句子进行评分和选择,针对不同的实体,同一个... 本文针对多文档摘要没有考虑实体、仅仅生成通用摘要的问题,提出面向实体的演化式多文档摘要生成方法。本文首先利用一个概率主题模型联合建模文档主题的演化和实体的参与情况,然后结合实体对句子进行评分和选择,针对不同的实体,同一个句子可能获得不同的评分。此外,本文在真实数据集上进行了大量的实验和分析,实验结果表明,该方法可以面向不同的实体生成关于事件发展的个性化摘要,同时与现有方法相比,该方法还得到了更好的通用摘要。 展开更多
关键词 文档摘要 概率主题模型 自然语言处理
下载PDF
利用维基百科实体增强基于图的多文档摘要 被引量:2
16
作者 陈维政 严睿 +1 位作者 闫宏飞 李晓明 《中文信息学报》 CSCD 北大核心 2016年第2期153-159,共7页
针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivR... 针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivRank算法对文档集合和背景知识中的句子一起排序,最后根据两次排序结果的线性组合确定文档句子的最终排序以进行摘要句的选取。在DUC2005数据集上的评测结果表明该方法可以有效利用维基百科知识增强摘要的质量。 展开更多
关键词 文档摘要 维基实体 基于图
下载PDF
融合多信息句子图模型的多文档摘要抽取 被引量:2
17
作者 蒋亚芳 严馨 +2 位作者 徐广义 周枫 邓忠莹 《计算机工程与科学》 CSCD 北大核心 2020年第3期535-542,共8页
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和... 针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。 展开更多
关键词 文档摘要 句子贝叶斯主题模型 词向量 句子图模型 最小支配集
下载PDF
基于条件熵和上下文邻近度的句子排序研究 被引量:2
18
作者 薛涛 王恒 《计算机应用研究》 CSCD 北大核心 2017年第9期2680-2684,共5页
句子排序是多文档摘要系统中重要的任务之一,排序的质量将直接影响摘要的连贯性与可读性。当前基于时间的句子排序算法过度依赖文档的时间标签,通用性较差;基于大型语料库的句子排序算法训练过于复杂,排序质量不高。对此,提出一种基于... 句子排序是多文档摘要系统中重要的任务之一,排序的质量将直接影响摘要的连贯性与可读性。当前基于时间的句子排序算法过度依赖文档的时间标签,通用性较差;基于大型语料库的句子排序算法训练过于复杂,排序质量不高。对此,提出一种基于主题文档集合的排序算法,其目的是解决不含时间标签的摘要句子排序问题。算法利用条件熵和上下文邻近度算法从源文档集合中学习句子对的关联程度与承接关系,并利用最大权值删减排序算法形成最终的排序结果。该方法只依赖于摘要句子的源文档集合,具有较强的领域通用性。实验结果表明,在现有的句子排序策略中,此方法较优。 展开更多
关键词 条件熵邻近度 上下文邻近度 最大权值删减排序 文档摘要
下载PDF
基于主题的网络论坛知识转换研究 被引量:1
19
作者 王力 耿爱静 《情报科学》 CSSCI 北大核心 2005年第10期1505-1508,共4页
本文采用现有的中文自动标引与文档自动摘要的技术,将主题讨论区中的内容,通过网络技术自动汇总成常见问答集(Frequently Asked Questions)的知识形式,辅助版主能有效率地将主题讨论区中的知识分享给所有的成员使用。本文通过自动摘要... 本文采用现有的中文自动标引与文档自动摘要的技术,将主题讨论区中的内容,通过网络技术自动汇总成常见问答集(Frequently Asked Questions)的知识形式,辅助版主能有效率地将主题讨论区中的知识分享给所有的成员使用。本文通过自动摘要文献的探讨,提出一个FAQ知识转换的概念模式。以混合式自动标引法作为中文关键词抽取的工具并结合相似度计算,将文章整理成FAQ摘要的形式。 展开更多
关键词 文档摘要 信息检索 知识管理
下载PDF
基于PV-DM模型的多文档摘要方法 被引量:2
20
作者 刘欣 王波 毛二松 《计算机应用与软件》 CSCD 2016年第10期251-255,278,共6页
当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法... 当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法。该方法首先构建单调亚模(Submodular)目标函数;然后,通过训练PV-DM模型得到句子向量计算句子间的语义相似度,进而求解单调亚模目标函数;最后,利用优化算法抽取句子生成摘要。在标准数据集Opinosis上的实验结果表明该方法优于当前主流的多文档摘要方法。 展开更多
关键词 语义相似度 PV-DM模型 句子向量 文档摘要 单调亚模函数
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部