期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
融合指针网络的新闻文本摘要模型 被引量:14
1
作者 蔡中祥 孙建伟 《小型微型计算机系统》 CSCD 北大核心 2021年第3期462-466,共5页
本文针对实际党建领域中的新闻标题进行自动生成,提出了一种融合指针网络的自动文本摘要模型-Tri-PCN.相比于传统基于编码器-解码器框架的自动文本摘要模型,党建新闻标题生成模型还需要满足(1)从更长的文本序列提取特征;(2)保留关键的... 本文针对实际党建领域中的新闻标题进行自动生成,提出了一种融合指针网络的自动文本摘要模型-Tri-PCN.相比于传统基于编码器-解码器框架的自动文本摘要模型,党建新闻标题生成模型还需要满足(1)从更长的文本序列提取特征;(2)保留关键的党建信息.针对党建新闻比普通文本摘要任务面临更长文本序列问题,论文使用Transformer模型在解码阶段提取多层次全局文本特征.针对党建新闻标题生成过程中需要保留关键的党建信息,论文引入指针生成网络模型的复制机制在新闻标题生成时可以直接从新闻文本中复制关键词信息.实验采用ROUGE值作为评测指标,结果表明本文提出的Tri-PCN模型在党建新闻领域自动文本摘要任务上效果明显优于基准模型,比其他模型具有更好的效果. 展开更多
关键词 文本摘要 党建新闻 Transformer模型 指针网络 抽取式摘要
下载PDF
基于篇章主次关系的单文档抽取式摘要方法研究 被引量:12
2
作者 张迎 王中卿 王红玲 《中文信息学报》 CSCD 北大核心 2019年第8期67-76,共10页
抽取式自动文摘研究抽取文档中最能代表文档核心内容的句子作为摘要,篇章主次关系分析则是从篇章结构方面分析出篇章的主要内容和次要内容,因此,篇章主次关系分析和抽取式自动文摘存在较大关联,篇章主次关系可指导摘要的抽取。该文提出... 抽取式自动文摘研究抽取文档中最能代表文档核心内容的句子作为摘要,篇章主次关系分析则是从篇章结构方面分析出篇章的主要内容和次要内容,因此,篇章主次关系分析和抽取式自动文摘存在较大关联,篇章主次关系可指导摘要的抽取。该文提出了一种基于篇章主次关系的单文档抽取式摘要方法,该方法基于神经网络模型构建了一个篇章主次关系和文本摘要联合学习的模型。该模型在考虑词组、短语等语义信息的基础上同时考虑了篇章的主次关系等结构信息,最终基于篇章内容的整体优化抽取出最能代表文档核心内容的句子作为摘要。实验结果表明,与当前主流的单文档抽取式摘要方法相比,该方法在ROUGE评价指标上有显著提高。 展开更多
关键词 抽取式摘要 主次关系 神经网络
下载PDF
基于改进的MMR算法的新闻文本抽取式摘要方法 被引量:10
3
作者 程琨 李传艺 +2 位作者 贾欣欣 葛季栋 骆斌 《应用科学学报》 CAS CSCD 北大核心 2021年第3期443-455,共13页
提出了基于最大边缘相关(maximal marginal relevance, MMR)的新闻摘要方法以及基于支持向量机(support vector machine, SVM)和MMR相结合的新闻摘要方法。其中,第1种方法是对传统MMR模型进行了改进,第2种方法使用了改进MMR模型对SVM分... 提出了基于最大边缘相关(maximal marginal relevance, MMR)的新闻摘要方法以及基于支持向量机(support vector machine, SVM)和MMR相结合的新闻摘要方法。其中,第1种方法是对传统MMR模型进行了改进,第2种方法使用了改进MMR模型对SVM分类结果进行了二次选择。实验表明:相比于传统MMR模型,该文提出的基于改进MMR的摘要方法和基于SVM-MMR的摘要方法的平均准确率分别提升了0.148、0.204,且基于MMR的新闻摘要方法的摘要效率约为基于SVM-MMR的摘要方法的3倍。改进的MMR算法更加适用于对摘要效率要求高的应用场景,特别是对长文本进行摘要。基于SVM-MMR的摘要方法则更适用于生成对文本内容覆盖相对全面的摘要。 展开更多
关键词 新闻摘要 抽取式摘要 冗余处理 支持向量机 最大边缘相关
下载PDF
改进的潜在语义分析中文摘录方法 被引量:8
4
作者 肖升 何炎祥 《计算机应用研究》 CSCD 北大核心 2012年第12期4507-4511,共5页
中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输... 中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输入矩阵进行潜在语义分析,并由此得出句子与潜在概念(主题信息的抽象表达)的语义相关度;最后借助改进的优选算法完成关键句子选取。实验结果显示,该方法准确率、召回率和F度量值的平均值分别为75.9%、71.8%和73.8%,与已有同类方法相比,改进后的方法实现了全程无监督且在整体效率上有较大提升,更具应用潜质。 展开更多
关键词 自动文摘 自动摘录 潜在语义分析 奇异值分解 潜在概念
下载PDF
基于无监督学习和监督学习的抽取式文本摘要综述 被引量:1
5
作者 夏吾吉 黄鹤鸣 +1 位作者 更藏措毛 范玉涛 《计算机应用》 CSCD 北大核心 2024年第4期1035-1048,共14页
相较于生成式摘要方法,抽取式摘要方法简单易行、可读性强,使用范围广。目前,抽取式摘要方法综述文献仅对特定的某个方法或领域进行分析综述,缺乏多方面、多语种的系统性综述,因此探讨文本摘要生成任务的内涵,通过系统梳理和提炼现有的... 相较于生成式摘要方法,抽取式摘要方法简单易行、可读性强,使用范围广。目前,抽取式摘要方法综述文献仅对特定的某个方法或领域进行分析综述,缺乏多方面、多语种的系统性综述,因此探讨文本摘要生成任务的内涵,通过系统梳理和提炼现有的相关文献,对无监督学习和监督学习的抽取式文本摘要技术进行多维度、全方位的分析。首先,回顾文本摘要技术的发展,分析不同的抽取式文本摘要方法,主要包括基于规则、词频-逆文件概率(TFIDF)、中心性方法、潜在语义、深度学习、图排序、特征工程和预训练学习等,并对比不同方法的差异;其次,详细介绍不同语种文本摘要生成的常用数据集和主流的评价指标,通过不同的实验指标对相同数据集上的方法进行比较;最后,指出当前抽取式文本摘要研究中存在的主要问题和挑战,并提出具体的解决思路和未来发展趋势。 展开更多
关键词 抽取式摘要 无监督学习 监督学习 数据集 评价指标
下载PDF
基于BERT模型的安全生产事故多标签文本分类 被引量:6
6
作者 吴德平 时翔 王晓东 《武汉工程大学学报》 CAS 2021年第5期586-590,共5页
结合安全生产事故案例文本特点,利用自然语言处理(NLP)技术对安全生产事故分类,基于转换器的双向编码表征(BERT)模型利用“抽取+生成”相结合的方式获得文本摘要,再通过迁移学习训练提升模型性能,并利用分组分类算法对文本的52个标签进... 结合安全生产事故案例文本特点,利用自然语言处理(NLP)技术对安全生产事故分类,基于转换器的双向编码表征(BERT)模型利用“抽取+生成”相结合的方式获得文本摘要,再通过迁移学习训练提升模型性能,并利用分组分类算法对文本的52个标签进行多标签分类,获得较好的分类效果,为安全生产监管、事故隐患的排查和分析奠定基础。 展开更多
关键词 BERT模型 抽取式摘要 生成式摘要 迁移学习 多标签文本分类
下载PDF
一种基于文本单元关联网络的自动文摘方法 被引量:5
7
作者 陶余会 周水庚 关佶红 《模式识别与人工智能》 EI CSCD 北大核心 2009年第3期440-444,共5页
提出一种基于文本单元关联网络进行自动文摘的方法.该方法根据文本单元之间的共现关系建立关联网络,计算文本单元的共现信息量,并认为共现信息量越大的文本单元在文本中越重要.文本单元可以是单词、短语、句子或段落,本文分别构建了基... 提出一种基于文本单元关联网络进行自动文摘的方法.该方法根据文本单元之间的共现关系建立关联网络,计算文本单元的共现信息量,并认为共现信息量越大的文本单元在文本中越重要.文本单元可以是单词、短语、句子或段落,本文分别构建了基于单词和基于句子的关联网络.如果网络节点是单词,则先按照本文方法计算出单词基于共现信息量的权重,再根据单词的权重计算句子的权重.如果网络节点是句子,本文则提出一种方法计算基于句间共现信息量的句子权重,据此选出权重值较大的一定比例的句子组成文摘.实验结果表明本文方法能有效改善文摘的质量,优于其它基于文本关联网络的自动文摘方法.本文方法计算出的词语权重,可以进一步应用到关键词抽取、文本分类和聚类及信息检索中. 展开更多
关键词 自动文摘 抽取型文摘 关联网络 共现
原文传递
基于子句单元的异构图网络抽取式文本摘要
8
作者 林群凯 陈钰枫 +2 位作者 徐金安 张玉洁 刘健 《中文信息学报》 CSCD 北大核心 2024年第6期119-128,共10页
的目标是将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本,其能帮助人们快速获取文档的主要信息。当前大多数的抽取式文本摘要的研究都是以整句作为抽取单元,而整句作为抽取单元会引入冗余信息,因此该文考虑使用粒度更细... 的目标是将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本,其能帮助人们快速获取文档的主要信息。当前大多数的抽取式文本摘要的研究都是以整句作为抽取单元,而整句作为抽取单元会引入冗余信息,因此该文考虑使用粒度更细的抽取单元。已有研究表明,细粒度的子句单元比整句单元在抽取式摘要上更具有优势。结合当下热门的图神经网络,该文提出了一种基于子句单元异构图网络的抽取式摘要模型,有效融合了词、实体和子句单元等不同层次的语言信息,能够实现更细粒度的抽取式摘要。在大规模基准语料库(CNN/DM和NYT)上的实验结果表明,该模型产生了突破性的性能并优于以前的抽取式摘要模型。 展开更多
关键词 子句 异构图 抽取式摘要
下载PDF
基于矩阵分解和子模最大化的微博新闻摘要方法 被引量:5
9
作者 刘彼洋 孙锐 姬东鸿 《计算机应用研究》 CSCD 北大核心 2017年第10期2892-2896,2928,共6页
针对面向微博的中文新闻摘要的主要挑战,提出了一种将矩阵分解与子模最大化相结合的新闻自动摘要方法。该方法首先利用正交矩阵分解模型得到新闻文本潜语义向量,解决了短文本信息稀疏问题,并使投影方向近似正交以减少冗余;然后从相关性... 针对面向微博的中文新闻摘要的主要挑战,提出了一种将矩阵分解与子模最大化相结合的新闻自动摘要方法。该方法首先利用正交矩阵分解模型得到新闻文本潜语义向量,解决了短文本信息稀疏问题,并使投影方向近似正交以减少冗余;然后从相关性和多样性等方面评估新闻语句集合,该评估函数由多个单调子模函数和一个评估语句不相似度的非子模函数组成;最后设计贪心算法生成最终摘要。在NLPCC2015数据集上的实验结果表明,该方法能有效提高面向微博的新闻自动摘要质量,ROUGE得分超过其他基线系统。 展开更多
关键词 子模属性 正交矩阵分解 新闻摘要 抽取式摘要 微博
下载PDF
结合层级注意力的抽取式新闻文本自动摘要 被引量:5
10
作者 王红斌 金子铃 毛存礼 《计算机科学与探索》 CSCD 北大核心 2022年第4期877-887,共11页
由于抽取式摘要抽取句子有较强的人为判断主观性,不能准确客观评测出文章中实际每个句子对摘要的重要程度,以及每句话中每个词对句子重要程度的影响,从而影响了摘要的抽取质量。针对该问题,提出了一种结合层级注意力的抽取式新闻文本自... 由于抽取式摘要抽取句子有较强的人为判断主观性,不能准确客观评测出文章中实际每个句子对摘要的重要程度,以及每句话中每个词对句子重要程度的影响,从而影响了摘要的抽取质量。针对该问题,提出了一种结合层级注意力的抽取式新闻文本自动摘要方法。首先,该方法通过对英文新闻文本进行层级编码并依次加入词级注意力、句级注意力,得到结合层级注意力的文本表示。其次,通过神经网络构建动态打分函数并依次选择出打分函数中分值最高的候选句子作为摘要句。最后,抽取出英文新闻文本所对应的摘要。所提方法在CNN/Daily Mail、New York Times与Multi-News公共数据集上均进行了实验验证,实验结果表明所提方法的ROUGE评测值与目前最好的模型相比表现相当,ROUGE F1值较baseline分别提高了1.78、0.70与1.44个百分点。由此表明该方法在英文新闻文本抽取式摘要任务上具有泛化性与有效性,并且与现有方法相比具有一定的优越性。 展开更多
关键词 英文新闻 抽取式摘要 层级注意力 打分函数
下载PDF
CINOSUM:面向多民族低资源语言的抽取式摘要模型
11
作者 翁彧 罗皓予 +3 位作者 超木日力格 刘轩 董俊 刘征 《计算机科学》 CSCD 北大核心 2024年第7期296-302,共7页
针对现有的模型无法处理多民族低资源语言自动摘要生成的问题,基于CINO提出了一种面向多民族低资源语言的抽取式摘要模型CINOSUM。为扩大文本摘要的语言范围,首先构建了多种民族语言的摘要数据集MESUM。为解决以往模型在低资源语言上效... 针对现有的模型无法处理多民族低资源语言自动摘要生成的问题,基于CINO提出了一种面向多民族低资源语言的抽取式摘要模型CINOSUM。为扩大文本摘要的语言范围,首先构建了多种民族语言的摘要数据集MESUM。为解决以往模型在低资源语言上效果不佳的问题,构建了一个框架,采用统一的句子抽取器,以进行不同民族语言的抽取式摘要生成。此外,提出采用多语言数据集的联合训练方法,旨在弥补知识获取上的不足,进而扩展在低资源语言上的应用,显著增强模型的适应性与灵活性。最终,在MESUM数据集上开展了广泛的实验研究,实验结果表明CINOSUM模型在包括藏语和维吾尔语在内的多民族低资源语言环境中表现卓越,并且在ROUGE评价体系下取得了显著的性能提升。 展开更多
关键词 抽取式摘要 多语言预训练模型 低资源语言信息处理 知识迁移
下载PDF
一种改进的TextRank多文档文摘自动抽取模型
12
作者 王楠 曾曼玲 《软件导刊》 2023年第5期1-6,共6页
多文档自动文摘通过自然语言处理技术从多篇同主题的文档中提取概述性信息,可有效缓解信息负载问题,有助于用户迅速准确获取原文核心内容。针对中文文本特点,构建一种基于TextRank算法改进的多文档文摘自动抽取模型。首先通过预训练Word... 多文档自动文摘通过自然语言处理技术从多篇同主题的文档中提取概述性信息,可有效缓解信息负载问题,有助于用户迅速准确获取原文核心内容。针对中文文本特点,构建一种基于TextRank算法改进的多文档文摘自动抽取模型。首先通过预训练Word2Vec词向量模型与SIF方法融合,在中文维基百科语料库上进行预训练,获取文档中所有句子的句向量;然后借助余弦相似度构造TextRank句子间的边关系;最后使用MMR算法对文摘句进行冗余处理,得到全面又多样的文摘。通过ROUGE-N评价指标对模型进行性能评价,实验结果表明,所提模型的ROUGE-1、ROUGE-2、ROUGE-L指标值分别为0.549、0.322、0.357,均优于传统TextRank方法和Word2vec(实验样本语料)+TextRank+MMR模型,文摘质量更高。 展开更多
关键词 多文档文摘 抽取式文摘 TextRank算法 Word2Vec SIF
下载PDF
民事裁判文书两阶段式自动摘要研究 被引量:4
13
作者 王义真 欧石燕 陈金菊 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第5期104-114,共11页
【目的】针对民事一审裁判文书内容进行文本自动摘要,为裁判文书的用户提供简练可读、连贯通顺和准确高效的摘要文本。【方法】提出一种面向裁判文书自动摘要的新方法,该方法由抽取式摘要和生成式摘要两个阶段构成。在第一阶段抽取式摘... 【目的】针对民事一审裁判文书内容进行文本自动摘要,为裁判文书的用户提供简练可读、连贯通顺和准确高效的摘要文本。【方法】提出一种面向裁判文书自动摘要的新方法,该方法由抽取式摘要和生成式摘要两个阶段构成。在第一阶段抽取式摘要中,在预训练模型的基础上加入膨胀残差门控卷积神经网络进行裁判文书关键句子抽取得到抽取式文摘;在第二阶段生成式摘要中,将抽取式文摘作为模型的输入,通过序列到序列模型生成最终的裁判文书摘要。【结果】本文所提模型在裁判文书自动摘要实验中的ROUGE指标分别是50.31、36.60、48.86,较基准模型LEAD-3分别提高25.00、23.25、24.66。【局限】将第一阶段得到的抽取式摘要作为第二阶段生成式模型的输入,存在模型的累计误差,模型的整体效果受到第一阶段抽取式模型的影响。【结论】本文模型可以有效地应用在裁判文书自动摘要服务中,解决裁判文书信息过载问题,为裁判文书用户提供了一种快速阅读裁判文书、获取知识的新途径。 展开更多
关键词 预训练语言模型 自动摘要 裁判文书 生成式摘要 抽取式摘要
原文传递
BETES:一种中文长文档抽取式摘要方法 被引量:3
14
作者 王宗辉 李宝安 +1 位作者 吕学强 游新冬 《小型微型计算机系统》 CSCD 北大核心 2022年第1期42-49,共8页
在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取... 在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用Bert预处理模型进行文本向量化,更好地捕捉长文本上下文的语义,提升信息抽取的准确性;在识别中文长文本的基本篇章单元的基础上,以基本篇章单元为抽取对象,降低摘要抽取的冗余度;最后利用Transformer神经网络抽取模型,实现基本篇章单元的抽取,提升摘要句抽取的准确率.实验证明,提出的BETES方法在中文长文本的抽取式摘要过程中提高了准确性,降低了冗余度,并且ROUGE分数优于主流的摘要抽取方法. 展开更多
关键词 文本摘要 抽取式摘要 Bert 基本篇章单元 TRANSFORMER
下载PDF
面向法律判决文书的长文档抽取式文摘方法——BIGDCNN
15
作者 赵嘉昕 崔喆 《计算机应用》 CSCD 北大核心 2023年第S01期67-74,共8页
针对法律判决文书信息点较多、结构化程度较高,传统的抽取式文摘方法容易产生冗余句子且无法覆盖全部关键信息的问题,提出BIGDCNN(BERT based Improved Gate Dilated Convolutional Neural Network)模型。首先将原始数据进行语料转换获... 针对法律判决文书信息点较多、结构化程度较高,传统的抽取式文摘方法容易产生冗余句子且无法覆盖全部关键信息的问题,提出BIGDCNN(BERT based Improved Gate Dilated Convolutional Neural Network)模型。首先将原始数据进行语料转换获取序列标注数据,再通过预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)得到从词粒度到句子粒度的长文本表示;最后使用融合了改进门机制的膨胀卷积神经网络(DCNN)以及单模型融合方法,实现低冗余度提取原文关键信息的同时增强抗干扰性,并减小了梯度消失的风险。在法律判决文书自动文摘实验中,本模型的ROUGE-1、ROUGE-2、ROUGE-L评分为62.85%、46.56%、59.25%,较主流模型BERT+Transformer分别提升了15.10、15.75、12.97个百分点。BIGDCNN模型解决了传统抽取式文摘方法的问题,可以高效地运用在法律判决文书的自动文摘场景中。 展开更多
关键词 判决文书 抽取式文摘 预训练语言模型 门机制 单模型融合
下载PDF
基于情感信息的商品评论生成式摘要
16
作者 冯仁杰 王中卿 《中文信息学报》 CSCD 北大核心 2023年第1期144-152,共9页
近些年来,随着电商平台的飞速发展,越来越多的人会选择在网上购物并且对商品进行评价。对于较长篇幅的评论,进行摘要可以让用户快速地了解到商品的优缺点。目前主流的生成式摘要模型大多只考虑文本的序列化信息,而对一个商品评论来说,... 近些年来,随着电商平台的飞速发展,越来越多的人会选择在网上购物并且对商品进行评价。对于较长篇幅的评论,进行摘要可以让用户快速地了解到商品的优缺点。目前主流的生成式摘要模型大多只考虑文本的序列化信息,而对一个商品评论来说,评论中的商品属性信息和情感信息极为重要。为了让模型学习到评论中的商品属性及情感信息,该文提出了一种融合评论中属性及情感信息的生成式摘要方法。该方法通过将不同种类的情感和属性信息嵌入生成模型的编码阶段的方式,从而有效的结合这些信息。实验证明,该方法可生成更高质量的摘要,生成的摘要在ROUGE评价指标上会有较大幅度的提升。 展开更多
关键词 生成式文摘 情感及属性信息 神经网络
下载PDF
SFExt-PGAbs:两阶段长文档摘要模型
17
作者 周伟枭 蓝雯飞 +1 位作者 许智明 朱容波 《计算机科学与探索》 CSCD 北大核心 2021年第5期907-921,共15页
针对抽取式方法、生成式方法在长文档摘要上的流畅性、准确性缺陷以及在文档编码前截断原始文档造成的重要信息缺失问题,提出一种两阶段长文档摘要模型SFExt-PGAbs,由次模函数抽取式摘要SFExt与指针生成器生成式摘要PGAbs组成。SFExt-PG... 针对抽取式方法、生成式方法在长文档摘要上的流畅性、准确性缺陷以及在文档编码前截断原始文档造成的重要信息缺失问题,提出一种两阶段长文档摘要模型SFExt-PGAbs,由次模函数抽取式摘要SFExt与指针生成器生成式摘要PGAbs组成。SFExt-PGAbs模拟人类对长文档进行摘要的过程,首先使用SFExt在长文档中抽取出重要句子,过滤不重要且冗余的句子形成过渡文档,然后PGAbs接收过渡文档作为输入以生成流畅且准确的摘要。为获取与原始文档中心思想更为接近的过渡文档,在传统SFExt中拓展出位置重要性、准确性两个子方面,同时设计新的贪心算法。为研究不同特征提取器对生成摘要质量的影响,在PGAbs中应用两种循环神经网络。实验结果显示,在CNNDM测试集上,SFExt-PGAbs相较于基线模型生成了更为流畅、准确的摘要,ROUGE指标有较大提升。同时,子方面拓展后的SFExt也能抽取得到更准确的摘要。 展开更多
关键词 两阶段摘要模型 长文档摘要 抽取式摘要 生成式摘要 次模函数 指针生成器 子方面融合
下载PDF
基于预训练模型的文本摘要优化 被引量:2
18
作者 黄敬轩 刘康军 +3 位作者 梁楚衡 江健武 颜子桓 田志锋 《工业控制计算机》 2021年第7期58-61,共4页
Transformers的双向编码器表示(BERT)是最新的预训练语言模型的代表之一,它成功地解决了一系列自然语言处理(NLP)任务。用于文本摘要的BERT体系结构(BERTSUM)是一个文本摘要模型,在预训练模型BERT作为编码器,使用多个"[CLS]"... Transformers的双向编码器表示(BERT)是最新的预训练语言模型的代表之一,它成功地解决了一系列自然语言处理(NLP)任务。用于文本摘要的BERT体系结构(BERTSUM)是一个文本摘要模型,在预训练模型BERT作为编码器,使用多个"[CLS]"标签、区间段标签和线性分类器、RNN分类器或Transformer作为分类器的情况下,BESTSUM在抽象和抽取摘要方面都优于其他模型。然而,当数据集太小或训练步骤太长时,BERTSUM可能会出现过拟合现象。提出了一种基于BERT的小数据集句子嵌入方法,并在损失函数中加入了余弦相似性约束来减少过拟合程度。最后在CNN/DailyMail数据集及其较小型版本上测试这些方法。实验结果表明,与BERTSUM相比,该模型提高了抽取式摘要的Recall-Oriented Understudy for Gisting Evaluation(ROUGE) F1分数,并且过拟合的程度更小。 展开更多
关键词 抽取式摘要 预训练语言模型 自然语言处理 小数据集
下载PDF
基于关键词密度的多文档抽取式摘要算法 被引量:1
19
作者 杨朝举 葛唯益 +1 位作者 王羽 徐建 《指挥信息系统与技术》 2021年第5期48-53,共6页
多文档摘要是自然语言处理领域的热点研究问题之一。面向多文档对象,提出了一种基于预训练语言模型和关键词密度的多文档抽取式摘要算法。首先,通过预训练模型获取文档中所有句子的文档级句向量;然后,借助余弦相似度创建句子间的边连接... 多文档摘要是自然语言处理领域的热点研究问题之一。面向多文档对象,提出了一种基于预训练语言模型和关键词密度的多文档抽取式摘要算法。首先,通过预训练模型获取文档中所有句子的文档级句向量;然后,借助余弦相似度创建句子间的边连接关系,并提出了基于关键词密度的句子评分方法来提取摘要;最后,在基准数据集上的试验结果表明,该算法的Rouge性能指标优于其他具有代表性的多文档抽取式摘要算法。 展开更多
关键词 多文档摘要 抽取式摘要 文档级句向量 关键词密度
下载PDF
查询无关排序主题模型
20
作者 肖智博 车丰 +2 位作者 吴镝 李庆丰 鲁明羽 《模式识别与人工智能》 EI CSCD 北大核心 2014年第7期623-630,共8页
主题模型已成为机器学习和自然语言处理等领域研究的重要工具,它可发现大规模语料库中的隐含主题.随着语料库规模增大,发现的主题规模也随之增大.绝大多数主题模型以词袋模型为基础,无法描述词项间的顺序关系,使得主题之间无法按照重要... 主题模型已成为机器学习和自然语言处理等领域研究的重要工具,它可发现大规模语料库中的隐含主题.随着语料库规模增大,发现的主题规模也随之增大.绝大多数主题模型以词袋模型为基础,无法描述词项间的顺序关系,使得主题之间无法按照重要性区分.文中提出查询无关排序主题模型框架,利用主题间各种关系排序主题,得到有序主题列表.主题关系从主题层面评价主题影响度,继而提出词项贡献度,从词项语义层面评价主题,削弱流行但语义空泛的排序主题.由于排序主题模型尚未有公认的评价标准,将有序主题作为特征进行多文档自动文摘生成,通过文摘效果间接评价主题排序的效果.实验结果证明有序主题模型优于非排序主题模型的结果. 展开更多
关键词 排序主题模型 主题模型评价 多文档自动文摘 抽取性文摘 文摘句排序
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部