期刊文献+
共找到208篇文章
< 1 2 11 >
每页显示 20 50 100
词语位置加权TextRank的关键词抽取研究 被引量:76
1
作者 夏天 《现代图书情报技术》 CSSCI 北大核心 2013年第9期30-34,共5页
把关键词抽取问题看作是构成文档词语的重要性排序问题,基于TextRank基本思想,构建候选关键词图,引入覆盖影响力、位置影响力和频度影响力用于计算词语之间的影响力概率转移矩阵,通过迭代法实现候选关键词分值计算,并挑选前N个作为关键... 把关键词抽取问题看作是构成文档词语的重要性排序问题,基于TextRank基本思想,构建候选关键词图,引入覆盖影响力、位置影响力和频度影响力用于计算词语之间的影响力概率转移矩阵,通过迭代法实现候选关键词分值计算,并挑选前N个作为关键词抽取结果。实验结果表明,对词语位置加权的TextRank方法优于传统的TextRank方法和基于LDA主题模型的关键词抽取方法。 展开更多
关键词 关键词抽取 词排序 textrank 图模型LDA
原文传递
融合LDA与TextRank的关键词抽取研究 被引量:70
2
作者 顾益军 夏天 《现代图书情报技术》 CSSCI 北大核心 2014年第7期41-47,共7页
【目的】通过将单一文档内部的结构信息和文档整体的主题信息融合到一起进行关键词抽取。【方法】利用LDA对文档集进行主题建模和候选关键词的主题影响力计算,进而对TextRank算法进行改进,将候选关键词的重要性按照主题影响力和邻接关... 【目的】通过将单一文档内部的结构信息和文档整体的主题信息融合到一起进行关键词抽取。【方法】利用LDA对文档集进行主题建模和候选关键词的主题影响力计算,进而对TextRank算法进行改进,将候选关键词的重要性按照主题影响力和邻接关系进行非均匀传递,并构建新的概率转移矩阵用于词图迭代计算和关键词抽取。【结果】实现LDA与TextRank的有效融合,当数据集呈现较强的主题分布时,可以显著改善关键词抽取效果。【局限】融合方法需要进行代价较高的多文档主题分析。【结论】关键词既与文档本身相关,也与文档所在的文档集合相关,二者结合是改进关键词抽取结果的有效途径。 展开更多
关键词 关键词抽取 LDA textrank 图模型
原文传递
融合Word2vec与TextRank的关键词抽取研究 被引量:67
3
作者 宁建飞 刘降珍 《现代图书情报技术》 CSSCI 2016年第6期20-27,共8页
【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之... 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。 展开更多
关键词 抽取 Word2vec textrank 图模型 词向量
原文传递
词向量聚类加权TextRank的关键词抽取 被引量:60
4
作者 夏天 《数据分析与知识发现》 CSSCI CSCD 2017年第2期28-34,共7页
【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型,改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据,生成词向量模型,对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性,结合节点... 【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型,改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据,生成词向量模型,对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性,结合节点的覆盖和位置因素,计算节点之间的随机跳转概率,生成转移矩阵,最终通过迭代计算获得节点的重要性得分,选取前TopN个词语生成关键词。【结果】当TopN≤7时,词向量聚类加权方法均优于对比方法;TopN=3时,F值取得最大值,比先前最优结果增量提升了3.374%;TopN>7时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。 展开更多
关键词 关键词抽取 词向量 textrank Word2Vec
原文传递
Tag-TextRank:一种基于Tag的网页关键词抽取方法 被引量:56
5
作者 李鹏 王斌 +2 位作者 石志伟 崔雅超 李恒训 《计算机研究与发展》 EI CSCD 北大核心 2012年第11期2344-2351,共8页
关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题... 关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题上相关的网页使用同样的标签词,一个特定的文档可以通过其标注信息找到相关文档.在此基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank.该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的推广性. 展开更多
关键词 社会化标注 标签 关键词抽取 网页关键词抽取 textrank
下载PDF
基于改进的TextRank的自动摘要提取方法 被引量:41
6
作者 余珊珊 苏锦钿 李鹏飞 《计算机科学》 CSCD 北大核心 2016年第6期240-247,共8页
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置... 经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。 展开更多
关键词 中文文本 自动摘要提取 textrank 篇章结构 无监督学习方法
下载PDF
基于加权TextRank的文本关键词提取方法 被引量:23
7
作者 徐立 《计算机科学》 CSCD 北大核心 2019年第B06期142-145,共4页
为提升提取文本关键词的准确性,文中提出了一种文本关键词提取方法。该方法融合词频、词长、词语位置及词性等关键词提取影响因素,提出了候选关键词的权重公式;通过实验获取权重公式的相对最优权重系数;将权重公式应用到TextRank算法的... 为提升提取文本关键词的准确性,文中提出了一种文本关键词提取方法。该方法融合词频、词长、词语位置及词性等关键词提取影响因素,提出了候选关键词的权重公式;通过实验获取权重公式的相对最优权重系数;将权重公式应用到TextRank算法的候选关键词得分公式中,以提升提取文本关键词的准确性。通过实验对比了OPW-Text-Rank算法与TextRank算法对单文本关键词提取的准确率、召回率及F值,结果表明,OPW-TextRank算法在窗口大小为6时,提取关键词的准确率高于TextRank算法。在以文本关键词提取为基础的自然语言处理系统中所提算法具有一定的实用性。 展开更多
关键词 关键词提取 加权 词频 textrank
下载PDF
基于词向量与TextRank的关键词提取方法 被引量:23
8
作者 周锦章 崔晓晖 《计算机应用研究》 CSCD 北大核心 2019年第4期1051-1054,共4页
针对词汇语义的差异性对TextRank算法的影响进行了研究,提出一种基于词向量与TextRank的关键词抽取方法。利用FastText将文档集进行词向量表征,基于隐含主题分布思想和利用词汇间语义性的差异,构建TextRank的转移概率矩阵,最后进行词图... 针对词汇语义的差异性对TextRank算法的影响进行了研究,提出一种基于词向量与TextRank的关键词抽取方法。利用FastText将文档集进行词向量表征,基于隐含主题分布思想和利用词汇间语义性的差异,构建TextRank的转移概率矩阵,最后进行词图的迭代计算和关键词抽取。实验结果表明,该方法的抽取效果相比于传统方法有明显提升,同时证明利用词向量能简单而有效地改善TextRank算法的性能。 展开更多
关键词 抽取 语义差异性 textrank 词向量 隐含主题分布
下载PDF
基于加权TextRank的中文自动文本摘要 被引量:21
9
作者 黄波 刘传才 《计算机应用研究》 CSCD 北大核心 2020年第2期407-410,共4页
现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结... 现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑了句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。实验结果表明,此方法在本数据集中取得了较好的效果,自动提取中文摘要的效果比原方法好。 展开更多
关键词 文本摘要 textrank 词向量 句子相似度
下载PDF
一种基于TextRank的单文本关键字提取算法 被引量:20
10
作者 柳林青 余瀚 +1 位作者 费宁 陈春玲 《计算机应用研究》 CSCD 北大核心 2018年第3期705-710,共6页
作为一种经典的文本关键字提取和摘要自动生成算法,TextRank将文本看做若干单词组成的集合,并通过对单词节点图的节点权值进行迭代计算,挖掘单词之间的潜在语义关系。在TextRank节点图模型的基础上,将马尔可夫状态转移模型与节点图相结... 作为一种经典的文本关键字提取和摘要自动生成算法,TextRank将文本看做若干单词组成的集合,并通过对单词节点图的节点权值进行迭代计算,挖掘单词之间的潜在语义关系。在TextRank节点图模型的基础上,将马尔可夫状态转移模型与节点图相结合,提出节点间边权为条件概率的新模型生成算法TextRank_Revised。通过对有标记和无标记的验证集进行验证,证明新的算法在不提升时间复杂度的前提下,通过计算单文本得出的单词排序结果相较于原TextRank算法更加吻合人工对文档的关键字提取结果。 展开更多
关键词 textrank 单文本关键字 提取算法 有向带权图 马尔可夫状态转移模型
下载PDF
Mining microblog user interests based on TextRank with TF-IDF factor 被引量:20
11
作者 Tu Shouzhong Huang Minlie 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2016年第5期40-46,共7页
It is of great value and significance to model the interests of microblog user in terms of business and sociology. This paper presents a framework for mining and analyzing personal interests from microblog text with a... It is of great value and significance to model the interests of microblog user in terms of business and sociology. This paper presents a framework for mining and analyzing personal interests from microblog text with a new algorithm which integrates term frequency-inverse document frequency (TF-IDF) with TextRank. Firstly, we build a three-tier category system of user interest based on Wikipedia. In order to obtain the keywords of interest, we preprocess the posts, comments and reposts in different categories to select the keywords which appear both in the category system and microblogs. We then assign weight to each category and calculate the weight of keyword to get TF-IDF factors. Finally we score the ranking of each keyword by the TextRank algorithm with TF-IDF factors. Experiments on real Sina microblog data demonstrate that the precision of our approach significantly outperforms other existing methods. 展开更多
关键词 microblog interest feature TF-IDF interest mining textrank
原文传递
基于深度学习的用户行为推荐方法研究 被引量:19
12
作者 张祖平 沈晓阳 《计算机工程与应用》 CSCD 北大核心 2019年第4期142-147,158,共7页
利用用户行为数据,采用有效推荐方法,提供个性化推荐服务是社交网络平台普遍采用的策略,其中推荐方法的有效性是决定推荐服务质量的关键。基于矩阵分解和基于协同过滤的推荐方法由于存在稀疏性和过拟合问题等瓶颈难以大规模推广应用。... 利用用户行为数据,采用有效推荐方法,提供个性化推荐服务是社交网络平台普遍采用的策略,其中推荐方法的有效性是决定推荐服务质量的关键。基于矩阵分解和基于协同过滤的推荐方法由于存在稀疏性和过拟合问题等瓶颈难以大规模推广应用。在研究用户行为序列中相邻行为之间相似性和关联性的基础上,挖掘词语之间内部结构关系的TextRank,融合word2vec提出新的用户行为推荐方法。分析与实验结果表明:该推荐方法较传统推荐方法,在各项指标上都得到了一定的提升,验证了该方法的有效性和准确性。 展开更多
关键词 word2vec 推荐系统 非文本化序列 用户行为 textrank
下载PDF
基于情感分析与TextRank的负面在线评论关键词抽取 被引量:17
13
作者 庞庆华 董显蔚 +1 位作者 周斌 付眸 《情报科学》 CSSCI 北大核心 2022年第5期111-117,共7页
【目的/意义】负面在线评论已成为商家重要的经营决策信息,对了解客户消费满意度、改善产品和服务质量具有重要意义。【方法/过程】该文将情感分析和关键词抽取相结合,提出一种基于BiGRU-CNN和TextRank的在线评论负面关键词抽取方法,即... 【目的/意义】负面在线评论已成为商家重要的经营决策信息,对了解客户消费满意度、改善产品和服务质量具有重要意义。【方法/过程】该文将情感分析和关键词抽取相结合,提出一种基于BiGRU-CNN和TextRank的在线评论负面关键词抽取方法,即首先对在线评论文本数据进行清洗,然后构建BiGRU-CNN情感分类模型对在线评论进行情感分析,最后采取TextRank方法抽取情感分析得到的负面评论中的关键词。利用这种方法,对十个产品与服务类别的6万余条消费者在线评论文本数据进行实证分析。【结果/结论】实验结果表明,该方法能准确判别客户负面在线评论情感倾向,F1值达92.41%,并且负面在线评论关键词抽取结果能较好帮助商家完善产品质量和服务。【创新/局限】提出一种结合双向GRU和CNN结合的情感分类模型,在此基础上基于TextRank方法抽取情感分析得到的负面评论中的关键词,进一步提升模型对于在线评论情感分析的准确性。 展开更多
关键词 负面评论 情感分析 textrank 深度学习 模型构建 关键词抽取
原文传递
基于TextRank的自动摘要优化算法 被引量:17
14
作者 李娜娜 刘培玉 +1 位作者 刘文锋 刘伟童 《计算机应用研究》 CSCD 北大核心 2019年第4期1045-1050,共6页
在对中文文本进行摘要提取时,传统的TextRank算法只考虑节点间的相似性,忽略了文本的其他重要信息。针对中文单文档,在现有研究的基础上,使用TextRank算法并考虑句子间的相似性,使TextRank算法与文本的整体结构信息、句子的上下文信息... 在对中文文本进行摘要提取时,传统的TextRank算法只考虑节点间的相似性,忽略了文本的其他重要信息。针对中文单文档,在现有研究的基础上,使用TextRank算法并考虑句子间的相似性,使TextRank算法与文本的整体结构信息、句子的上下文信息等相结合,如文档句子或者段落的物理位置、特征句子、核心句子等有可能提升权重的句子来生成文本的摘要候选句群。对得到的摘要候选句群作冗余处理,以除去候选句群中相似度较高的句子,得到最终的文本摘要。最后通过实验验证,该算法能够提高生成摘要的准确性,表明了该算法的有效性。 展开更多
关键词 摘要提取 textrank 结构信息 候选摘要句群 冗余处理
下载PDF
基于DPCA的社会化问答社区用户生成答案知识聚合与主题发现服务研究 被引量:17
15
作者 陶兴 张向先 郭顺利 《情报理论与实践》 CSSCI 北大核心 2019年第6期94-98,87,共6页
[目的/意义]通过密度峰值聚类算法(DPCA)对社会化问答社区用户生成答案进行知识聚合与主题发现。[方法/过程]利用TextRank方法挖掘用户生成答案中的关键词集合,再利用DPCA对关键词集合进行凝聚,最后进行可视化词云展示。[结果/结论]与... [目的/意义]通过密度峰值聚类算法(DPCA)对社会化问答社区用户生成答案进行知识聚合与主题发现。[方法/过程]利用TextRank方法挖掘用户生成答案中的关键词集合,再利用DPCA对关键词集合进行凝聚,最后进行可视化词云展示。[结果/结论]与传统聚类算法对比,DPCA能获得更加准确的聚类数目,簇类内的关键词更加凝练,知识主题更加明确。文章通过聚合服务,自动化地发现社会化问答社区中的知识主题,进一步提高了社会化问答社区中的用户交流方式和知识服务水平。[局限]用户生成答案缺少标准实验参考集,聚类结果测度有待完善。 展开更多
关键词 社会化问答社区 知识聚合 主题发现 密度峰值聚类算法 textrank
原文传递
基于先验知识TextRank的学术文本关键词抽取 被引量:16
16
作者 方俊伟 崔浩冉 +1 位作者 贺国秀 陆伟 《情报科学》 CSSCI 北大核心 2019年第3期75-80,共6页
【目的/意义】学术文本关键词抽取是从文本中自动抽取具有主题性、代表性的词或短语,是学术信息服务的重要环节。传统的方法大多仅依靠候选关键词有限的词频、文档频率等统计信息,没有考虑学术文本内候选关键词在对应学术领域的使用情况... 【目的/意义】学术文本关键词抽取是从文本中自动抽取具有主题性、代表性的词或短语,是学术信息服务的重要环节。传统的方法大多仅依靠候选关键词有限的词频、文档频率等统计信息,没有考虑学术文本内候选关键词在对应学术领域的使用情况,使得关键词抽取的准确率受到限制。针对这一问题,本文提出一种基于先验知识TextRank的学术文本关键词抽取算法。【方法/过程】首先计算候选关键词的使用情况作为先验概率特征值,然后运用基于图排序的关键词抽取算法TextRank计算候选关键词的文本内特征值,最后结合以上两个特征计算得到候选关键词的综合权值并对关键词进行排序。【结果/结论】在计算机科学领域的多个文献集上进行了实验评估,其结果相较于传统的关键词抽取方法有了明显的提高,证明了基于先验知识TextRank的学术文本关键词抽取算法的有效性。 展开更多
关键词 先验知识 关键词抽取 textrank 学术文本
原文传递
基于TextRank和簇过滤的林业文本关键信息抽取研究 被引量:15
17
作者 陈志泊 李钰曼 +3 位作者 许福 冯国明 师栋瑜 崔晓晖 《农业机械学报》 EI CAS CSCD 北大核心 2020年第5期207-214,172,共9页
目前,获取林业文本关键信息存在2个问题:关键信息获取主要从关键词角度考虑,忽略了词语的信息类型;网络上的林业文本没有统一的记述结构,词语信息类型提取困难。为此,本文提出了基于改进TextRank和簇过滤的林业文本关键信息抽取方法,以... 目前,获取林业文本关键信息存在2个问题:关键信息获取主要从关键词角度考虑,忽略了词语的信息类型;网络上的林业文本没有统一的记述结构,词语信息类型提取困难。为此,本文提出了基于改进TextRank和簇过滤的林业文本关键信息抽取方法,以“关键词+信息类型”两部分表示文本关键信息。首先,抽取关键词并进行Word2Vec向量化,然后通过构建融合词语特征值、边权值的图模型对TextRank进行改进,对经迭代收敛得到的稳定图进行归并聚类形成簇;然后,设计簇品质评价公式进行簇过滤,再次应用TextRank形成最终簇集合;最后,对簇进行信息类型标注。对于测试文本,通过比较关键词向量和簇心向量的距离获得词语的信息类型,将信息类型与关键词结合得到文本的关键信息。基于2000篇与林业政策新闻相关的林业文本进行实验,最终簇集合的紧密度为0.9680,间隔度为0.0572,综合评价指标为0.8871;对其中400篇文本进行关键词人工标注,将本文关键词抽取方法与TextRank、TF IDF等6种算法进行比较,结果表明,本文方法在MRR、Bpref、准确率和综合评价指标上均获得了较好的效果,说明本文方法在提取林业文本关键词方面具有优势。 展开更多
关键词 林业文本 关键词抽取 textrank 簇过滤 信息类型
下载PDF
基于Gaussian LDA的在线评论主题挖掘研究 被引量:15
18
作者 国显达 那日萨 +1 位作者 高欢 杨心怡 《情报学报》 CSSCI CSCD 北大核心 2020年第6期630-639,共10页
针对现有主题挖掘方法生成的主题分布稀疏、语义不连贯,并导致可应用性差等不足之处,提出了一种基于Gaussian LDA的在线评论主题挖掘方法。首先,通过word2vec训练得到在线评论的词向量,并基于Gaussian LDA模型获取在线评论的主题分布;然... 针对现有主题挖掘方法生成的主题分布稀疏、语义不连贯,并导致可应用性差等不足之处,提出了一种基于Gaussian LDA的在线评论主题挖掘方法。首先,通过word2vec训练得到在线评论的词向量,并基于Gaussian LDA模型获取在线评论的主题分布;然后,通过主题分布来计算评论的相似度矩阵并应用AP聚类算法实现在线评论聚类,通过分析聚类结果实现主题发现;最后,利用TextRank算法提取各主题的关键句子生成主题摘要,以完成对主题的描述。该方法可有效缓解消费者在线评论信息过载问题,通过淘宝、京东、豆瓣等平台7种不同类型产品的评论数据的实验计算证明了方法的有效性及现实应用价值。 展开更多
关键词 在线评论 主题挖掘 Gaussian LDA主题模型 AP聚类 textrank
下载PDF
词位置分布加权TextRank的关键词提取 被引量:16
19
作者 刘竹辰 陈浩 +1 位作者 于艳华 李劼 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第9期74-79,共6页
【目的】将词在文档内的词距和位置分布信息融入Text Rank模型,改进单文档关键词提取效果。【方法】基于Text Rank方法构建候选关键词词图,融合一般文档写作结构中词之间的位置分布信息,计算概率转移矩阵,通过迭代计算候选关键词得分,... 【目的】将词在文档内的词距和位置分布信息融入Text Rank模型,改进单文档关键词提取效果。【方法】基于Text Rank方法构建候选关键词词图,融合一般文档写作结构中词之间的位置分布信息,计算概率转移矩阵,通过迭代计算候选关键词得分,并挑选分值最大的前K个作为关键词提取结果。【结果】实验结果表明,词位置分布加权的Text Rank方法优于传统的Text Rank方法。当K分别取3、5、7和10时,F值与最优方法相比分别提升1.29%、2.42%、5.43%和5.88%。【局限】未使用知识库,外部词汇关系信息没有被充分利用。【结论】词在文章中位置分布信息能够改善关键词提取效果。 展开更多
关键词 关键词提取 TEXT RANK 词位置分布 词距
原文传递
基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究 被引量:12
20
作者 王子璇 乐小虬 何远标 《数据分析与知识发现》 CSSCI CSCD 2017年第4期1-8,共8页
【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关... 【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据,以人工标注的结果为基准对本文的算法和传统的Text Rank算法进行对比实验,初步结果表明该方法的识别效果(F值)比传统Text Rank算法提升约5%。【局限】句子特征提取有待提高,词向量训练及方法中的相关参数需要做进一步优化。【结论】基于领域词向量,融合WMD语义相似度的Text Rank改进算法,能够较好地甄别科技论文小节内部中心句,辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。 展开更多
关键词 WMD textrank 语义相似 主题句识别 外部特征
原文传递
上一页 1 2 11 下一页 到第
使用帮助 返回顶部