期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
文本配图系统的设计与实现 被引量:1
1
作者 张明西 乐水波 +1 位作者 李学民 董一鹏 《包装工程》 CAS 北大核心 2020年第19期252-258,共7页
目的设计并开发文本配图系统,实现面向文本数据的在线自动配图。方法基于图片和文本之间的描述关系构建“图片-标签”二分网络,然后基于“图片-标签”的二分网络,利用重启随机游走模型进行图片与标签之间的相关性计算。采用TextRank模... 目的设计并开发文本配图系统,实现面向文本数据的在线自动配图。方法基于图片和文本之间的描述关系构建“图片-标签”二分网络,然后基于“图片-标签”的二分网络,利用重启随机游走模型进行图片与标签之间的相关性计算。采用TextRank模型提取关键字,并将关键字构成的集合作为查询,将关键字视为标签。基于离线计算结果,在线整合标签与图片之间的相关性,得到文本与图片的相关性。依据相关性由大到小进行排序,并返回前k个最相关的图片。结果实验结果表明,前5个返回结果的MAP值能够达到0.839,能够准确地返回用户期望的图片。结论系统能够依据输入文本进行准确的图片匹配。 展开更多
关键词 TF-IDF模型 文本配图 重启随机游走 textrank模型
下载PDF
基于中文专利的产业概念层次体系构建方法研究
2
作者 李贞贞 钟永恒 《情报杂志》 CSSCI 北大核心 2020年第9期73-80,共8页
[目的/意义]构建丰富的产业概念层次体系,有助于对产业数据资源进行有序组织,研究构建过程中关键词识别与层级关系确定的方法。[方法/过程]以产业中文专利数据为来源,引入平衡语料与平均信息熵提取通用词并过滤;融合位置、词性、TF-IDF... [目的/意义]构建丰富的产业概念层次体系,有助于对产业数据资源进行有序组织,研究构建过程中关键词识别与层级关系确定的方法。[方法/过程]以产业中文专利数据为来源,引入平衡语料与平均信息熵提取通用词并过滤;融合位置、词性、TF-IDF与外部知识库特征,改进TextRank模型有效识别关键词;最后结合产业专家知识、深度学习和近邻传播聚类(AP)算法生成产业概念层次体系。[结果/结论]实验选取“汽车制造”产业进行实证分析,结果显示在关键词抽取上较传统方法有了明显的提高,自动生成的三层次体系包含6个一级关键词和23个二级关键词。该方法能够有效提升构建效率,实现高效的动态更新,为产业数据资源科学管理提供新思路。 展开更多
关键词 产业概念层次体系 中文专利 textrank模型 近邻传播聚类算法 通用词 平均信息熵
下载PDF
词语位置加权TextRank的关键词抽取研究 被引量:76
3
作者 夏天 《现代图书情报技术》 CSSCI 北大核心 2013年第9期30-34,共5页
把关键词抽取问题看作是构成文档词语的重要性排序问题,基于TextRank基本思想,构建候选关键词图,引入覆盖影响力、位置影响力和频度影响力用于计算词语之间的影响力概率转移矩阵,通过迭代法实现候选关键词分值计算,并挑选前N个作为关键... 把关键词抽取问题看作是构成文档词语的重要性排序问题,基于TextRank基本思想,构建候选关键词图,引入覆盖影响力、位置影响力和频度影响力用于计算词语之间的影响力概率转移矩阵,通过迭代法实现候选关键词分值计算,并挑选前N个作为关键词抽取结果。实验结果表明,对词语位置加权的TextRank方法优于传统的TextRank方法和基于LDA主题模型的关键词抽取方法。 展开更多
关键词 关键词抽取 词排序 textrank 图模型LDA
原文传递
融合LDA与TextRank的关键词抽取研究 被引量:70
4
作者 顾益军 夏天 《现代图书情报技术》 CSSCI 北大核心 2014年第7期41-47,共7页
【目的】通过将单一文档内部的结构信息和文档整体的主题信息融合到一起进行关键词抽取。【方法】利用LDA对文档集进行主题建模和候选关键词的主题影响力计算,进而对TextRank算法进行改进,将候选关键词的重要性按照主题影响力和邻接关... 【目的】通过将单一文档内部的结构信息和文档整体的主题信息融合到一起进行关键词抽取。【方法】利用LDA对文档集进行主题建模和候选关键词的主题影响力计算,进而对TextRank算法进行改进,将候选关键词的重要性按照主题影响力和邻接关系进行非均匀传递,并构建新的概率转移矩阵用于词图迭代计算和关键词抽取。【结果】实现LDA与TextRank的有效融合,当数据集呈现较强的主题分布时,可以显著改善关键词抽取效果。【局限】融合方法需要进行代价较高的多文档主题分析。【结论】关键词既与文档本身相关,也与文档所在的文档集合相关,二者结合是改进关键词抽取结果的有效途径。 展开更多
关键词 关键词抽取 LDA textrank 图模型
原文传递
融合Word2vec与TextRank的关键词抽取研究 被引量:66
5
作者 宁建飞 刘降珍 《现代图书情报技术》 CSSCI 2016年第6期20-27,共8页
【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之... 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。 展开更多
关键词 抽取 Word2vec textrank 图模型 词向量
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部