期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
LDA模型在专利文本分类中的应用 被引量:42
1
作者 廖列法 勒孚刚 朱亚兰 《现代情报》 CSSCI 北大核心 2017年第3期35-39,共5页
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语... 对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。 展开更多
关键词 LDA 主题模型 专利文本分类 主题相似度
下载PDF
基于主题相似度模型的TS-PageRank算法 被引量:23
2
作者 黄德才 戚华春 钱能 《小型微型计算机系统》 CSCD 北大核心 2007年第3期510-514,共5页
PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRan... PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRank算法框架.只要选择不同的相似度计算模型,就可以得到不同的TS-PageRank算法,形成一个网页排序算法簇.理论分析和数值仿真实验表明,该算法在不需要额外文本信息,也不增加算法时空复杂度的情况下,就能极大地减少主题漂移现象,从而提高查询效率和质量. 展开更多
关键词 链接分析 主题相似度 PAGERANK算法
下载PDF
面向多源数据的学科主题挖掘与演化分析 被引量:17
3
作者 李慧 胡吉霞 佟志颖 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第7期44-55,共12页
【目的】挖掘学科领域研究主题随时间的演变情况,帮助学者快速了解领域现状与研究趋势。【方法】融合多源数据后,根据时间段划分领域研究主题,运用主题热度、密度和紧密中心度计算主题重要性,利用语义相似度挖掘相邻时间段的关联主题,... 【目的】挖掘学科领域研究主题随时间的演变情况,帮助学者快速了解领域现状与研究趋势。【方法】融合多源数据后,根据时间段划分领域研究主题,运用主题热度、密度和紧密中心度计算主题重要性,利用语义相似度挖掘相邻时间段的关联主题,结合主题重要性波动与相似度判定话题演化类型,识别主题演化路径。【结果】选取人工智能领域,分析近20年研究主题的变化情况,得到4个时间段的热点研究主题和主要演化路径,各时间段间有明显的主题融合与分裂发展。【局限】主题命名规则设定不够科学化;人工智能产业蓬勃发展,所用数据演化分析未能展示整个生命周期发展全貌。【结论】对多源数据的主题演化分析,能够有效揭示学科发展特征,主题越重要,其进化能力越强。 展开更多
关键词 主题演化 LDA 主题相似度 演化类型 多源数据
原文传递
多维视角下科学主题演化分析框架 被引量:17
4
作者 王康 陈悦 +1 位作者 苏成 赵筱媛 《情报学报》 CSSCI CSCD 北大核心 2021年第3期297-307,共11页
本文以知识单元的游离与组合的知识计量理论为基础,以时间加权修正后提取的关键词为知识单元,从而在关键词、关键词关联和主题关联三个阶度进行科学主题演化分析的理论框架。其中,涉及时间加权词频测度、关键词关联的主题测度和主题关... 本文以知识单元的游离与组合的知识计量理论为基础,以时间加权修正后提取的关键词为知识单元,从而在关键词、关键词关联和主题关联三个阶度进行科学主题演化分析的理论框架。其中,涉及时间加权词频测度、关键词关联的主题测度和主题关联的相似度测度。本文以图书情报领域大数据研究论文进行实证研究,研究结果表明,基于时间加权的关键词频数测度能够强化上升型关键词、弱化下降型关键词,快速探测出绝对高频词、突现词或新兴词;基于关键词关联的主题测度,可使研究者对图情领域大数据主题的发展趋势有整体的感知和预测;基于主题关联的相似度测度,能够展示各主题之间的融合、扩散、突现、消亡等复杂关系,有助于揭示领域研究热点和预测未来发展趋势。 展开更多
关键词 主题演化 时间加权 主题强度 主题相似度 知识单元
下载PDF
一种基于LDA模型的关键词抽取方法 被引量:15
5
作者 朱泽德 李淼 +2 位作者 张健 曾伟辉 曾新华 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第6期2142-2148,共7页
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信... 为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。 展开更多
关键词 信息抽取 关键词抽取 LDA模型 主题相似性
下载PDF
多位态研究主题识别及其演化路径方法研究 被引量:11
6
作者 王康 高继平 +1 位作者 潘云涛 陈悦 《图书情报工作》 CSSCI 北大核心 2021年第11期113-122,共10页
[目的/意义]科学主题演化路径对认识科学发展过程和预测未来发展趋势具有重要的意义。鉴于现有研究将演化路径上的主题同等看待的缺陷,提出一种新的多位态科学主题识别及其演化路径方法。[方法/过程]以向心度和密度将每个时间区间的主... [目的/意义]科学主题演化路径对认识科学发展过程和预测未来发展趋势具有重要的意义。鉴于现有研究将演化路径上的主题同等看待的缺陷,提出一种新的多位态科学主题识别及其演化路径方法。[方法/过程]以向心度和密度将每个时间区间的主题划分为核心-成熟型、边缘-成熟型、边缘-非成熟型和核心-非成熟型4种类型,并利用余弦相似度将不同时间区间的主题进行关联,以展示不同类型科学主题之间的动态交叉演化关系。[结果/结论]以3D打印领域文献为例,从技术发展阶段、主题识别、主题类型划分和主题演化路径4个方面对3D打印技术发展过程进行测度,结果证明该方法对科学主题识别及其演化路径展示具有较好效果。 展开更多
关键词 主题识别 主题演化 战略坐标 主题相似度 3D打印
原文传递
Prophet预测-修正的主题强度演化模型——以干细胞领域为实证 被引量:9
7
作者 张鑫 文奕 +1 位作者 许海云 刘忠禹 《图书情报工作》 CSSCI 北大核心 2020年第8期78-92,共15页
[目的/意义]主题演化对科技前沿探测、创新战略部署具有十分重要的作用。[方法/过程]将主题演化分析过程分解为主题的表示、相似性关联和强度演化计算几个步骤,提出一种主题强度演化与预测模型,使用LDA模型进行主题的表示,提出内容、共... [目的/意义]主题演化对科技前沿探测、创新战略部署具有十分重要的作用。[方法/过程]将主题演化分析过程分解为主题的表示、相似性关联和强度演化计算几个步骤,提出一种主题强度演化与预测模型,使用LDA模型进行主题的表示,提出内容、共现和趋势相似度等维度进行主题关联计算,引入基于Prophet的预测-修正模型进行主题演化趋势预测。并以干细胞领域为例,进行演化的实证分析。[结果/结论]实验表明,对每个研究主题采用Logistic增长模型进行预测R2Score都达到0.90以上,表明Prophet的Logistic增长模型与该领域主题增长趋势规律相符合,能够较好地拟合主题强度的演化趋势。提出的主题演化模型对专业领域内主题分布与演化分析有一定的借鉴意义。 展开更多
关键词 主题演化 主题相似性 时间序列 PROPHET
原文传递
基于社会网络和话题相似度的cMOOC学习者聚类研究 被引量:8
8
作者 于玻 徐珺岩 谭律岐 《开放学习研究》 2020年第1期10-21,共12页
联通主义学习以社会网络交互、群体智慧的创造和学习者自我驱动为主要特点,知识与知识之间、学习者与学习者之间、学习者与知识之间动态聚合成学习者的认知神经网络、概念网络及社会网络。本文通过社会网络分析、话题相似度分析等方法,... 联通主义学习以社会网络交互、群体智慧的创造和学习者自我驱动为主要特点,知识与知识之间、学习者与学习者之间、学习者与知识之间动态聚合成学习者的认知神经网络、概念网络及社会网络。本文通过社会网络分析、话题相似度分析等方法,从社会交互维度和内容维度对cMOOC学习者进行分类和界定,通过K-means聚类分析,得到cMOOC中共有8类学习者,即沉默学习者、边缘学习者、普通学习者、专业共同体学习者、情感交互型学习者、核心学习者、桥梁学习者及导学者,并深入探究导学者及桥梁学习者的特征及在网络中的作用。每个类型的学习者都有其特点和存在的意义,并通过动态交互形成了开放、复杂、半自组织的学习生态。本研究探究出不同类型学习者的特征,期待能为个性化的学习支持服务设计提供参考。 展开更多
关键词 cMOOC 在线学习 联通主义 社会网络分析 话题相似度 学习者聚类
下载PDF
基于词向量和BTM的短文本话题演化分析 被引量:6
9
作者 张佩瑶 刘东苏 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第3期95-101,共7页
【目的】构建一种微博话题演化方法,正确把握话题发展趋势,提高网络舆情预警能力。【方法】使用Skip-gram模型在文本集上训练得到词向量模型,将每一时间片的微博文本输入BTM得到候选主题,在主题维上构造候选主题词向量;利用K-means算法... 【目的】构建一种微博话题演化方法,正确把握话题发展趋势,提高网络舆情预警能力。【方法】使用Skip-gram模型在文本集上训练得到词向量模型,将每一时间片的微博文本输入BTM得到候选主题,在主题维上构造候选主题词向量;利用K-means算法对主题词向量聚类,得到融合后的主题,进而建立文本集在时间片上的话题演化路径。【结果】实验结果表明,本文方法话题抽取F值为75%,对比主题模型提高约10%,证明本方法的可行性。【局限】话题演化的衡量标准不一致,没有对比多种话题演化方法。【结论】本文方法能有效抽取各阶段话题,为网络舆情分析提供有效途径。 展开更多
关键词 BTM模型 词向量 话题相似度 话题演化
原文传递
多源数据融合下突发公共事件社会关注与政策趋向研究--以新冠肺炎疫情为例 被引量:5
10
作者 陈启明 王效岳 +1 位作者 白如江 杜清玲 《情报探索》 2022年第6期15-25,共11页
[目的/意义]旨在为政府实施健康舆论引导和擎画预警防控方案提供参考。[方法/过程]以“新冠肺炎疫情”为例,通过融合突发公共事件相关新闻数据和政策文件,综合运用自然语言处理和文本主题识别等方法,提出基于主题强度、主题相似度、政... [目的/意义]旨在为政府实施健康舆论引导和擎画预警防控方案提供参考。[方法/过程]以“新冠肺炎疫情”为例,通过融合突发公共事件相关新闻数据和政策文件,综合运用自然语言处理和文本主题识别等方法,提出基于主题强度、主题相似度、政策敏感度(PSPE)的主题演化分析思路,描绘突发公共事件主题社会关注和政策趋向的发展状态。[结果/结论]社会关注从国内国际疫情的通报逐步演化为突发性地区事件和疫情对生活影响等主题;反馈型敏感度新闻主题会引导政策发布的趋向,引导型敏感度政策主题会指导新闻发布的趋向。 展开更多
关键词 突发公共事件 主题识别 主题相似度 主题演化 政策敏感度 新冠肺炎疫情
下载PDF
使用联合链接相似度评估爬取Web资源 被引量:6
11
作者 张乃洲 李石君 +1 位作者 余伟 张卓 《计算机学报》 EI CSCD 北大核心 2010年第12期2267-2280,共14页
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接... 如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率. 展开更多
关键词 聚焦爬行 主题相似度 链接评估 Web链接图 Q学习
下载PDF
基于OLDA的可变在线主题演化模型 被引量:6
12
作者 裴可锋 陈永洲 马静 《情报科学》 CSSCI 北大核心 2017年第5期63-68,共6页
【目的/意义】随着网络社交媒体的发展,舆情文本中隐含的主题越来越能体现出人们的关注点所在及变化情况,因此对其进行检测及演化分析具有重要意义。【方法/过程】为了解决OLDA模型存在的主题混合及权重定义问题,本文提出了一种可变在线... 【目的/意义】随着网络社交媒体的发展,舆情文本中隐含的主题越来越能体现出人们的关注点所在及变化情况,因此对其进行检测及演化分析具有重要意义。【方法/过程】为了解决OLDA模型存在的主题混合及权重定义问题,本文提出了一种可变在线LDA模型(variable online LDA,VOLDA),通过构建主题相似度矩阵,明确主题变化关系,在主题内容演化矩阵中剔除含有旧主题的时间片,从而构建变长的演化矩阵,并在此基础上设计动态权重计算方法及先验参数优化方法。【结果/结论】基于论坛文本数据的实验结果表明,VOLDA模型能够有效减少新主题出现后的主题混合问题,并且提高主题在演化过程中的表示能力。 展开更多
关键词 主题相似度 OLDA 在线主题演化 模型优化
原文传递
融合BTM与TextCNN的文本语义增强主题爬虫研究
13
作者 艾芳菊 尹虓寅 《软件导刊》 2024年第3期21-26,共6页
在拥有海量数据的信息时代,如何高效精准地检索到所需信息是一项巨大挑战,主题爬虫是获取某个特定领域信息的有效途径。通用的主题相似度计算通常是基于词粒度的特征表达,而忽略了文本整体的主题特征表达,会影响爬虫系统的查准率和查全... 在拥有海量数据的信息时代,如何高效精准地检索到所需信息是一项巨大挑战,主题爬虫是获取某个特定领域信息的有效途径。通用的主题相似度计算通常是基于词粒度的特征表达,而忽略了文本整体的主题特征表达,会影响爬虫系统的查准率和查全率。对此,提出融合BTM与TextCNN模型的主题爬虫,将内容主题判别模块当作文本分类问题研究,通过融合BTM得到的文本主题向量与Word2vec词向量以增强文本语义信息,利用卷积神经网络提升判别模块的精确度,弥补了传统卷积神经网络分类模型中文本特征表示不充分的问题。实验结果表明,在开源新闻文本分类数据集(THUCNews)和自定义爬取的真实论文数据集中,融合BTM与TextCNN模型在测试集中的平均分类精准率分别为93.7%和91.3%,比只采用TextCNN的平均分类精确率分别提升了0.6、1.3个百分点。 展开更多
关键词 主题爬虫 主题相似度 TextCNN BTM Word2vec
下载PDF
科学—技术—产业关联测度与主题演化规律研究——以生物医药领域为例
14
作者 刘春丽 臧东宇 陈爽 《图书情报工作》 北大核心 2024年第14期95-116,共22页
[目的/意义]科学、技术、产业之间相互关联,互为促进。特别是在生物医药领域,科学研究与专利技术的紧密关联加速推进了制药产业的创新发展。然而,科学研究、专利技术、药物产品之间如何关联及科学—技术—产业融合主题如何演化尚不明确... [目的/意义]科学、技术、产业之间相互关联,互为促进。特别是在生物医药领域,科学研究与专利技术的紧密关联加速推进了制药产业的创新发展。然而,科学研究、专利技术、药物产品之间如何关联及科学—技术—产业融合主题如何演化尚不明确。[方法/过程]对美国FDA橙皮书官网上的批准药物、药物的关键专利及专利引用的非专利参考文献进行反向引文追踪,从药物—专利—论文引文关系视角分析科学—技术—产业的关联强度与关联速度;基于药物、专利和论文文本建立语料库,利用BERTopic模型进行主题聚类,分析科技产业主题间的关联及其演化。[结果/结论]研究发现,科学关联度与技术关联度均呈逐年上升趋势,而科学—技术的关联速度及技术—产业的关联速度却有逐年下降的趋势;基于科学—技术—产业融合主题及其演化路径,定义6种主题演化模式;在剖析科学—技术—产业发展动力机制基础上,构建科学—技术—产业融合主题发展成熟度的分析框架,发现生物医药领域科学—技术—产业的知识关联与协同驱动可促进科学—技术—产业之间的知识交换,加快新技术的开发和转化,从而推动生物医药产业的创新发展。 展开更多
关键词 科学—技术关联 技术—产业关联 引文关系 主题关联 主题相似度 演化
原文传递
融合文本主题和社交关系的社交网络用户住所位置推测方法
15
作者 高嘉媛 熊伟 +2 位作者 陈荦 欧阳雪 杨凯钧 《地球信息科学学报》 EI CSCD 北大核心 2024年第2期488-498,共11页
在基于位置的应用领域中,如自然灾害监测、流感趋势预测、定向广告推广等,用户地理位置的推测起到重要的作用。现有方法主要利用文本内容和社交网络进行位置推测,一方面未能充分挖掘和融合2种信息,另一方面推测社交网络中孤立用户的位... 在基于位置的应用领域中,如自然灾害监测、流感趋势预测、定向广告推广等,用户地理位置的推测起到重要的作用。现有方法主要利用文本内容和社交网络进行位置推测,一方面未能充分挖掘和融合2种信息,另一方面推测社交网络中孤立用户的位置比较困难。因此,本文提出一种融合文本主题和社交关系图神经网络的社交网络用户住所位置推测方法(Social Relationship Graph Convolutional Network,SRGCN)。主要方法包括:首先,从文本内容中获取混合特征,利用TF-IDF获得文本特征向量,根据用户之间的提及信息建立初始社交关系图;其次,针对用户社交关系图中存在孤立用户并难以估计其位置的问题,建立主题模型,根据主题向量相似度为孤立用户建立联系,补充社交关系图;最后,基于图卷积神经网络处理社交关系图数据,对文本特征和网络结构进行联合建模,以有效推测用户的地理位置。在真实世界基准数据集GeoText上探究了主题相似度阈值对推测性能和图规模的影响,实验结果表明本文方法能够增加可定位用户的比例并将大部分属于同一类的用户节点聚集;SRGCN在平均距离误差、距离误差中位数、推测准确度方面均优于现有方法,在GeoText数据集上,Acc@161比性能最好的GCN高出1%,平均误差距离降低16 km。实验结果验证了SRGCN的有效性,该方法可以提高用户住所位置推测准确率。 展开更多
关键词 社交网络 文本主题 孤立用户 图神经网络 住所位置 主题相似度 地理位置推测
原文传递
基于期刊论文的学科间交叉主题识别研究 被引量:6
16
作者 夏磊 《新世纪图书馆》 CSSCI 2019年第12期62-67,共6页
本文以知网数据库中管理工程和情报学共12本CSSCI期刊5年的论文作为数据,通过AT主题模型、相似度计算识别学科间交叉主题并对其相似程度进行测度。实验表明,AT主题模型可以挖掘两个学科间交叉研究主题,并提供一定的语义描述。通过对比... 本文以知网数据库中管理工程和情报学共12本CSSCI期刊5年的论文作为数据,通过AT主题模型、相似度计算识别学科间交叉主题并对其相似程度进行测度。实验表明,AT主题模型可以挖掘两个学科间交叉研究主题,并提供一定的语义描述。通过对比关键词共现的方法,本文的方法可以提供交叉研究主题更多的语义特征,并便于判断高相似度的研究主题。 展开更多
关键词 主题模型 学科交叉 主题相似度
下载PDF
主题爬虫的设计与实现 被引量:6
17
作者 林子皓 《计算机技术与发展》 2014年第8期99-102,107,共5页
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上... 在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果较好地反映了主题爬虫的实用性。 展开更多
关键词 主题爬虫 HITS算法 主题相关度
下载PDF
战略性新兴产业前沿技术领域预测与合作潜力——基于主题相似网络关系的分析视角 被引量:6
18
作者 武川 王宏起 +1 位作者 李玥 张琳峰 《系统工程》 北大核心 2021年第4期151-158,共8页
战略性新兴产业已经成为世界各国抢占新一轮经济制高点的发展重点,精准识别战略性新兴产业前沿技术领域,提升产业技术创新合作成功率是形成战略性新兴产业核心竞争力的重要手段。通过建立LDA-GS模型提取文本主题,设计主题相似网络关系... 战略性新兴产业已经成为世界各国抢占新一轮经济制高点的发展重点,精准识别战略性新兴产业前沿技术领域,提升产业技术创新合作成功率是形成战略性新兴产业核心竞争力的重要手段。通过建立LDA-GS模型提取文本主题,设计主题相似网络关系建立方法,打破了技术创新网络仅建立在合作及IPC共现关系的局限。以石墨烯产业为实证分析对象,得出战略性新兴产业技术创新网络演化符合“单领域基础发展→新领域衍生发展→多领域分化发展”的规律;新兴前沿技术产生于成熟技术模块的技术临近区;战略性新兴产业技术创新网络集聚为利用式技术创新合作提供了基础,不同网络模块间的技术临近区为探索式技术创新合作创造了前提条件等结论。最后提出网络演化各阶段的政策建议与技术服务策略。 展开更多
关键词 战略性新兴产业 主题相似度 LDA-GS模型 技术预测 合作潜力
原文传递
一种基于主题的概率文档相关模型 被引量:3
19
作者 贾西平 彭宏 +1 位作者 郑启伦 石时需 《计算机科学》 CSCD 北大核心 2008年第10期178-180,218,共4页
现有文档关系分析模型难以从主题层次上判别文档相关性。为此,提出了一个基于主题的概率文档相关模型(TPDC)。TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率... 现有文档关系分析模型难以从主题层次上判别文档相关性。为此,提出了一个基于主题的概率文档相关模型(TPDC)。TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率;基于文档后验概率构建文档相关性分析模型。实验结果证明,TPDC模型在文档检索精度和文档压缩程度两方面优于向量空间模型,因而更能胜任实际应用中的文档检索任务。 展开更多
关键词 主题 主题相似性 文档相关性 文本挖掘
下载PDF
科研人员职业高峰前后的研究主题转换特征识别 被引量:5
20
作者 陈立雪 滕广青 +1 位作者 吕晶 庹锐 《图书情报工作》 CSSCI 北大核心 2021年第16期81-89,共9页
[目的/意义]探索科研人员职业发展情况及其研究主题的变化规律不仅可以揭示科学生产力发展的内在机制,也有助于对科学事业的发展提供更好的政策指导与支持。[方法/过程]基于自然科学、社会科学、艺术与人文科学的代表性学科数据,对科研... [目的/意义]探索科研人员职业发展情况及其研究主题的变化规律不仅可以揭示科学生产力发展的内在机制,也有助于对科学事业的发展提供更好的政策指导与支持。[方法/过程]基于自然科学、社会科学、艺术与人文科学的代表性学科数据,对科研人员的职业高峰进行识别。在此基础上以职业高峰作为科研人员学术生涯的划分依据,采用自然语言处理中的Top2Vec主题建模方法识别研究主题,对科研人员学术生涯不同阶段所研究主题的主题相似度和主题转换概率进行分析。[结果/结论]研究结果表明,各学科科研人员总体上在经历职业高峰之后的主题转换会更加频繁;而精英学者在经历职业高峰后其研究主题则反而更加专一。 展开更多
关键词 科研人员 职业高峰 Top2Vec 主题转换 主题相似度
原文传递
上一页 1 2 3 下一页 到第
使用帮助 返回顶部