期刊文献+
共找到1,003篇文章
< 1 2 51 >
每页显示 20 50 100
基于LDA模型的科技期刊主题演化研究 被引量:69
1
作者 李湘东 张娇 袁满 《情报杂志》 CSSCI 北大核心 2014年第7期115-121,共7页
提出一种基于LDA(Latent Dirichlet Allocation)潜在语义模型、全面研究科技期刊主题演化过程的方法。该方法根据科技期刊的特点引入时间因素,使用困惑度确定最优主题数目,通过LDA主题提取结果及JS散度,实现主题在强度和内容两方面的演... 提出一种基于LDA(Latent Dirichlet Allocation)潜在语义模型、全面研究科技期刊主题演化过程的方法。该方法根据科技期刊的特点引入时间因素,使用困惑度确定最优主题数目,通过LDA主题提取结果及JS散度,实现主题在强度和内容两方面的演化研究,并对不同时间窗口的主题稳定性做出相应分析。实验结果表明该方法可以较好地分析某一特定科技期刊的主题随时间的强度演化规律以及主题内容的演化趋势。 展开更多
关键词 lda模型 科技期刊 主题演化 主题稳定性
下载PDF
基于LDA模型的文本聚类研究 被引量:68
2
作者 王鹏 高铖 陈晓美 《情报科学》 CSSCI 北大核心 2015年第1期63-68,共6页
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的... 在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。 展开更多
关键词 文本聚类 lda模型 文本相似度 层次聚类
原文传递
基于LDA模型的国内外数据挖掘研究热点主题演化对比分析 被引量:67
3
作者 谭春辉 熊梦媛 《情报科学》 CSSCI 北大核心 2021年第4期174-185,共12页
【目的/意义】揭示并对比国内外数据挖掘领域研究热点主题的演化过程。【方法/过程】收集1998-2018年CNKI及Web of Science收录的数据挖掘领域核心期刊论文,通过LDA主题模型抽取研究主题,并基于主题生命周期识别热点主题,结合时间片构... 【目的/意义】揭示并对比国内外数据挖掘领域研究热点主题的演化过程。【方法/过程】收集1998-2018年CNKI及Web of Science收录的数据挖掘领域核心期刊论文,通过LDA主题模型抽取研究主题,并基于主题生命周期识别热点主题,结合时间片构建主题的演化路径,从数据挖掘研究的理论维度和应用维度来对比分析国内外数据挖掘领域热点主题演化的区别与联系。【结果/结论】数据挖掘领域在理论维度上,国内的研究内容滞后于国外;在应用维度上,国内偏向于在社会科学上的应用,国外偏向于在自然科学上的应用;数据挖掘领域整体研究重心由理论研究逐渐转向应用研究,且结合大数据技术有许多新兴发展。【创新/局限】本文为可视化和比较国内外数据挖掘领域热点问题的演化过程提供了一种新的思路,局限在于还未对国内外数据挖掘领域的滞后性和影响因素进行定量分析。 展开更多
关键词 lda模型 主题生命周期 主题演化 数据挖掘 热点主题 信息可视化
原文传递
基于LDA模型的文本分割 被引量:54
4
作者 石晶 胡明 +1 位作者 石鑫 戴国忠 《计算机学报》 EI CSCD 北大核心 2008年第10期1865-1873,共9页
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题... 文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系.实验以汉语的整句作为基本块,尝试多种相似性度量手段及边界估计策略,其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其它同类算法. 展开更多
关键词 文本分割 lda模型 相似性度量 边界识别
下载PDF
基于语义约束LDA的商品特征和情感词提取 被引量:54
5
作者 彭云 万常选 +3 位作者 江腾蛟 刘德喜 刘喜平 廖国琼 《软件学报》 EI CSCD 北大核心 2017年第3期676-693,共18页
随着网络购物的发展,Web上产生了大量的商品评论文本数据,其中蕴含着丰富的评价知识.如何从这些海量评论文本中有效地提取商品特征和情感词,进而获取特征级别的情感倾向,是进行商品评论细粒度情感分析的关键.根据中文商品评论文本的特点... 随着网络购物的发展,Web上产生了大量的商品评论文本数据,其中蕴含着丰富的评价知识.如何从这些海量评论文本中有效地提取商品特征和情感词,进而获取特征级别的情感倾向,是进行商品评论细粒度情感分析的关键.根据中文商品评论文本的特点,从句法分析、词义理解和语境相关等多角度获取词语间的语义关系,然后将其作为约束知识嵌入到主题模型,提出语义关系约束的主题模型SRC-LDA(semantic relation constrained LDA),用来实现语义指导下LDA的细粒度主题词提取.由于SRC-LDA改善了标准LDA对于主题词的语义理解和识别能力,从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度,可以更多地发现细粒度特征词、情感词及其之间的语义关联性.实验结果表明,SRC-LDA对于细粒度特征和情感词的发现和提取具有较好的效果. 展开更多
关键词 lda模型 语义约束 商品特征 情感词
下载PDF
基于LDA模型的主题词抽取方法 被引量:47
6
作者 石晶 李万龙 《计算机工程》 CAS CSCD 北大核心 2010年第19期81-83,共3页
以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的... 以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的速度约比传统Gibbs算法高5倍,准确率和抽取效率均较高。 展开更多
关键词 lda模型 GIBBS抽样 主题词抽取
下载PDF
基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究 被引量:44
7
作者 吴江 侯绍新 +1 位作者 靳萌萌 胡忠义 《情报学报》 CSSCI CSCD 北大核心 2017年第11期1183-1191,共9页
随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化... 随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化其用户管理和信息推荐。已有的研究对象主要集中在英文在线医疗社区,鲜有文献对中文在线医疗社区进行研究。基于社会支持理论,本文设计了一个中文用户文本挖掘流程来研究中文在线医疗社区中的社会支持类型和用户参与。利用中文文本挖掘及机器学习方法,对中文糖尿病社区"甜蜜家园"进行研究。本文利用LDA(Latent Dirichlet Allocation)模型进行特征提取来构建低维度文本表示向量,采用二元分类法将用户文本分为不同的社会支持类型。最后,基于分类结果使用K-means算法进行用户聚类来识别用户角色。相比传统的特征提取方法,利用LDA进行特征提取能显著地降低数据维度,优化分类模型,提高分类准确率和分类效率。结果表明,本文提出的中文用户文本挖掘流程在文本分类与用户聚类中效果显著。 展开更多
关键词 在线医疗社区 lda模型 特征提取 文本分类 用户聚类
下载PDF
基于LDA模型的主题分析 被引量:34
8
作者 石晶 范猛 李万龙 《自动化学报》 EI CSCD 北大核心 2009年第12期1586-1592,共7页
在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latent dirichlet allocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片... 在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latent dirichlet allocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片段边界.依据词汇的香农信息提取片段主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵.实验表明,文本分析的结果明显好于其他方法,可以为下一步文本推理的工作提供有价值的预处理. 展开更多
关键词 主题分析 lda模型 文本分割 GIBBS抽样
下载PDF
基于局部语义聚类的语义重叠社区发现算法 被引量:36
9
作者 辛宇 杨静 +1 位作者 汤楚蘅 葛斯乔 《计算机研究与发展》 EI CSCD 北大核心 2015年第7期1510-1521,共12页
语义社会网络是一种包含信息节点及社会关系构成的新型复杂网络,因此以节点邻接关系为挖掘对象的传统社会网络社区发现算法无法有效处理语义社会网络重叠社区发现问题.针对这一问题,提出基于局部语义聚类的语义社会网络重叠社区发现算法... 语义社会网络是一种包含信息节点及社会关系构成的新型复杂网络,因此以节点邻接关系为挖掘对象的传统社会网络社区发现算法无法有效处理语义社会网络重叠社区发现问题.针对这一问题,提出基于局部语义聚类的语义社会网络重叠社区发现算法,该算法:1)以LDA(latent Dirichlet allocation)模型为语义信息模型,利用Gibbs取样法建立节点语义信息到语义空间的量化映射;2)以节点间语义坐标的相对熵作为节点语义相似度的度量,建立节点相似度矩阵;3)根据社会网络的局部小世界特性,提出语义社会网络的局部社区结构S-fitness模型,并根据S-fitness模型建立了局部语义聚类算法(local semantic clusterm,LSC);4)提出可度量语义社区发现结果的语义模块度模型,并通过实验分析,验证了算法及语义模块度模型的有效性及可行性. 展开更多
关键词 语义社会网络 重叠社区发现 lda模型 相对熵 Gibbs取样 局部语义聚类
下载PDF
LDA模型下我国公共图书馆微信平台阅读推广内容主题研究 被引量:36
10
作者 李倩 王帅 《图书情报工作》 CSSCI 北大核心 2022年第8期72-83,共12页
[目的/意义]识别国内公共图书馆借助微信公众平台开展阅读推广的内容主题及演化特征。[方法/过程]获取我国31家省级公共图书馆微信号发布的推文,对阅读推广内容进行界定和选取,运用LDA主题模型实现对阅读推广内容的主题识别、演化和阅... [目的/意义]识别国内公共图书馆借助微信公众平台开展阅读推广的内容主题及演化特征。[方法/过程]获取我国31家省级公共图书馆微信号发布的推文,对阅读推广内容进行界定和选取,运用LDA主题模型实现对阅读推广内容的主题识别、演化和阅读量分析。[结果/结论]发现当前公共图书馆借助微信开展的阅读推广内容主题可分为九大类,涵盖范围较广,每个主题随着时间的推移呈现不同的演化趋势,每个主题的阅读量也体现出不同的受欢迎程度。从推广内容的科学规划配比、推广内容从属地位的逆转、特殊人群推广内容设置、推广内容及形式的创新设计、打造品牌推广内容等角度对公共图书馆未来的微信阅读推广工作提出建议。 展开更多
关键词 lda模型 微信公众平台 阅读推广 主题挖掘
原文传递
基于LDA-SVM论文摘要多分类新兴技术预测 被引量:35
11
作者 董放 刘宇飞 周源 《情报杂志》 CSSCI 北大核心 2017年第7期40-45,133,共7页
[目的/意义]基于文献计量学的新兴技术预测方法能够避免现有德尔菲法的专家依赖性,但是文献所属技术领域的划分仍需依据领域知识设计复杂的检索式。[方法/过程]提出了一种基于机器学习和时间序列预测的新兴技术预测方法,LDA主题模型与S... [目的/意义]基于文献计量学的新兴技术预测方法能够避免现有德尔菲法的专家依赖性,但是文献所属技术领域的划分仍需依据领域知识设计复杂的检索式。[方法/过程]提出了一种基于机器学习和时间序列预测的新兴技术预测方法,LDA主题模型与SVM(支持向量机)分类模型连用的机器学习方法解决了海量论文摘要数据按照新兴技术类别的多分类,通过ARIMA(差分自回归移动平均模型)模型对时序论文未来数量的预测,分析以技术为驱动力的新兴技术发展趋势。[结果/结论]最后,以机器人技术为例,提取Web of Science(WOS)论文数据库上万条数据,对7个新兴领域发展趋势进行预测,为新兴技术预测工作提供有益的数据和方法支持。 展开更多
关键词 新兴技术预测 lda模型 SVM模型 论文摘要 时间序列预测
下载PDF
基于主题模型和曲线拟合的新兴主题趋势预测研究 被引量:34
12
作者 白敬毅 颜端武 陈琼 《情报理论与实践》 CSSCI 北大核心 2020年第7期130-136,193,共8页
[目的/意义]识别新兴研究主题并预测其发展趋势,对科技创新和科研决策具有重要意义。[方法/过程]提出基于主题模型和曲线拟合的新兴主题趋势预测方法。该方法应用LDA主题模型进行科技文献主题划分,然后将主题新颖性、增长性、影响力等... [目的/意义]识别新兴研究主题并预测其发展趋势,对科技创新和科研决策具有重要意义。[方法/过程]提出基于主题模型和曲线拟合的新兴主题趋势预测方法。该方法应用LDA主题模型进行科技文献主题划分,然后将主题新颖性、增长性、影响力等特征指标依次赋权叠加构建主题新兴指标,利用多维尺度绘制主题分布矩阵以识别和探测新兴主题。最后基于主题新兴指标时序特征进行曲线拟合,预测新兴主题未来发展趋势。[结果/结论]利用Web of Science数据库中1997—2017年燃料电池领域的94661篇文献,进行实证研究。结果表明该方法能够有效识别燃料电池领域新兴研究主题,相对于时间序列自回归预测方法,曲线拟合预测方法具有较高准确率。 展开更多
关键词 新兴主题 lda模型 多维尺度分析 曲线拟合 趋势预测
原文传递
综合LDA与特征维度的丽江古城意象感知分析 被引量:31
13
作者 梁晨晨 李仁杰 《地理科学进展》 CSSCI CSCD 北大核心 2020年第4期614-626,共13页
论文通过建立基于LDA(Latent Dirichlet Allocation)模型和包含两级特征维度的旅游地意象感知研究框架,将LDA主题模型用于旅游微博文本分析,以特征维度半定量刻画旅游地意象感知特征,减少LDA主题凝练的主观性,帮助研究者在特定维度框架... 论文通过建立基于LDA(Latent Dirichlet Allocation)模型和包含两级特征维度的旅游地意象感知研究框架,将LDA主题模型用于旅游微博文本分析,以特征维度半定量刻画旅游地意象感知特征,减少LDA主题凝练的主观性,帮助研究者在特定维度框架约束下准确、客观地提取旅游地意象特征。丽江古城案例证明,一级特征维度可以完整勾勒出丽江古城意象感知的基本框架,包括以聚落形态、音乐意境、标志人物、休闲空间和纳西美食为核心的5组空间与景观元素,深度旅游者、城市居民、年轻人、女孩子4类人群的特殊感知体验,及旅游者与环境要素的不同互动特征;二级特征维度进一步精细解读丽江古城的意象感知特征,表现为丽江古城慢活性、夜生活和浪漫之都的文化意象、旅游者对地方文化与现代风情融合的凝视与体验等。结合特征维度的LDA模型,准确构建了意象基本框架,成功刻画了丽江古城的形象及精细特征,并能进一步解析意象的形成机制,为旅游地意象感知研究提供了新视角,有助于深度解读意象形成的地方意义,厘清认知、情感和行为意象间的关系。 展开更多
关键词 lda模型 特征维度 共现关系 意象特征 新浪微博 丽江古城
原文传递
基于潜在语义分析的微博主题挖掘模型研究 被引量:31
14
作者 唐晓波 王洪艳 《图书情报工作》 CSSCI 北大核心 2012年第24期114-119,共6页
为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Alloca-tion)进行微博主题挖掘,并在LD... 为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Alloca-tion)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。 展开更多
关键词 微博 短文本 主题挖掘 lda模型 增量聚类
原文传递
基于LDA模型和话题过滤的研究主题演化分析 被引量:29
15
作者 李保利 杨星 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2738-2743,共6页
针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题... 针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响. 展开更多
关键词 lda模型 主题演化 种子话题 话题过滤 加权线性组合
下载PDF
融合引文内容和全文本引文分析的知识流动研究 被引量:29
16
作者 张艺蔓 马秀峰 程结晶 《情报杂志》 CSSCI 北大核心 2015年第11期50-54,49,共6页
提出将引文内容分析与全文本引文分析相结合的方法,分析知识流动情况,建立三个文献集:施引文献集、原始文献集和参考文献集。通过原始文献集的桥梁作用,利用引用与被引用的关系,将三个文献集联系起来,分别提取三个文献集的主题,探测出... 提出将引文内容分析与全文本引文分析相结合的方法,分析知识流动情况,建立三个文献集:施引文献集、原始文献集和参考文献集。通过原始文献集的桥梁作用,利用引用与被引用的关系,将三个文献集联系起来,分别提取三个文献集的主题,探测出学科内部与学科间知识流动的趋势,证实了提出方法的有效性,可以利用此方法进行知识流动方面的研究,且对于预测学科发展有重要意义。 展开更多
关键词 引文内容分析 全文本引文分析 知识流动 lda模型
下载PDF
基于主题的自适应、在线网络热点发现方法及新闻推荐系统 被引量:29
17
作者 吴永辉 王晓龙 +2 位作者 丁宇新 徐军 郭鸿志 《电子学报》 EI CAS CSCD 北大核心 2010年第11期2620-2624,共5页
本文提出了一种基于改进HotRank算法的站点排序及种子URL选择方法,建立了在线主题发现系统信息采集自适应增量更新模型;结合LDA模型和仿射传播聚类算法(AP),提出了一种网络主题发现和热点新闻推荐方法,并在海天园知识服务平台热点新闻... 本文提出了一种基于改进HotRank算法的站点排序及种子URL选择方法,建立了在线主题发现系统信息采集自适应增量更新模型;结合LDA模型和仿射传播聚类算法(AP),提出了一种网络主题发现和热点新闻推荐方法,并在海天园知识服务平台热点新闻推荐系统中得到了应用. 展开更多
关键词 知识服务 主题发现 增量 自适应 lda模型 仿射传播聚类
下载PDF
基于LDA模型的国内图书情报学研究主题发现及演化分析 被引量:27
18
作者 林丽丽 马秀峰 《情报科学》 CSSCI 北大核心 2019年第12期87-92,共6页
【目的/意义】为了解近年来图书情报研究的热门主题及其演化趋势,利用LDA模型进行文本挖掘。【方法/过程】选取CNKI作为检索数据库,以2006年至2017年图书情报学领域10本核心期刊中的论文摘要作为研究数据,借助开源工具JGibbLDA构建LDA模... 【目的/意义】为了解近年来图书情报研究的热门主题及其演化趋势,利用LDA模型进行文本挖掘。【方法/过程】选取CNKI作为检索数据库,以2006年至2017年图书情报学领域10本核心期刊中的论文摘要作为研究数据,借助开源工具JGibbLDA构建LDA模型,运用困惑度来确定模型主题数目,根据主题-词项分布文件进行主题标识,根据文档-主题分布文件计算主题强度。【结果/结论】2006年至2017年图书情报学领域有20个研究主题,其中比较热门的主题有7个;8个主题的强度呈上升趋势,9个主题的强度呈下降趋势,3个主题的强度变化幅度较小。 展开更多
关键词 图书情报学 lda模型 研究主题 主题演化
原文传递
基于潜在狄利克雷分配模型的微博主题演化分析 被引量:27
19
作者 唐晓波 王洪艳 《情报学报》 CSSCI 北大核心 2013年第3期281-287,共7页
微博主题的演化分析会帮助用户快速准确地理解主题脉络结构、跟踪主题发展情况,并根据主题演化做出相应的预测。本文对概率主题模型LDA(Latent Dirichlet Allocation)进行了扩展,使其适合中文微博短文本的处理,并利用LDA建模结果... 微博主题的演化分析会帮助用户快速准确地理解主题脉络结构、跟踪主题发展情况,并根据主题演化做出相应的预测。本文对概率主题模型LDA(Latent Dirichlet Allocation)进行了扩展,使其适合中文微博短文本的处理,并利用LDA建模结果对微博主题进行演化分析。为了体现不同时间片中主题演化的动态性,本文在使用LDA建模之前首先对每个时间片内最优主题数目进行确定,再通过LDA主题抽取结果,追踪不同时间片内主题的变化趋势,实现主题在内容和强度两个方面的演化分析。通过在真实微博语料库上进行实验,结果表明该方法不但可以较好地分析出同一微博主题随时间的强度演化规律,还可以描述主题内容的演化趋势。 展开更多
关键词 lda模型 主题演化 JS距离 微博
下载PDF
LDA模型在话题追踪中的应用 被引量:27
20
作者 张晓艳 王挺 梁晓波 《计算机科学》 CSCD 北大核心 2011年第B10期136-139,152,共5页
随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。"话题"是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所... 随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。"话题"是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所有报道。把LDA模型用于话题追踪,目的有两个:(一)检验LDA话题对追踪话题的表示能力;(二)检验LDA模型在挖掘训练数据中的追踪话题时,LDA话题和追踪话题之间的关系。实验表明:相对于经典的向量空间模型和一元语言模型,以及专门针对追踪话题提出的事件模型,基于LDA模型的追踪性能更好,但由于粒度不同,LDA模型中的话题和追踪话题并没有直接的一一对应的关系,实现可定制话题的LDA模型是下一步工作的目标。 展开更多
关键词 lda模型 话题追踪 话题
下载PDF
上一页 1 2 51 下一页 到第
使用帮助 返回顶部