期刊文献+
共找到734篇文章
< 1 2 37 >
每页显示 20 50 100
基于LDA模型的文本聚类研究 被引量:67
1
作者 王鹏 高铖 陈晓美 《情报科学》 CSSCI 北大核心 2015年第1期63-68,共6页
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的... 在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。 展开更多
关键词 文本聚类 lda模型 文本相似度 层次聚类
原文传递
基于LDA模型的科技期刊主题演化研究 被引量:66
2
作者 李湘东 张娇 袁满 《情报杂志》 CSSCI 北大核心 2014年第7期115-121,共7页
提出一种基于LDA(Latent Dirichlet Allocation)潜在语义模型、全面研究科技期刊主题演化过程的方法。该方法根据科技期刊的特点引入时间因素,使用困惑度确定最优主题数目,通过LDA主题提取结果及JS散度,实现主题在强度和内容两方面的演... 提出一种基于LDA(Latent Dirichlet Allocation)潜在语义模型、全面研究科技期刊主题演化过程的方法。该方法根据科技期刊的特点引入时间因素,使用困惑度确定最优主题数目,通过LDA主题提取结果及JS散度,实现主题在强度和内容两方面的演化研究,并对不同时间窗口的主题稳定性做出相应分析。实验结果表明该方法可以较好地分析某一特定科技期刊的主题随时间的强度演化规律以及主题内容的演化趋势。 展开更多
关键词 lda模型 科技期刊 主题演化 主题稳定性
下载PDF
基于LDA模型的国内外数据挖掘研究热点主题演化对比分析 被引量:62
3
作者 谭春辉 熊梦媛 《情报科学》 CSSCI 北大核心 2021年第4期174-185,共12页
【目的/意义】揭示并对比国内外数据挖掘领域研究热点主题的演化过程。【方法/过程】收集1998-2018年CNKI及Web of Science收录的数据挖掘领域核心期刊论文,通过LDA主题模型抽取研究主题,并基于主题生命周期识别热点主题,结合时间片构... 【目的/意义】揭示并对比国内外数据挖掘领域研究热点主题的演化过程。【方法/过程】收集1998-2018年CNKI及Web of Science收录的数据挖掘领域核心期刊论文,通过LDA主题模型抽取研究主题,并基于主题生命周期识别热点主题,结合时间片构建主题的演化路径,从数据挖掘研究的理论维度和应用维度来对比分析国内外数据挖掘领域热点主题演化的区别与联系。【结果/结论】数据挖掘领域在理论维度上,国内的研究内容滞后于国外;在应用维度上,国内偏向于在社会科学上的应用,国外偏向于在自然科学上的应用;数据挖掘领域整体研究重心由理论研究逐渐转向应用研究,且结合大数据技术有许多新兴发展。【创新/局限】本文为可视化和比较国内外数据挖掘领域热点问题的演化过程提供了一种新的思路,局限在于还未对国内外数据挖掘领域的滞后性和影响因素进行定量分析。 展开更多
关键词 lda模型 主题生命周期 主题演化 数据挖掘 热点主题 信息可视化
原文传递
基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究 被引量:44
4
作者 吴江 侯绍新 +1 位作者 靳萌萌 胡忠义 《情报学报》 CSSCI CSCD 北大核心 2017年第11期1183-1191,共9页
随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化... 随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化其用户管理和信息推荐。已有的研究对象主要集中在英文在线医疗社区,鲜有文献对中文在线医疗社区进行研究。基于社会支持理论,本文设计了一个中文用户文本挖掘流程来研究中文在线医疗社区中的社会支持类型和用户参与。利用中文文本挖掘及机器学习方法,对中文糖尿病社区"甜蜜家园"进行研究。本文利用LDA(Latent Dirichlet Allocation)模型进行特征提取来构建低维度文本表示向量,采用二元分类法将用户文本分为不同的社会支持类型。最后,基于分类结果使用K-means算法进行用户聚类来识别用户角色。相比传统的特征提取方法,利用LDA进行特征提取能显著地降低数据维度,优化分类模型,提高分类准确率和分类效率。结果表明,本文提出的中文用户文本挖掘流程在文本分类与用户聚类中效果显著。 展开更多
关键词 在线医疗社区 lda模型 特征提取 文本分类 用户聚类
下载PDF
基于主题模型和曲线拟合的新兴主题趋势预测研究 被引量:31
5
作者 白敬毅 颜端武 陈琼 《情报理论与实践》 CSSCI 北大核心 2020年第7期130-136,193,共8页
[目的/意义]识别新兴研究主题并预测其发展趋势,对科技创新和科研决策具有重要意义。[方法/过程]提出基于主题模型和曲线拟合的新兴主题趋势预测方法。该方法应用LDA主题模型进行科技文献主题划分,然后将主题新颖性、增长性、影响力等... [目的/意义]识别新兴研究主题并预测其发展趋势,对科技创新和科研决策具有重要意义。[方法/过程]提出基于主题模型和曲线拟合的新兴主题趋势预测方法。该方法应用LDA主题模型进行科技文献主题划分,然后将主题新颖性、增长性、影响力等特征指标依次赋权叠加构建主题新兴指标,利用多维尺度绘制主题分布矩阵以识别和探测新兴主题。最后基于主题新兴指标时序特征进行曲线拟合,预测新兴主题未来发展趋势。[结果/结论]利用Web of Science数据库中1997—2017年燃料电池领域的94661篇文献,进行实证研究。结果表明该方法能够有效识别燃料电池领域新兴研究主题,相对于时间序列自回归预测方法,曲线拟合预测方法具有较高准确率。 展开更多
关键词 新兴主题 lda模型 多维尺度分析 曲线拟合 趋势预测
原文传递
综合LDA与特征维度的丽江古城意象感知分析 被引量:30
6
作者 梁晨晨 李仁杰 《地理科学进展》 CSSCI CSCD 北大核心 2020年第4期614-626,共13页
论文通过建立基于LDA(Latent Dirichlet Allocation)模型和包含两级特征维度的旅游地意象感知研究框架,将LDA主题模型用于旅游微博文本分析,以特征维度半定量刻画旅游地意象感知特征,减少LDA主题凝练的主观性,帮助研究者在特定维度框架... 论文通过建立基于LDA(Latent Dirichlet Allocation)模型和包含两级特征维度的旅游地意象感知研究框架,将LDA主题模型用于旅游微博文本分析,以特征维度半定量刻画旅游地意象感知特征,减少LDA主题凝练的主观性,帮助研究者在特定维度框架约束下准确、客观地提取旅游地意象特征。丽江古城案例证明,一级特征维度可以完整勾勒出丽江古城意象感知的基本框架,包括以聚落形态、音乐意境、标志人物、休闲空间和纳西美食为核心的5组空间与景观元素,深度旅游者、城市居民、年轻人、女孩子4类人群的特殊感知体验,及旅游者与环境要素的不同互动特征;二级特征维度进一步精细解读丽江古城的意象感知特征,表现为丽江古城慢活性、夜生活和浪漫之都的文化意象、旅游者对地方文化与现代风情融合的凝视与体验等。结合特征维度的LDA模型,准确构建了意象基本框架,成功刻画了丽江古城的形象及精细特征,并能进一步解析意象的形成机制,为旅游地意象感知研究提供了新视角,有助于深度解读意象形成的地方意义,厘清认知、情感和行为意象间的关系。 展开更多
关键词 lda模型 特征维度 共现关系 意象特征 新浪微博 丽江古城
原文传递
基于LDA模型和话题过滤的研究主题演化分析 被引量:29
7
作者 李保利 杨星 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2738-2743,共6页
针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题... 针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响. 展开更多
关键词 lda模型 主题演化 种子话题 话题过滤 加权线性组合
下载PDF
基于专利文献的多指标新兴技术识别研究 被引量:27
8
作者 宋欣娜 郭颖 席笑文 《情报杂志》 CSSCI 北大核心 2020年第6期76-81,88,共7页
[目的/意义]对新兴技术进行识别,有助于跟踪新兴技术的最新发展动态,为国家、企业、学术界提供最新的情报。[方法/过程]以专利数据为基础,利用文献计量学和文本挖掘方法对纳米载药系统领域进行了新兴技术识别。首先,确定了识别体系中的... [目的/意义]对新兴技术进行识别,有助于跟踪新兴技术的最新发展动态,为国家、企业、学术界提供最新的情报。[方法/过程]以专利数据为基础,利用文献计量学和文本挖掘方法对纳米载药系统领域进行了新兴技术识别。首先,确定了识别体系中的四个指标:新颖性、持久性、社区性、增长性,并为四个指标设定了相应的筛选条件。与前人研究相比,考虑了主题扩散和不同数据集增长模式的差异,使筛选条件更为完善;通过引入新兴分数和LDA主题模型分别得到了新兴术语和新兴主题,实现了在术语和主题两个层面对新兴技术的识别;使用指标验证法对得到的新兴术语进行了验证,并与前人研究方法进行了对比。[结果/结论]结果表明,该方法优化了现有的新兴技术识别模型。 展开更多
关键词 新兴技术 专利数据 文献计量学 文本挖掘 lda主题模型 指标验证法
下载PDF
基于潜在狄利克雷分配模型的微博主题演化分析 被引量:27
9
作者 唐晓波 王洪艳 《情报学报》 CSSCI 北大核心 2013年第3期281-287,共7页
微博主题的演化分析会帮助用户快速准确地理解主题脉络结构、跟踪主题发展情况,并根据主题演化做出相应的预测。本文对概率主题模型LDA(Latent Dirichlet Allocation)进行了扩展,使其适合中文微博短文本的处理,并利用LDA建模结果... 微博主题的演化分析会帮助用户快速准确地理解主题脉络结构、跟踪主题发展情况,并根据主题演化做出相应的预测。本文对概率主题模型LDA(Latent Dirichlet Allocation)进行了扩展,使其适合中文微博短文本的处理,并利用LDA建模结果对微博主题进行演化分析。为了体现不同时间片中主题演化的动态性,本文在使用LDA建模之前首先对每个时间片内最优主题数目进行确定,再通过LDA主题抽取结果,追踪不同时间片内主题的变化趋势,实现主题在内容和强度两个方面的演化分析。通过在真实微博语料库上进行实验,结果表明该方法不但可以较好地分析出同一微博主题随时间的强度演化规律,还可以描述主题内容的演化趋势。 展开更多
关键词 lda模型 主题演化 JS距离 微博
下载PDF
基于概率主题模型的文档聚类 被引量:24
10
作者 王李冬 魏宝刚 袁杰 《电子学报》 EI CAS CSCD 北大核心 2012年第11期2346-2350,共5页
为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法... 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法. 展开更多
关键词 主题模型 lda模型 TC-lda模型 文档聚类
下载PDF
LDA模型下我国公共图书馆微信平台阅读推广内容主题研究 被引量:25
11
作者 李倩 王帅 《图书情报工作》 CSSCI 北大核心 2022年第8期72-83,共12页
[目的/意义]识别国内公共图书馆借助微信公众平台开展阅读推广的内容主题及演化特征。[方法/过程]获取我国31家省级公共图书馆微信号发布的推文,对阅读推广内容进行界定和选取,运用LDA主题模型实现对阅读推广内容的主题识别、演化和阅... [目的/意义]识别国内公共图书馆借助微信公众平台开展阅读推广的内容主题及演化特征。[方法/过程]获取我国31家省级公共图书馆微信号发布的推文,对阅读推广内容进行界定和选取,运用LDA主题模型实现对阅读推广内容的主题识别、演化和阅读量分析。[结果/结论]发现当前公共图书馆借助微信开展的阅读推广内容主题可分为九大类,涵盖范围较广,每个主题随着时间的推移呈现不同的演化趋势,每个主题的阅读量也体现出不同的受欢迎程度。从推广内容的科学规划配比、推广内容从属地位的逆转、特殊人群推广内容设置、推广内容及形式的创新设计、打造品牌推广内容等角度对公共图书馆未来的微信阅读推广工作提出建议。 展开更多
关键词 lda模型 微信公众平台 阅读推广 主题挖掘
原文传递
LDA模型在话题追踪中的应用 被引量:26
12
作者 张晓艳 王挺 梁晓波 《计算机科学》 CSCD 北大核心 2011年第B10期136-139,152,共5页
随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。"话题"是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所... 随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。"话题"是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所有报道。把LDA模型用于话题追踪,目的有两个:(一)检验LDA话题对追踪话题的表示能力;(二)检验LDA模型在挖掘训练数据中的追踪话题时,LDA话题和追踪话题之间的关系。实验表明:相对于经典的向量空间模型和一元语言模型,以及专门针对追踪话题提出的事件模型,基于LDA模型的追踪性能更好,但由于粒度不同,LDA模型中的话题和追踪话题并没有直接的一一对应的关系,实现可定制话题的LDA模型是下一步工作的目标。 展开更多
关键词 lda模型 话题追踪 话题
下载PDF
基于LDA和本体的科学前沿识别与分析方法研究 被引量:25
13
作者 冯佳 张云秋 《情报理论与实践》 CSSCI 北大核心 2017年第8期49-54,共6页
[目的/意义]鉴于及时准确把握科学前沿的重要意义,文章针对目前科学前沿识别方法存在的问题,提出基于LDA和本体的科学前沿识别及分析方法。[方法/过程]通过LDA模型抽取研究主题,采用主题强度和主题新颖度两个指标来识别科学前沿主题,并... [目的/意义]鉴于及时准确把握科学前沿的重要意义,文章针对目前科学前沿识别方法存在的问题,提出基于LDA和本体的科学前沿识别及分析方法。[方法/过程]通过LDA模型抽取研究主题,采用主题强度和主题新颖度两个指标来识别科学前沿主题,并基于领域本体进行概念映射来挖掘科学前沿主题的语义类型,从而实现科学前沿的语义分析。[结果/结论]基于LDA模型抽取的10个研究主题中,确定了4个科学前沿。该方法在科学前沿主题的表示方面,主题识别的方法和结果的语义分析方面都有一定的改进。 展开更多
关键词 科学前沿 主题模型 语义分析 lda模型
原文传递
基于LDA模型与ATM模型的学者影响力评价研究——以我国核物理学科为例 被引量:24
14
作者 赵蓉英 戴祎璠 王旭 《情报科学》 CSSCI 北大核心 2019年第6期3-9,共7页
【目的/意义】学者影响力评价是国内外研究的热点,本研究在学者影响力评价指标h指数与z指数中加入"主题"维度弥补过往研究的不足。【方法/过程】以核物理学科为例检验模型的有效性,利用网络爬虫在中国知网抓取文献共计11419... 【目的/意义】学者影响力评价是国内外研究的热点,本研究在学者影响力评价指标h指数与z指数中加入"主题"维度弥补过往研究的不足。【方法/过程】以核物理学科为例检验模型的有效性,利用网络爬虫在中国知网抓取文献共计11419条。经数据预处理后,首先,利用LDA模型对文献分类,得到我国核物理学科的八个研究主题:核反应研究、放射性衰变与新元素合成、核物理应用研究、核物理计算、核反应实验装置设计、核数据测量方法与数据库建设评价、核结构研究与核天体物理研究。其次,利用ATM模型对学者分类。最后,利用上述分类结果分别计算学者的hk指数与zk指数,并将结果与h指数和z指数比较。【方法/过程】经过相关性检验,研究结果与h指数和z指数有较高一致性。因此,利用LDA模型和ATM模型融合学者影响力评价指数h指数和z指数可以更加科学地评估学者的影响力,弥补了全学科评价指标的缺陷。 展开更多
关键词 核物理 lda模型 ATM模型 H指数 Z指数
原文传递
多源信息视角下的多指标新兴技术主题识别研究——以智能网联汽车领域为例 被引量:23
15
作者 唐恒 邱悦文 《情报杂志》 CSSCI 北大核心 2021年第3期81-88,共8页
[目的/意义]为提高新兴技术主题识别的全面性、准确性,在专利、论文信息的基础上,融入舆情信息,提出一种复合型的新兴技术主题识别方法,以期能为微观层面新兴技术主题识别方法的研究提供参考。[方法/过程]面向专利、期刊论文、学位论文... [目的/意义]为提高新兴技术主题识别的全面性、准确性,在专利、论文信息的基础上,融入舆情信息,提出一种复合型的新兴技术主题识别方法,以期能为微观层面新兴技术主题识别方法的研究提供参考。[方法/过程]面向专利、期刊论文、学位论文、会议论文、舆情共5种不同的科技文献类型,运用LDA模型从多源异构文本中获取主题词,并进行融合分析,提取候选新兴技术主题;设计识别指标体系,弥补现有指标体系缺乏未来前景相应指标的不足;运用CRITIC法进行综合评价,确定最终的新兴技术主题。[结果/结论]以智能网联汽车为实验对象,成功识别出多传感器融合信息技术这项新兴技术,实验结果与业界分析保持一致,说明多源信息视角下的多指标新兴技术主题识别方法能有效地对多源异构文本开展新兴技术的主题识别。 展开更多
关键词 主题识别 新兴技术 lda模型 智能网联汽车 EM CRITIC
下载PDF
基于LDA模型的公众反馈意见采纳研究——共享单车政策修订与数据挖掘的对比分析 被引量:23
16
作者 杨奕 张毅 +1 位作者 李梅 邓雯 《情报科学》 CSSCI 北大核心 2019年第1期86-93,共8页
【目的/意义】通过数据挖掘、文本分析法整合公众分散的反馈意见,对比研究出台政策,对政府部门吸纳公众意见,制定科学合理的公共政策具有重要意义。【方法/过程】基于大数据技术深度挖掘公众对共享单车政策征求意见稿的反馈内容,采用LD... 【目的/意义】通过数据挖掘、文本分析法整合公众分散的反馈意见,对比研究出台政策,对政府部门吸纳公众意见,制定科学合理的公共政策具有重要意义。【方法/过程】基于大数据技术深度挖掘公众对共享单车政策征求意见稿的反馈内容,采用LDA模型从公众反馈意见中发现并提取低维主题集合,汇总、组织、分析大规模文本信息,以主题领域和隶属概率值两维度,对比公众意见与政策修订的差异。【结果/结论】从制度体系、政府治理、企业经营、产品完善、用户规范五个分类主题及其概率值,评估政策制定中的公众参与度以及政府对公众反馈意见的采纳效果,以期为政府出台政策的科学性提供理论依据和决策建议。 展开更多
关键词 共享单车政策 lda模型 公众反馈意见 政府决策
原文传递
农产品线上消费者的偏好特征研究——基于“京东”销售苹果在线评论数据的分析 被引量:21
17
作者 王二朋 倪郑宇 《价格理论与实践》 北大核心 2020年第2期120-123,共4页
在线评论中蕴含着消费者的真实需求,从中挖掘消费偏好信息,对促进农产品电商发展具有重要意义。本文从消费者偏好视角,运用数据挖掘技术和LDA模型,对京东商城58998条商品评论数据进行建模分析,研究发现:农产品价格、质量、购买体验、物... 在线评论中蕴含着消费者的真实需求,从中挖掘消费偏好信息,对促进农产品电商发展具有重要意义。本文从消费者偏好视角,运用数据挖掘技术和LDA模型,对京东商城58998条商品评论数据进行建模分析,研究发现:农产品价格、质量、购买体验、物流服务四个要素,是农产品在线购买决策的关键。降低运销成本、优化电商服务、提升产品质量,是政府农产品电商支持政策和电商企业优化农产品运销的着力点。 展开更多
关键词 在线评论 农产品电商 消费偏好 lda模型
原文传递
一种基于LDA主题模型的话题发现方法 被引量:21
18
作者 郭蓝天 李扬 +2 位作者 慕德俊 杨涛 李哲 《西北工业大学学报》 EI CAS CSCD 北大核心 2016年第4期698-702,共5页
话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题... 话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题建模方法,通过引入基于CBOW(continuous bag-of-word)模型的词向量化方法对目标语料进行相似词的聚类,能够有效降低LDA模型输入文本的维度,并且使主题更明确。通过在真实数据集上计算分析,与现有基于词频权重的词向量化LDA方法相比,在相同主题词数情况下困惑度可降低约3%。 展开更多
关键词 词向量 lda模型 话题发现 困惑度
下载PDF
基于隐含狄利克雷分布的文本主题提取对比研究 被引量:21
19
作者 王静茹 陈震 《情报科学》 CSSCI 北大核心 2018年第1期102-107,共6页
【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/过程】本文提出了一种基于LDA模型... 【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。 展开更多
关键词 文本挖掘 lda模型 主题提取效果 评价方法
原文传递
一种PST_LDA中文文本相似度计算方法 被引量:18
20
作者 张超 陈利 李琼 《计算机应用研究》 CSCD 北大核心 2016年第2期375-377,383,共4页
为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LD... 为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集分别用LDA和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。 展开更多
关键词 词性标注 lda模型 PST_lda模型 文本相似度计算
下载PDF
上一页 1 2 37 下一页 到第
使用帮助 返回顶部