期刊文献+
共找到313篇文章
< 1 2 16 >
每页显示 20 50 100
一种中文微博新闻话题检测的方法 被引量:84
1
作者 郑斐然 苗夺谦 +1 位作者 张志飞 高灿 《计算机科学》 CSCD 北大核心 2012年第1期138-141,共4页
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复... 微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。 展开更多
关键词 微博 新闻 话题检测 聚类
下载PDF
基于LDA模型的新冠肺炎疫情微博用户主题聚类图谱及主题传播路径研究 被引量:46
2
作者 张柳 王晰巍 +1 位作者 黄博 刘婷艳 《情报学报》 CSSCI CSCD 北大核心 2021年第3期234-244,共11页
本文构建“日本钻石邮轮”舆情话题微博用户的主题聚类图谱和对网络社群间主题传播路径进行分析,可以更好地识别微博用户主题特征和意见领袖,从而帮助舆情监管部门对舆情进行更为有效的引导和监管。本文基于LDA(latent Dirichlet alloca... 本文构建“日本钻石邮轮”舆情话题微博用户的主题聚类图谱和对网络社群间主题传播路径进行分析,可以更好地识别微博用户主题特征和意见领袖,从而帮助舆情监管部门对舆情进行更为有效的引导和监管。本文基于LDA(latent Dirichlet allocation)模型构建新冠肺炎疫情事件下微博用户的主题聚类图谱,利用困惑度评价指标来确定微博用户的最优主题数和主题分布;利用网络用户转发评论关系构建微博用户主题聚类图谱,提出网络社群间主题传播路径分析方法。本文结合“日本钻石公主号邮轮”这一全球新冠肺炎疫情期间的重要舆情话题,进行微博用户群体主题的确定、主题意见领袖的识别以及该话题下的网络社群间主题传播路径分析。研究结果表明,基于LDA模型可进行网络群体主题识别,并发现衍生的舆情话题,通过意见领袖识别可更好地进行舆情引导,利用网络社群的主题传播路径分析可进行话题推送,从而实现对舆情更好地引导及网络生态治理。 展开更多
关键词 LDA 新冠肺炎 微博用户 主题聚类 传播路径
下载PDF
一种基于LDA主题模型的政策文本聚类方法研究 被引量:39
3
作者 张涛 马海群 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第9期59-65,共7页
【目的】利用LDA主题模型有效提升政策文本聚类精准度。【方法】通过对政策文本模拟数据的预处理、导入政策词表、LDA模型生成基础数据、利用加权算法进行文本计算等步骤对政策文本聚类。【结果】实验数据表明:k=4时,加权后的政策文本... 【目的】利用LDA主题模型有效提升政策文本聚类精准度。【方法】通过对政策文本模拟数据的预处理、导入政策词表、LDA模型生成基础数据、利用加权算法进行文本计算等步骤对政策文本聚类。【结果】实验数据表明:k=4时,加权后的政策文本聚类结果 G值最大,与初始人工分类数量吻合,Purity值和F值较高,因此验证该方法是合理有效的。【局限】实验中每步操作结果的精度都会对政策文本聚类的准确性产生影响。【结论】通过运用该方法的整体性设计,可对未来新政策的制定及对已有政策的反向评价检验和双向互动生成机制的形成提供借鉴。 展开更多
关键词 政策文本 LDA 主题模型 文本聚类
原文传递
基于主题隐马尔科夫模型的人体异常行为识别 被引量:38
4
作者 朱旭东 刘志镜 《计算机科学》 CSCD 北大核心 2012年第3期251-255,275,共6页
针对基于监控视频的人体异常行为识别问题,提出了基于主题隐马尔科夫模型的人体异常行为识别方法,即通过无任何人工标注的视频训练集自动学习人体行为模型,并能够应用学到的人体行为模型实时检测异常行为和识别正常行为。这一方法主要围... 针对基于监控视频的人体异常行为识别问题,提出了基于主题隐马尔科夫模型的人体异常行为识别方法,即通过无任何人工标注的视频训练集自动学习人体行为模型,并能够应用学到的人体行为模型实时检测异常行为和识别正常行为。这一方法主要围绕"低层视频表示-中层语义行为建模-高层语义分类"3个方面进行:1)基于时-空间兴趣点构建了一种紧凑的和有效的视频表示方法。2)提出一种新颖的语义主题模型(Topic Model,TM)——主题隐马尔科夫模型(Topic Hidden Markov Model,THMM),它能够自然地分组视频中检测到的人体行为。主题隐马尔科夫模型基于已有的马尔科夫模型和主题模型构造,不但聚类运动词汇成简单动作,而且聚类简单动作成全局行为,同时建模了行为时间上的相关性。THMM是一个4层贝叶斯主题模型,它将视频序列建模为行为的马尔科夫链,同时行为是视频序列中某些视频剪辑(Clip)的概率分布;将视频剪辑建模为动作的随机组合,同时动作是视频剪辑中运动词汇的概率分布。克服了传统隐马尔科夫模型和主题模型在人体复杂行为建模过程中精度、鲁棒性和计算效率上的不足。3)提出运行时累积的异常性测度及其在线异常行为检测方法和基于在线似然比检验(Likelihood Ratio Test,LRT)的实时正常行为分类方法,从而克服了实时行为识别过程中由于缺乏充分的视觉证据而引发的行为类型歧义,能完较好地完成监控场景中实时异常行为检测和在线正常行为识别的任务。取自实际监控场景的实验数据集上的实验结果证明了本方法的有效性。 展开更多
关键词 计算机视觉 语义主题模型 异常检测 运动词包 行为聚类
下载PDF
LDA模型的优化及其主题数量选择研究——以科技文献为例 被引量:37
5
作者 王婷婷 韩满 王宇 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第1期29-40,共12页
【目的】为提升传统LDA模型的主题识别性能,并给主题最优数目选择提供技术方案,提出基于自适应聚类的K-wrLDA模型。【方法】利用LDA和Word2Vec模型得出包含主题词概率信息及词义相关性的T-WV矩阵,并将传统LDA模型的主题数目选择问题转... 【目的】为提升传统LDA模型的主题识别性能,并给主题最优数目选择提供技术方案,提出基于自适应聚类的K-wrLDA模型。【方法】利用LDA和Word2Vec模型得出包含主题词概率信息及词义相关性的T-WV矩阵,并将传统LDA模型的主题数目选择问题转化为聚类效果评价问题,以内部指标伪F统计量作为目标函数,计算主题聚类数目的最优解,并对新旧两种模型的主题识别效果进行比较。【结果】经自适应聚类得出最优主题数量为33,且新模型的困惑度得分始终低于传统模型,主题识别效果对比显示新模型具有更好的凝聚性。【局限】在实证语料选取上获取单一主题下的科技文献,数据量不大。【结论】新模型具有更理想的主题识别能力,并能够自主计算最优主题数目。该模型作为对传统LDA模型的改进,可以应用于各领域的大规模语料中。 展开更多
关键词 主题模型 词嵌入 自适应聚类 困惑度
原文传递
基于突发词聚类的微博突发事件检测方法 被引量:33
6
作者 郭跇秀 吕学强 李卓 《计算机应用》 CSCD 北大核心 2014年第2期486-490,505,共6页
微博突发事件检测是网络舆情分析的重要分支,近年来已受到国内外学者的广泛关注。分析用户行为特征,提出一种用户影响力计算方法,并将其与微博文本特征、传播特征相结合,提出词语突发度概念作为突发词的判定标准,进而抽取突发词集;引入... 微博突发事件检测是网络舆情分析的重要分支,近年来已受到国内外学者的广泛关注。分析用户行为特征,提出一种用户影响力计算方法,并将其与微博文本特征、传播特征相结合,提出词语突发度概念作为突发词的判定标准,进而抽取突发词集;引入凝聚式层次聚类算法,对突发词集进行聚类,并筛选出合适的突发词类簇用以描述突发事件,从而实现微博突发事件检测。通过实验检测,结果是正确率为63.64%,召回率为87.5%,F值为0.74,表明该方法可以在大量微博数据中有效检测到突发事件。 展开更多
关键词 突发事件 用户影响力 突发词 聚类
下载PDF
基于话题聚类及情感强度的中文微博舆情分析 被引量:27
7
作者 吴青林 周天宏 《情报理论与实践》 CSSCI 北大核心 2016年第1期109-112,共4页
文章通过话题聚类及情感强度分析中文微博舆情,实现对微博热点问题的预测,有利于公众舆情引导。首先充分考虑微博短文本的特点,在特征值提取基础上克服了微博短文本易发生"文本漂移"的缺点,并根据微博高频词对微博进行排序实... 文章通过话题聚类及情感强度分析中文微博舆情,实现对微博热点问题的预测,有利于公众舆情引导。首先充分考虑微博短文本的特点,在特征值提取基础上克服了微博短文本易发生"文本漂移"的缺点,并根据微博高频词对微博进行排序实现微博的快速聚类,接着从主观和客观两方面对热点话题的情感强度进行了分析,基于灰色模型跟踪并预测公众情感变化倾向。实验结果表明,本文提出的基于话题聚类及情感强度的中文微博舆情分析方法具有一定的可行性。 展开更多
关键词 微博 话题聚类 网络舆情
原文传递
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
8
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
下载PDF
网络舆情热点话题聚类方法研究 被引量:25
9
作者 张寿华 刘振鹏 《小型微型计算机系统》 CSCD 北大核心 2013年第3期471-474,共4页
主流的热点追踪算法都采用文本聚类技术来实现,在处理海量网页时,很难精准聚合中心结果,离需要的热点差距太远.现有的网络舆情系统监控的范围受限于使用者给出的关键词,使系统无法监测使用者未知的突发事件.针对网络舆情发生和传播特点... 主流的热点追踪算法都采用文本聚类技术来实现,在处理海量网页时,很难精准聚合中心结果,离需要的热点差距太远.现有的网络舆情系统监控的范围受限于使用者给出的关键词,使系统无法监测使用者未知的突发事件.针对网络舆情发生和传播特点,改善舆情信息采集策略;网络舆情的相关页面标题文字主题鲜明,据此提出自动挖掘热点关键词并根据关键词进行话题聚类的方法;根据新闻、论坛和博客的不同特点分别设计网络舆情热点分析模型.在此基础上,设计并实现了一个网络舆情监测系统.系统实际运行表明,该方案可以及时发掘热点话题并对突发事件实时追踪监测. 展开更多
关键词 网络舆情 话题聚类 热点话题 追踪监测
下载PDF
基于概率主题模型的文档聚类 被引量:24
10
作者 王李冬 魏宝刚 袁杰 《电子学报》 EI CAS CSCD 北大核心 2012年第11期2346-2350,共5页
为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法... 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法. 展开更多
关键词 主题模型 LDA模型 TC-LDA模型 文档聚类
下载PDF
基于增量型聚类的自动话题检测研究 被引量:23
11
作者 张小明 李舟军 巢文涵 《软件学报》 EI CSCD 北大核心 2012年第6期1578-1587,共10页
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类... 随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率. 展开更多
关键词 话题检测与跟踪 TDT 话题检测 增量型聚类 权重计算
下载PDF
国外产业创新生态系统研究现状与趋势分析 被引量:22
12
作者 黄鲁成 米兰 吴菲菲 《科研管理》 CSSCI CSCD 北大核心 2019年第5期1-12,共12页
在对产业创新生态系统研究的由来与发展进行回顾的基础上,采用文献计量、知识图谱和熵权评价分析方法,对国外产业创新生态系统研究的国家影响力和期刊影响力进行了分析,并运用LDA主题模型和重点文献阅读分析方法,阐述了该研究领域的六... 在对产业创新生态系统研究的由来与发展进行回顾的基础上,采用文献计量、知识图谱和熵权评价分析方法,对国外产业创新生态系统研究的国家影响力和期刊影响力进行了分析,并运用LDA主题模型和重点文献阅读分析方法,阐述了该研究领域的六个主题,即生态系统平台管理研究、创新主体关系研究、物质资源与环境研究、系统特征与机制研究、方法模型与框架研究、公共政策和服务设施研究。然后,对产业创新生态系统研究类型进行了分析和总结。最后,采用文献阅读与聚类方法,阐述了国外产业创新生态系统研究六个新趋势:平台与数字化研究、引入实证检验、产业边界分析、决策原则与行为链、政府参与及政策研究、引入产业情景,同时指出了目前研究的不足及研究发展的五个方向。 展开更多
关键词 产业 创新生态系统 主题聚类 文献计量
原文传递
基于主题聚类的学科研究热点及其趋势监测方法 被引量:20
13
作者 章成志 梁勇 《情报学报》 CSSCI 北大核心 2010年第2期342-349,共8页
常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题。因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性。本文以图书情报档案学科为例,依据学科学术论文全文,从主题... 常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题。因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性。本文以图书情报档案学科为例,依据学科学术论文全文,从主题角度对学术论文集合进行全面分析,即:采用主题聚类方法,对包括时间信息的学科学术全文进行主题分析与主题聚类,归纳出某一特定学科的研究热点和这些热点的发展趋势。实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善。 展开更多
关键词 学科热点监测 主题聚类 主题抽取 文本聚类
下载PDF
基于LDA的改进K-means算法在文本聚类中的应用 被引量:21
14
作者 王春龙 张敬旭 《计算机应用》 CSCD 北大核心 2014年第1期249-254,共6页
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个... 针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。 展开更多
关键词 主题模型 K-MEANS 聚类中心 文本聚类 隐含狄利克雷分布
下载PDF
面向舆情主题的微博用户行为聚类实证分析 被引量:20
15
作者 李磊 刘继 《情报杂志》 CSSCI 北大核心 2014年第3期118-121,共4页
网络舆情管理是社会管理创新的重要内容,面向舆情主题的用户行为分析是网络舆情管理的热点问题。对三个不同舆情主题下的微博用户行为进行了聚类分析,发现信息传播中的微博用户基本可分为"一般关注"型、"主动参与"... 网络舆情管理是社会管理创新的重要内容,面向舆情主题的用户行为分析是网络舆情管理的热点问题。对三个不同舆情主题下的微博用户行为进行了聚类分析,发现信息传播中的微博用户基本可分为"一般关注"型、"主动参与"型、"信息传播"型三类。"一般关注"型用户通常人数众多,他们多为舆情信息的接受者。"主动参与"型用户类中用户人数较少,他们大多以自己为中心,向朋友发布舆情信息,这类用户在不同主题下其行为特征差异很大;"信息传播"型用户类中人数很少,是舆情领袖或重要信息转发者。结果表明可以尝试将监测"信息传播"型网民和引导"主动参与"型网民结合起来,为大数据下微博舆情信息管理提供智力支持。 展开更多
关键词 网络舆情 微博 用户行为 主题 聚类 实证分析
下载PDF
社交媒体话题检测与追踪技术研究综述 被引量:18
16
作者 张仰森 段宇翔 +1 位作者 黄改娟 蒋玉茹 《中文信息学报》 CSCD 北大核心 2019年第7期1-10,30,共11页
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检... 随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。 展开更多
关键词 话题检测 话题追踪 聚类 主题模型
下载PDF
基于知识互补的科研合作专家推荐模型研究 被引量:19
17
作者 蒲姗姗 《情报理论与实践》 CSSCI 北大核心 2018年第8期96-101,共6页
[目的/意义]为提高科研合作水平,辅助学者发现符合需求的科研合作专家,提出一种考虑知识互补的专家推荐模型,以此来探究专家的知识结构与学术影响力,发现最佳的科研合作团队。[方法/过程]首先,通过主题模型对候选专家发表的科研论文进... [目的/意义]为提高科研合作水平,辅助学者发现符合需求的科研合作专家,提出一种考虑知识互补的专家推荐模型,以此来探究专家的知识结构与学术影响力,发现最佳的科研合作团队。[方法/过程]首先,通过主题模型对候选专家发表的科研论文进行内容分析,获取候选专家的知识结构;然后,根据专家的知识结构特征,结合当前学者的科研需求对候选专家进行聚类;最后,选取每个类簇中学术影响力最高的专家组成知识互补的专家组。[结果/结论]改进后的模型利用真实数据集进行了验证,实验结果表明,考虑了专家知识互补情况下的推荐模型比传统模型有更好的效果。 展开更多
关键词 科研合作 专家推荐 主题模型 知识结构 聚类
原文传递
基于主题地图的文献组织方法研究 被引量:15
18
作者 吴江宁 田海燕 《情报学报》 CSSCI 北大核心 2007年第3期323-331,共9页
网络信息的膨胀导致了文献检索的困难,而检索效率的提高则依赖于其组织方法的改善。主题地图是适应信息资源的网络化而出现的一种新的组织技术,可以较好地解决大量无序、非结构化信息的组织问题。本文提出一个基于主题地图的多层文献... 网络信息的膨胀导致了文献检索的困难,而检索效率的提高则依赖于其组织方法的改善。主题地图是适应信息资源的网络化而出现的一种新的组织技术,可以较好地解决大量无序、非结构化信息的组织问题。本文提出一个基于主题地图的多层文献组织模型(TMDOM),通过从文献内容中概化出主题并定义主题之间的关联,将领域内主要的概念及其关联以合理的层次结构体现出来,以实现对文献资源的有效组织。试验结果证明了这种组织方法的优越性,通过主题之间的各种关联,实现了有效的信息导航。 展开更多
关键词 主题地图 TMDOM模型 文献组织 文献检索 文本聚类
下载PDF
一种面向网络话题发现的增量文本聚类算法 被引量:16
19
作者 殷风景 肖卫东 +1 位作者 葛斌 李芳芳 《计算机应用研究》 CSCD 北大核心 2011年第1期54-57,共4页
为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法处理网络文本聚类中受输入顺序影响和精度较低的主要不足,提出了ICIT算法,继承了single-pass算法的简单原理,保证了网络文本聚类的实时性;通过正文分词时标注词性选... 为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法处理网络文本聚类中受输入顺序影响和精度较低的主要不足,提出了ICIT算法,继承了single-pass算法的简单原理,保证了网络文本聚类的实时性;通过正文分词时标注词性选择名词动词进行正文向量化、建立文本标题向量来与文本正文向量共同表征文本、采用average-link策略、引入"代"的概念分批进行文本的聚类,以及在每批次聚类后添加报道重新选择调整所属的步骤来提高聚类的质量。实验证明了ICIT算法在提高话题发现准确度上的有效性和实用性。 展开更多
关键词 话题发现 文本聚类 增量聚类 准确度 ICIT算法
下载PDF
News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark 被引量:16
20
作者 Zhuo Zhou Jiaohua Qin +3 位作者 Xuyu Xiang Yun Tan Qiang Liu Neal N.Xiong 《Computers, Materials & Continua》 SCIE EI 2020年第1期217-231,共15页
Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm... Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm based on Spark big data platform.Since the TF-IDF(term frequency-inverse document frequency)algorithm under Spark is irreversible to word mapping,the mapped words indexes cannot be traced back to the original words.In this paper,an optimized method is proposed that TF-IDF under Spark to ensure the text words can be restored.Firstly,the text feature is extracted by the TF-IDF algorithm combined CountVectorizer proposed in this paper,and then the features are inputted to the LDA(Latent Dirichlet Allocation)topic model for training.Finally,the text topic clustering is obtained.Experimental results show that for large data samples,the processing speed of LDA topic model clustering has been improved based Spark.At the same time,compared with the LDA topic model based on word frequency input,the model proposed in this paper has a reduction of perplexity. 展开更多
关键词 News text topic clustering spark platform countvectorizer algorithm TF-IDF algorithm latent dirichlet allocation model
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部