期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
基于词聚类的热点话题检测算法 被引量:27
1
作者 龙志祎 程葳 《计算机工程与设计》 CSCD 北大核心 2011年第6期2214-2216,F0003,共4页
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和... 对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。 展开更多
关键词 互信息 词聚类 热点话题发现 特征词抽取 词汇语义相似度
下载PDF
基于Doc2Vec的期刊论文热点选题识别 被引量:19
2
作者 阮光册 夏磊 《情报理论与实践》 CSSCI 北大核心 2019年第4期107-111,106,共6页
[目的/意义]将深度学习方法应用于热点识别的研究,实现研究热点的语义描述。[方法/过程]以教育学36本CSSCI期刊的62084篇论文为实验数据。首先,采用Doc2Vec方法对论文摘要进行向量计算;其次,对向量值进行相似度计算,生成热点选题论文集... [目的/意义]将深度学习方法应用于热点识别的研究,实现研究热点的语义描述。[方法/过程]以教育学36本CSSCI期刊的62084篇论文为实验数据。首先,采用Doc2Vec方法对论文摘要进行向量计算;其次,对向量值进行相似度计算,生成热点选题论文集;最后,运用聚类算法和主题词提取算法获取论文热点选题的主题描述。[结果/结论]对比词频统计和共词聚类方法,本文的实验结果在研究热点的描述上具有更好的语义特征。[局限]热点选题论文集的生成受阈值的影响。深度学习可以作为揭示学科研究热点的新方法。 展开更多
关键词 学术论文 热点主题识别 Doc2Vec 聚类分析 关键词提取
原文传递
爆发词识别与主题探测技术研究综述 被引量:17
3
作者 逯万辉 马建霞 赵迎光 《情报理论与实践》 CSSCI 北大核心 2012年第6期125-128,共4页
作为话题检测与追踪和舆情监测中的一项基础性工作,识别并处理爆发词对突发检测具有重要的作用,本文综述了该领域目前的研究现状和已有的研究成果并对其进行比较分析,总结了其中亟待解决的关键问题并进行了重点探讨,为后续研究指明了方向。
关键词 爆发词 热点话题识别 语义合并 综述
原文传递
面向微博热点话题发现的多标签传播聚类方法研究 被引量:16
4
作者 陈羽中 方明月 郭文忠 《模式识别与人工智能》 EI CSCD 北大核心 2015年第1期1-10,共10页
微博热点话题发现是目前的研究热点.针对传统热词抽取方法难以适用于微博数据的问题,提出一种基于老化理论的词生命值计算模型用于热词抽取,并基于热词间的相关性构建词共现网络;针对传统的词聚类算法不能较好地解决话题间存在重叠热词... 微博热点话题发现是目前的研究热点.针对传统热词抽取方法难以适用于微博数据的问题,提出一种基于老化理论的词生命值计算模型用于热词抽取,并基于热词间的相关性构建词共现网络;针对传统的词聚类算法不能较好地解决话题间存在重叠热词以及时间效率不佳的问题,引入多标签传播思想,设计一种接近线性时间复杂度的多标签传播聚类算法(TCMLPA)用于词共现网络的热词聚类,获得热点话题集.实验结果表明,词生命值计算模型能够有效过滤噪声并提取热词,TCMLPA算法则能够在保证聚类结果稳定性的情况下,有效提高热点话题发现的精度和效率. 展开更多
关键词 微博 热点话题发现 老化理论 热词抽取 多标签传播
下载PDF
基于微博意见领袖参与行为的热点话题检测研究 被引量:9
5
作者 赵龙文 陈明艳 +1 位作者 公荣涛 姚海波 《情报科学》 CSSCI 北大核心 2015年第4期87-92,共6页
为了解决对微博海量信息采集分析的问题,为此本文研究提出基于微博意见领袖参与行为的热点话题检测算法。微博意见领袖在微博话题传播和演化过程中具有加速传播和引导等作用,本文从具有影响力的微博意见领袖采集微博信息,对信息数据进... 为了解决对微博海量信息采集分析的问题,为此本文研究提出基于微博意见领袖参与行为的热点话题检测算法。微博意见领袖在微博话题传播和演化过程中具有加速传播和引导等作用,本文从具有影响力的微博意见领袖采集微博信息,对信息数据进行加工处理以得到微博话题,并利用Single-Pass聚类算法作为核心算法进行话题的抽取,有效地提高热点话题检测的效率。 展开更多
关键词 微博 意见领袖 热点话题 热点检测
原文传递
基于概率模型的微博热点主题识别实证研究 被引量:9
6
作者 毕凌燕 王腾宇 左文明 《情报理论与实践》 CSSCI 北大核心 2014年第2期112-116,共5页
热点主题识别旨在确定微博的热点主题,其分析结果对于人们获取即时重要资讯,了解社会关注焦点具有重要的应用价值。文章利用火车头采集工具对微博热点话题进行抓取,提出基于概率模型的微博热点主题识别模型,并比较与词频统计聚类方法在... 热点主题识别旨在确定微博的热点主题,其分析结果对于人们获取即时重要资讯,了解社会关注焦点具有重要的应用价值。文章利用火车头采集工具对微博热点话题进行抓取,提出基于概率模型的微博热点主题识别模型,并比较与词频统计聚类方法在微博主题识别中效果的优劣。实验表明,该模型可以充分地利用概率模型的优点,相比于词频统计聚类算法,更适合应用于微博分析中的主题识别环节。 展开更多
关键词 微博 热点主题识别 概率模型 实证研究
原文传递
一种基于词语能量值变化的微博热点话题发现方法研究 被引量:7
7
作者 林思娟 林柏钢 +1 位作者 许为 杨旸 《信息网络安全》 2015年第10期46-52,共7页
随着微博的迅速发展,微博上的热点话题发现成为目前的研究热点之一。文章以微博的实时性强作为研究的切入点,通过研究不同时域上词语的能量值变化,提出一种基于词语能量值变化的微博热点话题检测方法。该方法基于传统的话题生命周期理论... 随着微博的迅速发展,微博上的热点话题发现成为目前的研究热点之一。文章以微博的实时性强作为研究的切入点,通过研究不同时域上词语的能量值变化,提出一种基于词语能量值变化的微博热点话题检测方法。该方法基于传统的话题生命周期理论,按微博的时间先后顺序对微博进行划分;引入了物理学科中加速度的概念,用词语的加速度来刻画词语在相邻窗口之间速度的变化;综合考虑词语的加速度和权重值来构造词语的复合权值,更适合量化词语的能量值;在单条件概率的基础上,使用了双条件概率的上下文相似度计算方法,并增加文档分布相似度来减少话题混淆的概率。实验表明了文章方法的有效性和稳定鲁棒性。与单条件概率的上下文相似度模型相比,改进之后的上下文相似度模型在不同的关键词检测方法中均具有更好的聚类效果。 展开更多
关键词 热点话题发现 词语能量值 加速度 上下文相似度
下载PDF
一种Web 2.0环境下互联网热点挖掘算法 被引量:6
8
作者 李东方 俞能海 尹华罡 《电子与信息学报》 EI CSCD 北大核心 2010年第5期1141-1145,共5页
利用Web2.0下用户丰富的反馈信息进行互联网热点挖掘具有重要的应用价值。该文将Web2.0下用户在互联网上的信息活动看作为热度活动,并利用热量传递模型对其建模,然后基于该模型提出适用于Web2.0环境下的话题抽取与热度评价算法。实验结... 利用Web2.0下用户丰富的反馈信息进行互联网热点挖掘具有重要的应用价值。该文将Web2.0下用户在互联网上的信息活动看作为热度活动,并利用热量传递模型对其建模,然后基于该模型提出适用于Web2.0环境下的话题抽取与热度评价算法。实验结果表明热量传递算法有效地利用了用户反馈信息,适用于Web2.0下互联网环境。 展开更多
关键词 互联网 热点话题发现 话题排序 WEB2.0 热度扩散模型
下载PDF
基于特定用户角色的热度计算方法及应用 被引量:5
9
作者 李情情 鲁燃 +1 位作者 朱振方 刘颖莹 《计算机工程与设计》 北大核心 2016年第5期1201-1207,共7页
针对现有热度值计算方法计算结果不准确的问题,提出一种改进的热度值计算方法。在综合考虑发布者、关注度、时间、转发数和评论数等因素的前提下,通过设置个人认证用户和非个人认证用户等特定用户的权重来计算话题的热度,对热度值计算... 针对现有热度值计算方法计算结果不准确的问题,提出一种改进的热度值计算方法。在综合考虑发布者、关注度、时间、转发数和评论数等因素的前提下,通过设置个人认证用户和非个人认证用户等特定用户的权重来计算话题的热度,对热度值计算公式进行改进。实验结果表明,该方法能够有效对微博热点话题进行检测,实现对微博热点事件的监控和管理。 展开更多
关键词 微博 热点话题 特定用户 热度值 热点话题发现
下载PDF
基于增量文本聚类算法的热点话题检测研究
10
作者 魏艺泽 郭慧 时晓旭 《华北科技学院学报》 2024年第1期76-81,124,共7页
针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类... 针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类时的准确率。利用各大平台获取的新冠肺炎新闻数据对模型进行验证。结果表明,该方法使得传统的TF-IDF提取关键词时可以增量更新,利用改进的Single-Pass算法使得综合评价指标提高了8.64%。相对于传统的Single-Pass算法,改进的Single-Pass算法只需要与一部分候选簇进行比较,有效地降低了比较次数,提高了聚类的准确性以及效率。 展开更多
关键词 Single-Pass 文本聚类 文本相似度 热点话题检测 TF-IDF
下载PDF
基于改进K-均值的微博热点话题发现方法
11
作者 陈阳键 温秋华 《太赫兹科学与电子信息学报》 2023年第3期378-383,391,共7页
微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择... 微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择能力对VSM特征向量进行降维,然后利用主成分分析(PCA)方法确定K-均值算法的初始聚类中心,进而采用K-均值算法得到聚类结果,最后根据微博转发、评论和高影响力用户数量定义热度指数,热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验,结果表明所提方法相对于2种传统方法的准确率分别提升7.3%和1.1%,实时性分别提升45%和53%。 展开更多
关键词 热点话题发现 向量空间模型 话题聚类 数据降维 微博
下载PDF
面向微博热点话题发现的改进BBTM模型研究 被引量:3
12
作者 黄畅 郭文忠 郭昆 《计算机科学与探索》 CSCD 北大核心 2019年第7期1102-1113,共12页
针对目前基于主题模型的微博短文本热点话题发现存在特征稀疏、高维度以及需要人工指定主题数目等问题,提出一种基于改进突发词对主题模型(bursty biterm topic model,BBTM)的热点话题发现方法(hot topic-hot biterm topic model,H-HBTM... 针对目前基于主题模型的微博短文本热点话题发现存在特征稀疏、高维度以及需要人工指定主题数目等问题,提出一种基于改进突发词对主题模型(bursty biterm topic model,BBTM)的热点话题发现方法(hot topic-hot biterm topic model,H-HBTM)。首先,利用词的突发概率进行特征选择,过滤非突发词。其次,结合微博文本的突发特性和传播特性计算微博词对的热值突发概率,将热值突发概率作为BBTM的先验概率。最后,利用基于密度的方法自适应选择BBTM的最优话题数目,确定最优BBTM,实现热点话题发现。在真实微博数据集上的实验表明,H-HBTM可以在不需要预先设定主题数目的情况下,自动发现最优话题模型,并且H-HBTM发现的热点话题的质量高于基于BBTM、词对主题模型以及潜在狄立克雷分配的方法。 展开更多
关键词 热点话题发现 微博 突发词对主题模型(BBTM) 主题模型
下载PDF
基于改进Single-Pass算法的BBS热点话题发现 被引量:4
13
作者 马国栋 李慧 《首都师范大学学报(自然科学版)》 2014年第6期13-17,共5页
详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中"聚类质心不唯一"的缺陷提出"设定唯一聚类质心"的改进方案,降低了算法的时间复杂度;针对"算法聚类中心随机性强"的不足提出了"不断优... 详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中"聚类质心不唯一"的缺陷提出"设定唯一聚类质心"的改进方案,降低了算法的时间复杂度;针对"算法聚类中心随机性强"的不足提出了"不断优化聚类中心"的改进方案,使得聚类中心的代表性更强.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典Single-Pass算法的聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效. 展开更多
关键词 Single-Pass 文本聚类 热点话题发现
下载PDF
网络舆情热点话题检测聚类算法研究 被引量:4
14
作者 邓先均 杨雅茜 +2 位作者 罗昭 陈旭东 沈小平 《数字技术与应用》 2018年第5期146-149,共4页
数据聚类是基于某种相似性度量在多维数据中识别自然分组或集群的过程。聚类是许多不同学科的基本过程。因此,来自不同领域的研究人员正在积极研究聚类问题。文章首先对代表性的基于划分的聚类方法进行了一个概述,在此基础之上,针对网... 数据聚类是基于某种相似性度量在多维数据中识别自然分组或集群的过程。聚类是许多不同学科的基本过程。因此,来自不同领域的研究人员正在积极研究聚类问题。文章首先对代表性的基于划分的聚类方法进行了一个概述,在此基础之上,针对网络舆情热点话题检测,文章使用这几个聚类算法进行对比试验,进而分析出更适用于热点话题检测方面的算法。最后对文章的研究进行总结,归纳出本研究的局限性,并指出改进的方向。 展开更多
关键词 数据聚类 聚类算法 网络舆情 热点话题检测
下载PDF
面向热点话题检测的增量文本聚类算法 被引量:2
15
作者 郭莹 薛涛 胡伟华 《计算机系统应用》 2022年第9期280-286,共7页
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,... 针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,获得上下文向量,充分挖掘文本的语义特征及重要性关系.然后在SinglePass算法基础上,根据提取到的热点主题特征词,划分子话题,并设置时间阈值,来确认类簇中心的时效性,将挖掘的语义特征和任务相结合,动态更新类簇中心.最后以时间特性为辅,更新话题质心向量,提高文本相似度计算的准确性.结果表明,所提方法的F值最高可达89.3%,且在保证聚类精度的前提下,在漏检率和误检率上较传统算法有明显改善,能够有效提高话题检测的准确性. 展开更多
关键词 Single-Pass 文本表示 文本聚类 文本相似度 热点话题检测
下载PDF
基于改进K-means算法的BBS热点话题发现 被引量:2
16
作者 马国栋 李慧 《首都师范大学学报(自然科学版)》 2015年第4期12-15,共4页
详细介绍了经典划分式聚类算法K-means的特点,针对该算法中"聚类中心难以确定"的不足提出"选择最优聚类质心"的改进方案,改进后的算法得到了可靠的聚类质心.最后,基于"中华网BBS"文本数据对改进后的算法... 详细介绍了经典划分式聚类算法K-means的特点,针对该算法中"聚类中心难以确定"的不足提出"选择最优聚类质心"的改进方案,改进后的算法得到了可靠的聚类质心.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典K-means算法聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效. 展开更多
关键词 K-MEANS 文本聚类 热点话题发现
下载PDF
一种基于用户关联分析的热点话题识别算法 被引量:2
17
作者 张昭 艾中良 《计算机与现代化》 2014年第1期156-160,163,共6页
为了提高从社交网络文本信息中发现热点话题的准确率,提出一种基于用户关联分析的热点话题识别算法。该算法综合考虑词频变化率和用户权威度,词频变化率通过EMA和MACD等指标来计算,用户权威度通过建立用户关联图的方式来计算。使用基于H... 为了提高从社交网络文本信息中发现热点话题的准确率,提出一种基于用户关联分析的热点话题识别算法。该算法综合考虑词频变化率和用户权威度,词频变化率通过EMA和MACD等指标来计算,用户权威度通过建立用户关联图的方式来计算。使用基于HITS算法的话题热度度量计算方法,将词频变化率数据和用户权威度数据结合在一起,得到话题的热度值。实验结果表明,使用基于用户关联分析的热点话题识别算法能够提高热点话题发现准确率。 展开更多
关键词 话题检测 用户权威度度量 特征变化率度量
下载PDF
基于均衡段落和分话题向量的新闻热点话题检测研究 被引量:1
18
作者 魏家泽 董诚 +2 位作者 何彦青 刘志辉 彭柯芸 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第10期70-79,共10页
【目的】通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力。【方法】在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作为基方法,在分层聚类中引入分话题向量完成话题聚类;提... 【目的】通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力。【方法】在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作为基方法,在分层聚类中引入分话题向量完成话题聚类;提取标题高频词实现话题描述。【结果】WTF-IDF方法在关键词抽取数为3时与TF-IDF方法相比F1值提升5.4%;基于WTF-IDF与分话题向量的分层聚类与分层TF-IDF的K-means聚类相比准确提升3.1%。【局限】关键词抽取未考虑短语形式;分层聚类方法增加了算法时间复杂度。【结论】本文提出的关键词抽取和分层聚类方法可以改善新闻热点话题检测效果,话题描述得到的话题短语也达到一定的代表性与可读性。 展开更多
关键词 均衡段落 分话题向量 热点话题检测 分层聚类
原文传递
基于峰值密度聚类的电信业投诉热点话题检测方法 被引量:1
19
作者 江俊 黄骅 +1 位作者 任条娟 张登辉 《电信科学》 2019年第5期97-103,共7页
针对电信业对投诉热点话题缺乏有效的检测方法问题,提出一种基于峰值密度聚类算法的投诉热点话题检测方法。首先建立电信业专用词库用于投诉样本的文本分词,采用向量空间模型表示文本分词,然后通过计算文本分词相似度和密度,并运用密度... 针对电信业对投诉热点话题缺乏有效的检测方法问题,提出一种基于峰值密度聚类算法的投诉热点话题检测方法。首先建立电信业专用词库用于投诉样本的文本分词,采用向量空间模型表示文本分词,然后通过计算文本分词相似度和密度,并运用密度峰值聚类算法对分词进行聚类分析。最终通过类簇关键词选取并排序,从而得到热点话题描述。将本方法应用到某电信企业投诉热点话题检测中,结果表明本方法有效并具有实际应用价值。 展开更多
关键词 热点话题检测 文本分词 聚类分析
下载PDF
基于优化随机游走模型的文本热点主题探测研究 被引量:1
20
作者 严承希 王军 李晓杰 《情报科学》 CSSCI 北大核心 2018年第1期118-123,共6页
【目的/意义】结合随机游走算法Page Rank、词共现和多样性测度指标提出一种改进的热点主题探测方法C_BI-Page Rank,该方法有效提高了热点主题探测的效率和模型质量。【方法/过程】首先对Page Rank算法进行理论回顾,引入词共现和布里渊... 【目的/意义】结合随机游走算法Page Rank、词共现和多样性测度指标提出一种改进的热点主题探测方法C_BI-Page Rank,该方法有效提高了热点主题探测的效率和模型质量。【方法/过程】首先对Page Rank算法进行理论回顾,引入词共现和布里渊系数构建C_BI-Page Rank算法模型,然后采用4种不同因素组合的Page Rank算法对Web of Science系统2006-2016的应用心理学领域的期刊文献进行实证分析,最后基于波达计数的专家方法进行算法比较与评价,同时也探索其与词频统计之间的相关性问题。【结果/结论】实证表明C_BI-Page Rank不仅在运行效率上收敛快、运行时间少且质量评估优势明显。该方法引入不同文本主题因素,一定程度解决传统词频分析和机器学习的不足,为热点主题探测方法提供了新思路。 展开更多
关键词 热点主题探测 随机游走 PAGERANK 布里渊指数
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部