题名 基于中心词和LDA的微博热点话题发现研究
被引量:12
1
作者
刘干
林杰豪
翟雯熠
机构
杭州电子科技大学经济学院
澳大利亚国立大学商学院
出处
《情报杂志》
CSSCI
北大核心
2021年第5期143-148,164,共7页
文摘
[目的/意义]通过引入中心词概念,提出一种改进LDA主题模型,以期在微博热点话题发现中获得更好的话题分布效果。[方法/过程]以微博热点数据为研究对象,进行文本表示学习,将基于Bert和Word2Vec的模型设为实验组,基于TF-IDF和BOW的模型设为对照组,令实验组和对照组分别生成改进LDA模型和传统LDA模型。[结果/结论]通过对比传统LDA模型和改进LDA模型,发现改进方法所生成的LDA模型在高频词分布集中度上更优于传统方法,在下游任务应用中更适合热点话题生成。
关键词
中心词
Bert
吉布斯抽样
LDA
微博 热点话题
Keywords
Bert
gibbs sampling
LDA
weibo hot topics
分类号
G353.1
[文化科学—情报学]
题名 高维稀疏情境下微博专业领域热点话题挖掘研究
被引量:6
2
作者
陆泉
陈仕
陈静
郝志同
朱安琪
机构
自然资源部城市国土资源监测与仿真重点实验室
武汉大学信息管理学院
华中师范大学信息管理学院
出处
《情报理论与实践》
CSSCI
北大核心
2020年第11期137-143,共7页
基金
自然资源部城市国土资源监测与仿真重点实验室开放基金资助课题“我国国土资源的国际舆情监测与预警技术研究”的成果,项目编号:KF-2018-03-057。
文摘
[目的/意义]专业领域微博往往具有话题的高维稀疏性,探寻此类情境下微博热点话题挖掘的高效模型,以便相关管理部门快速掌握领域近况并进行决策。[方法/过程]提出高维稀疏情境下微博热点话题挖掘模型,引入领域词典监督预处理微博文本,基于朴素贝叶斯分类器进行特定领域信息识别,采用"密度—距离"快速搜索聚类算法实现领域热点话题挖掘,并以国土资源领域为典型进行实证。[结果/结论]本文模型能在高维稀疏情境下准确识别专业领域信息并挖掘出热点话题,有助于专业领域微博舆情分析与预警。
关键词
高维稀疏
微博 热点话题
信息识别
话题 挖掘
国土资源
Keywords
high-dimensional sparse
microblog hot topic
information recognition
topic mining
land resources field
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
TP391.1
[自动化与计算机技术—计算机科学与技术]
题名 微博中转发行为的预测技术综述
被引量:4
3
作者
曹世鸿
叶青
李保滨
朱廷劭
机构
中国科学院大学
中国科学院文献情报中心
中国科学院心理研究所
出处
《中文信息学报》
CSCD
北大核心
2021年第6期16-29,共14页
基金
中央高校基本科研业务费专项资金(E0E48922)。
文摘
在线社交网络中,微博平台的便捷性和开放性,给信息的传播和爆发提供了很大的便利。转发是微博平台上用户的重要行为,也是信息传播的关键机制。基于转发行为,分析一条推文是否被用户转发或者一段时间后的转发量,可以使我们更好地了解信息的传播特性,探索用户的行为与兴趣,以此推进信息推荐、预防突发事件和舆情监控等应用发展。该文较为系统地梳理了预测微博是否被转发及某段时间后的转发量这两方面的相关研究工作,着重阐述了基于用户、社交和内容特征的预测模型建立的过程并评价其预测性能,分析了微博转发行为的相关预测技术面临的挑战,展望了未来的可能研究方向。
关键词
微博
转发行为
微博 热点话题
信息传播
Keywords
microblog
retweeting behavior
microblog hot topic
information diffusion
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于MQPSO-LSSVM的微博热点话题预测
4
作者
符保龙
机构
柳州职业技术学院
出处
《柳州师专学报》
2013年第6期117-120,113,共5页
基金
广西教育厅科研项目基金资助(201106LX745
201204LX593)
文摘
微博热点话题预测是一类小样本、不确定性的复杂预测问题,传统线性方法不能刻画微博热点话题的变化规律,神经网络存在过拟合、泛化能力不强等缺陷.为了提高微博热点话题的预测精度,提出了一种改进量子粒子群(QPSO)算法优化LSSVM的微博热点话题预测模型(MQPSO-LSSVM).首先采用MQPSO算法优化LSSVM的参数,然后将优化后的LSSVM对微博热点话题变化趋势进行建模,最后选取具体微博热点话题数据进行仿真实验.实验结果表明,MQPSO-LSSVM提高了微博热点话题的预测精度,预测结果具有一定实用价值.
关键词
微博 热点话题
量子粒子群算法
参数优化
最小二乘支持向量机
Keywords
micro-blog hot topic
quantum behaved particle swarm optimization
parameters optimization
least squares support vector machine
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种消除孤立点的微博热点话题发现方法
被引量:9
5
作者
赖锦辉
梁松
机构
广东石油化工学院实验教学部计算机中心
广东石油化工学院计算机与电子信息学院
出处
《计算机应用与软件》
CSCD
北大核心
2014年第1期105-107,139,共4页
基金
国家自然科学基金项目(60903168)
广东省教育部产学研结合项目(2010B090400235)
茂名市科技计划项目(2011008)
文摘
微博具有数量多、字数少、话题广泛等特点,导致数据中孤立点较多,对微博热点话题聚类算法产生不利影响,为此,提出一种消除孤立点的微博热点话题发现方法。首先消除数据集中的孤立点,然后采用CURE(Clustering Using Representatives)算法对剩余有聚类价值的数据进行聚类,最后通过实例验证算法的有效性。结果表明,相对于对比聚类算法,该算法降低聚类结果对孤立点的敏感度,提高了微博热点话题发现的准确性,并提高了算法的运行效率,更适合应用于大规模的微博热点话题发现。
关键词
微博 热点话题 孤立点
CURE算法
发现
Keywords
Microblogging hot topics Outliers CURE algorithm Discovery
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 结合互信息和主题模型的微博话题发现方法
被引量:5
6
作者
孙曰昕
马慧芳
姚伟
张志昌
机构
西北师范大学计算机科学与工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2016年第6期61-66,共6页
基金
国家自然科学基金(No.61163039
No.61363058)
甘肃省教育厅项目(No.2013A-016)
文摘
为了解决短文本信息流的特征稀疏性对热点话题发现带来的挑战,提出了结合词语互信息和概率主题模型的微博热点话题发现方法。通过建立词共现矩阵并应用对称非负矩阵分解算法获取词项-主题矩阵,再利用概率潜在语义分析模型进行主题发现,最终通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。
关键词
词共现矩阵
对称非负矩阵分解
概率潜在语义分析
微博 热点话题 发现
Keywords
term co-occurrence matrix
symmetrical nonnegative matrix factorization
probabilistic latent semantic analysis
micro-blog hot topic detection
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 改进在线词对主题模型的微博热点话题演化
被引量:3
7
作者
吴迪
张梦甜
生龙
黄竹韵
顾明星
机构
河北工程大学信息与电气工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2021年第24期179-184,共6页
基金
国家重点研发计划“科技冬奥”重点专项子课题(2018YFF0301004-02)
河北省自然科学基金(F2020402003,F2019402428)
河北省高等学校科学技术研究重点项目(ZD2018087)。
文摘
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。
关键词
话题 标签
先验参数
主题强度排名
在线词对主题模型
微博 热点话题 演化
Keywords
topic label
prior parameter
topic intensity ranking
On-line Biterm Topic Model(OBTM)
microblog hot topic evolution
分类号
TP391
[自动化与计算机技术—计算机应用技术]