基于文本双表示模型的微博热点话题发现

Microblog Hot Topic Discovery Based on Text Dual Representation Model

下载PDF

导出

摘要微博作为当代生活中信息传播的重要平台,对其进行热点话题挖掘成为当今重要的研究方向之一。针对传统的热点话题发现方法在处理微博文本时存在文本表示缺乏语义信息、挖掘热点话题效果差等问题,本文提出一种基于频繁词集和BERT语义的文本双表示模型(Text dual representation model based on frequent word sets and BERT semantics,FWS-BERT),通过该模型计算加权文本相似度对微博文本进行谱聚类,进一步基于改进相似性度量的affinity propagation(AP)聚类算法进行微博话题挖掘,最后通过引入文献计量学中的H指数提出一种话题热度评估方法。实验表明,本文提出的方法在轮廓系数及Calinski-Harabasz(CH)指标值上均高于基于频繁词集的单一文本表示方法和K-means方法,并且能准确地对微博数据进行话题表示和热度评估。 Microblog is an important platform for information dissemination in contemporary life,mining hot topics on microblog has become one of the important research directions nowadays.In view of the problems of traditional hot topic discovery methods in dealing with microblog text,such as lack of semantic information in text representation,poor effect of mining hot topics and so on,this paper proposes a text dual representation model based on frequent word sets and BERT semantics(FWS-BERT),which calculates the weighted text similarity to perform spectral clustering on microblog text,further,microblog topic mining is carried out based on affinity propagation(AP)clustering algorithm with improved similarity measurement.Finally,a topic heat evaluation method is proposed by introducing the H index in bibliometrics.Experiments show that the proposed method is higher than the single text representation method based on frequent word set and K-means method in contour coefficient and Calinski-Harabasz(CH)index value,and can accurately represent the topic and Evaluate-the popularity of microblog data.

作者刘梦颖王勇 LIU Meng-ying;WANG Yong(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)

机构地区北京工业大学信息学部

出处《计算机与现代化》 2021年第12期110-115,122,共7页 Computer and Modernization

关键词微博频繁词集 BERT 聚类热点话题 microblog frequent word sets BERT clustering hot topics

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-706. 被引量：119
2路荣,项亮,刘明荣,杨青.基于隐主题分析和文本聚类的微博客中新闻话题的发现[J].模式识别与人工智能,2012,25(3):382-387. 被引量：67
3陈珊珊..基于LDA模型的文本聚类研究[D].苏州大学,2017:
4徐雅斌,李卓,吕非非,武装.基于频繁词集聚类的微博新话题快速发现[J].系统工程理论与实践,2014,34(S1):276-282. 被引量：7
5彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953. 被引量：31
6吴云,许抗震,黄瑞章.一种基于Hadoop的文本相似度仿真检测模型[J].新疆大学学报（自然科学版）,2017,34(3):308-315. 被引量：3
7杨波..新浪微博热点话题发现研究[D].新疆大学,2019:
8肖可.h指数在学科研究热点分析中的应用——以图情学为例[J].情报杂志,2011,30(3):69-73. 被引量：15
9陈远,丛振江.利用h指数评测微博影响力——以新浪校园微博为例[J].情报科学,2015,33(5):85-90. 被引量：15
10王杨,王非凡,张舒宜,黄少芬,许闪闪,赵晨曦,赵传信.基于TF-IDF和改进BP神经网络的社交平台垃圾文本过滤[J].计算机系统应用,2019,28(3):126-132. 被引量：12

二级参考文献216

1叶鹰.h指数和类h指数的机理分析与实证研究导引[J].大学图书馆学报,2007,25(5):2-5. 被引量：114
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
4J.E.Hirsch,刘俊婉,马建华.衡量科学家个人成就的一个量化指标[J].科学观察,2006,1(1):2-7. 被引量：60
5金碧辉.科学家为自己设计了一项评价指标:h指数[J].科学观察,2006,1(1):8-9. 被引量：71
6Wolfgang Gl nzel,刘俊婉,金碧辉.也谈h指数的机会和局限性[J].科学观察,2006,1(1):10-11. 被引量：26
7Anthony F. J. van Raan,刘俊婉(翻译),马建华(审校).h指数与标准文献计量学指标及同行评议之间的关系[J].科学观察,2006,1(1):12-14. 被引量：10
8Henk F. Moed,刘俊婉(翻译),金碧辉(审校).h指数构建有创意用于评价要慎重[J].科学观察,2006,1(1):15-15. 被引量：11
9Ronald Rousseau,刘俊婉(翻译),金碧辉(审校).案例研究:美国信息学会会刊h指数的时间序列变化[J].科学观察,2006,1(1):16-17. 被引量：29
10宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：41

共引文献355

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2张辉,何庆勇,惠小珊,但文超,孟培培.蒲辅周先生治疗湿证用药规律的数据挖掘研究[J].世界科学技术-中医药现代化,2021,23(9):3195-3201. 被引量：1
3吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
4侯宇豪,杨维芳,马文骏,王卓,余懿韬,闫香蓉,闫浩文.一种利用VSM检索微地图的方法[J].测绘科学,2023,48(12):225-233.
5张晓军.h指数在科技期刊编辑工作中的应用[J].科技情报开发与经济,2011,21(24):143-146.
6田质兵,何年琴,薛娟.国内h指数研究文献定量分析[J].农业图书情报学刊,2011,23(12):59-63. 被引量：2
7何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
8张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13
9马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
10菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.

1陆泉,陈仕,陈静,郝志同,朱安琪.高维稀疏情境下微博专业领域热点话题挖掘研究[J].情报理论与实践,2020,43(11):137-143. 被引量：6
2李勇.基于两层聚类的微博热点话题发现算法研究[J].自动化技术与应用,2021,40(11):45-50. 被引量：2
3孙佳山.流量的世界大战[J].中国电影市场,2021(12):4-8.
4逯海玥,芮小平,李润奎.基于共词网络的雾霾事件下微博关注话题差异性——以中国北方雾霾严重地区典型城市为例[J].科学技术与工程,2021,21(23):9923-9931. 被引量：1
5袁超.花样跳绳在高校体育教学中的指导初探[J].当代体育科技,2021,11(30):42-44.
6杨威亚,余正涛,高盛祥,宋燃.基于跨语言神经主题模型的汉越新闻话题发现方法[J].计算机应用,2021,41(10):2879-2884. 被引量：6
7张怿恺,彭勇,孔万增,文益民.图正则化的模糊局部坐标编码概念分解模型[J].中国科学技术大学学报,2020,50(7):993-1002.
8江兵,李国荣,孙赵盟,庞宗强.基于长短期记忆神经网络和改进型K-means聚类算法的居民峰谷时段划分模型[J].现代电力,2021,38(6):620-627. 被引量：7
9吴建旭,于永进.基于改进和声搜索算法的多目标配电网重构优化[J].电力系统保护与控制,2021,49(19):78-86. 被引量：21
10谢仲文,陈一帆,王雷亭,田淑敏.应用舆情大数据监测乡村旅游动态变化的实验性研究[J].泰山学院学报,2021,43(6):62-68. 被引量：1

计算机与现代化

2021年第12期

浏览历史

内容加载中请稍等...

基于文本双表示模型的微博热点话题发现

参考文献11

二级参考文献216

共引文献355

相关作者

相关机构

相关主题

浏览历史