基于Single-Pass的网络舆情热点发现算法被引量：17

An Internet Public Opinion Hotspot Detection Algorithm Based on Single-Pass

下载PDF

导出

摘要考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。 By considering the time interval of Internet events as well as the importance of different feature items from semi-structured Web documents in different locations, an improved single-pass text clustering algorithm called single-pass＊ is proposed. The advantage is that it assigns the weight value to different feature items from different locations on the Web pages, and only needs to calculate the similarity between the new document and its seed document. Experimental results show that, compared to the single-pass algorithm, the improved algorithm can reduce the missing rate, the error detection rate, and the degradation of system performance caused by computing the topic similarity of documents in new Web data stream, and improve the clustering efficiency at an average rate of 40%. The clustered Web texts can be used to analyze the Internet opinion including the topic relevant degree and the hot degree.

作者格桑多吉乔少杰韩楠张小松杨燕元昌安康健

机构地区西藏大学藏文信息技术研究中心西南交通大学信息科学与技术学院西南交通大学生命科学与工程学院电子科技大学大数据研究中心广西师范学院科学计算与智能信息处理广西高校重点实验室

出处《电子科技大学学报》 EI CAS CSCD 北大核心 2015年第4期599-604,共6页 Journal of University of Electronic Science and Technology of China

基金国家自然科学基金(61100045 61165013) 高等学校博士学科点专项科研基金(20110184120008) 中国博士后科学基金特别资助项目(201104697) 教育部人文社会科学研究青年基金(14YJCZH046) 中央高校基本科研业务费专项资金(2682013BR023) 科学计算与智能信息处理广西高校重点实验室开放课题资助(GXSCIIP201407) 四川省教育厅资助科研项目(14ZB0458)

关键词舆情分析 single-pass 文本聚类话题发现 public opinion analysis single-pass text clustering topic detection

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1BAEZA-YATES R, RIBEIRO-NETO B. Modem information retrieval[M]. Boston, USA: Addison Wesley, 2000. 被引量：1
2贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
3GONG Z, JIA Z, LUO S, et al. An adaptive topic tracking approach based on single-pass clustering with sliding time window[C]//Proceedings of the 2011 International Conference on Computer Science and Network Technology. Washington DC, USA: IEEE Computer Society, 2011:1311- 1314. 被引量：1
4FORESTIERO A, CLARA P, GIANDOMENICO S. A single pass algorithm for clustering evolving data streams based on swarm intelligence[J]. Data Mining and Knowledge Discovery, 2013, 26(1): 1-26. 被引量：1
5赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：30
6ZHU Z, WANG P, JIA Z, et al. Network topic detection model based on text reconstructions[J]. Informatica, 2013, 37(4): 367-372. 被引量：1
7YANG C, YANG J, DING H, et al. A hot topic detection approach on Chinese microblogging[C]//Proceedings of the International Conference on Information Engineering and Applications (IEA) 2012. London: Springer, 2013: 411-420. 被引量：1
8税仪冬,瞿有利,黄厚宽.周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J].北京交通大学学报,2009,33(5):85-89. 被引量：28
9张晓艳,王挺.话题发现与追踪技术研究[J].计算机科学与探索,2009,3(4):347-357. 被引量：21
10康健,乔少杰,格桑多吉,韩楠,洪西进,尼玛扎西,范小刚.基于群体智能的半结构化藏文文本聚类算法[J].模式识别与人工智能,2014,27(7):663-671. 被引量：7

二级参考文献52

1贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
2耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
3骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
4YE Hui-min,CHENG Wei,DAI Guan-zhong.Design and Implementation of On-Line Hot Topic Discovery Model[J].Wuhan University Journal of Natural Sciences,2006,11(1):21-26. 被引量：14
5于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
6刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
7Allan J, CarboneU J, Doddington G, et al. Topic Detection and Tracking Pilot Study: Final Report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Virginia: Lansdowne, February, 1998:194 - 218. 被引量：1
8朱靖波,陈文亮,姚天顺.面向TDT的主题相似性计算模型[C]∥全国第七届计算语言学联合学术会议论文集,2003:476-481. 被引量：2
9张晓艳,王挺.基于多向量和实体模糊匹配的话题关联识别[C]∥第七届中文信息处理国际会议,2007:390-395. 被引量：1
10Yang Y, Pierce T. A Study on Retrospective and On-Line Event Detection[ C]// Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, CMU, USA: ACM, 1998 : 28 - 36. 被引量：1

共引文献132

1梁艳平,安璐,刘静.同类突发公共卫生事件微博话题共振研究[J].数据分析与知识发现,2020,4(2):122-133. 被引量：12
2王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
3赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
4赵华,赵铁军,于浩,张姝.面向动态演化的话题检测研究[J].高技术通讯,2006,16(12):1230-1235. 被引量：17
5赵华,赵铁军,于浩,郑德权.基于查询向量的英语话题跟踪研究[J].计算机研究与发展,2007,44(8):1412-1417. 被引量：8
6洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
7张阔,李涓子,吴刚,王克宏.基于词元再评估的新事件检测模型[J].软件学报,2008,19(4):817-828. 被引量：17
8潘渊,李弼程,张先飞.一种基于自适应重心向量的主题检测方法[J].计算机工程,2009,35(3):80-82. 被引量：2
9邱江涛,唐常杰,乔少杰,李太勇.Web新闻流的增量演进分析[J].计算机科学,2009,36(3):193-195.
10张阔,李涓子,吴刚,王克宏.基于关键词元的话题内事件检测[J].计算机研究与发展,2009,46(2):245-252. 被引量：15

同被引文献113

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2贺敏,王丽宏,杜攀,张瑾,程学旗.基于有意义串聚类的微博热点话题发现方法[J].通信学报,2013,34(S1):256-262. 被引量：12
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
5骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
6刘毅.略论网络舆情的概念、特点、表达与传播[J].理论界,2007(1):11-12. 被引量：312
7何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
8袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
9刘美茹.基于LSI和SVM的文本分类研究[J].计算机工程,2007,33(15):217-219. 被引量：8
10洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153

引证文献17

1张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13
2罗旭,欧阳纯萍,刘志明.基于聚类的热词发现与关联分析[J].现代计算机（中旬刊）,2016(5):56-59. 被引量：2
3王新星.基于Spark平台的热点话题发现算法并行化研究[J].软件导刊,2016,15(9):51-54.
4王丽颖,葛丽娜,张翼鹏,王红.增量式聚类的新闻热点话题发现研究[J].计算机与现代化,2017(3):46-50. 被引量：1
5张斌,胡琳梅,侯磊,李涓子.基于词向量的中文事件发现及表示[J].模式识别与人工智能,2018,31(3):275-282. 被引量：5
6谢宗彦,黎巎,周纯洁.基于CNN和SOM的评论主题发现[J].情报科学,2018,36(6):30-34. 被引量：3
7杨仁凤,陈端兵,谢文波.微博用户兴趣主题抽取方法[J].电子科技大学学报,2018,47(4):633-640. 被引量：3
8宋莉娜,冯旭鹏,刘利军,黄青松.基于SOM聚类的微博话题发现[J].计算机应用研究,2018,35(3):671-674. 被引量：10
9Li Fenghuan,Zhao Zongfei,Wang Zhenyu.Hierarchical clustering based on single-pass for breaking topic detection and tracking[J].High Technology Letters,2018,24(4):369-377. 被引量：3
10陈艳红,向军,刘嵩.高校网络舆情分析的K-Means算法优化研究[J].湖北民族学院学报（自然科学版）,2018,36(4):442-447. 被引量：9

二级引证文献71

1徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
2李晓冬.浅析运动与心脏结构[J].景德镇高专学报,2004,19(4):71-72.
3毛宗珍,李恩荆,葛新发.运动对大鼠心肌ICAM-1表达与超微结构的影响[J].武汉体育学院学报,2004,38(6):64-67. 被引量：6
4彭峰林,乔秀芳.运动与心脏结构的重塑[J].体育科研,2001,22(2):35-36. 被引量：5
5杨翼,李章华,何金森.穴位离子导入对耐力训练大鼠心肌蛋白激酶C表达的影响[J].中国运动医学杂志,2005,24(1):25-29. 被引量：5
6杨翼,李章华,何金森.穴位离子导入对大鼠心脏超微结构及功能的影响[J].中国康复理论与实践,2006,12(2):126-128. 被引量：2
7方平,谭跃萍,刘增波,蔡丽萍,吴淑彬,丛阳.采用超声心动图探测冠状静脉窦评价运动员心肌灌注[J].中国运动医学杂志,2006,25(4):435-438. 被引量：8
8孙红梅.不同运动负荷对大鼠心肌超微结构及一氧化氮与一氧化氮合酶的影响[J].北京体育大学学报,2008,31(7):936-938. 被引量：11
9姥义,桑玉顺,于晓华,谈卫杰,陈言.新兵军事训练前后心脏的超声心动图研究[J].东南国防医药,2008,10(4):254-255.
10陈筱春,文质君,熊静宇.耐力训练大鼠心肌基因谱改变及壳寡糖预处理效应[J].湛江师范学院学报,2009,30(6):101-107.

1丁建立,杨博,雷雄.基于MapReduce的航空公司服务品质热点发现算法[J].计算机工程与科学,2013,35(4):130-135. 被引量：1
2单斌,李芳.基于种子文档LDA话题的演化研究[J].现代图书情报技术,2011(7):104-109. 被引量：6
3支丹萍,何镓.关于网络舆情事件热点发现算法的比较分析刍议[J].科技创新导报,2015,12(18):217-217.
4冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. 被引量：4
5李卫东.基于DOM的半结构化网页信息抽取算法[J].河北省科学院学报,2009,26(1):21-24. 被引量：2
6燕敏,岳萍,杜开峰.基于语义和版式的网上人物信息提取[J].微计算机信息,2010,26(12):145-147.
7程广东,秦一方.基于新浪微博API的话题分析系统[J].山东交通学院学报,2015,23(4):78-86. 被引量：1
8烽烟再起 2009年2月中国笔记本电脑市场用户关注度研究报告[J].个人电脑,2009,15(4):108-110. 被引量：1
9卢敏,李玲玲,史蕾.IBM软件帝国“心”[J].软件和信息服务,2010(11):22-29.
10sOFTFiRE.发往未来的邮件[J].计算机应用文摘,2005(23):94-94.

电子科技大学学报

2015年第4期

浏览历史

内容加载中请稍等...

基于Single-Pass的网络舆情热点发现算法被引量：17

参考文献10

二级参考文献52

共引文献132

同被引文献113

引证文献17

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

基于Single-Pass的网络舆情热点发现算法 被引量：17

参考文献10

二级参考文献52

共引文献132

同被引文献113

引证文献17

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

基于Single-Pass的网络舆情热点发现算法被引量：17