基于多向量和二次聚类的话题检测被引量：3

Topic detection based on multi-vector and secondary clustering

下载PDF

导出

摘要话题检测技术是互联网新闻热点挖掘的基础,为解决基于传统的话题检测较少利用报道中的类别信息以及命名实体信息来提高检测效果,提出一种基于多向量相似度计算和二次聚类的话题检测方法。将报道按照其所在的站点层次关系进行层次分类,利用新闻文本中的地点、人物等命名实体信息来区分新闻报道;利用报道的时间聚集特性,将同一天的报道先进行局部聚类,再与旧话题归并聚类。实验结果表明,该方法的归一化识别代价达到0.197,比传统的话题检测算法提升约8%的性能。 Topic detection technology is based on news hotspot mining on Internet. To solve the traditional topic detections do not make full use of categories information and named entity in reports. So, a new topic detection method based on multi-vector similarity calculation and secondary clustering is proposed, which classifies the reports according to its site hierarchy, and uses information of characters and locations to distinguish the topics. Furthermore, it utilizes the time aggregation behavior of reports to do partial clustering on the set of reports in the same day, and then merged the results with the old topics. The experimental results show that （CDet）Norm of the new method achieves 0. 197, and its performance is about 8% better than traditional methods.

作者王振宇吴泽衡唐远华

机构地区华南理工大学软件学院华南理工大学计算机科学与工程学院

出处《计算机工程与设计》 CSCD 北大核心 2012年第8期3214-3218,共5页 Computer Engineering and Design

基金广东省科技计划基金项目(2010B010600017)

关键词话题检测新闻热点命名实体相似度计算聚类 topic detection news hotspot named entity similarity calculation cluster

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1ZHANG Xianfei, GUO Zhigang, LI Bicheng. An effective algorithm of news topic tracking [C]. Proceedings of the WRI Global Congress on Intelligent Systems, 2009: 510-513. 被引量：1
2Allan J, Harding S, Fisher D, et al. Taking topic detection from evaluation to practice [C]. Hawaii: Proceeding of the Annual Hawaii International Conference on System Science, 2005. 被引量：1
3CHEN K Y, Luesukprasert L, CHOU S c T. Hot topic extraction based on time-line analysis and multidimensional sentence modeling [J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19 (8): 1016-1025. 被引量：1
4洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
5骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
6闵可锐,赵迎宾,刘昕,赵泽宇,闫华.互联网话题识别与跟踪系统设计及实现[J].计算机工程,2008,34(19):212-214. 被引量：9
7石晓敬,韩燮.文本聚类算法的设计与实现[J].计算机工程与设计,2010,31(9):2013-2015. 被引量：5
8郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
9税仪冬,瞿有利,黄厚宽.周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J].北京交通大学学报,2009,33(5):85-89. 被引量：28
10高宏宾,杨海振,张小彬.一种改进的文本聚类方法[J].自动化技术与应用,2008,27(9):30-32. 被引量：3

二级参考文献100

1贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
2金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
3骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
4于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6何峰.一种基于粗糙集理论的文本分类方法[J].自动化与信息工程,2006,27(3):1-3. 被引量：4
7赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
8赵华,赵铁军,于浩,张姝.面向动态演化的话题检测研究[J].高技术通讯,2006,16(12):1230-1235. 被引量：17
9Allan J, CarboneU J, Doddington G, et al. Topic Detection and Tracking Pilot Study: Final Report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Virginia: Lansdowne, February, 1998:194 - 218. 被引量：1
10朱靖波,陈文亮,姚天顺.面向TDT的主题相似性计算模型[C]∥全国第七届计算语言学联合学术会议论文集,2003:476-481. 被引量：2

共引文献225

1骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
2姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
3贺敏,王丽宏,杜攀,张瑾,程学旗.基于有意义串聚类的微博热点话题发现方法[J].通信学报,2013,34(S1):256-262. 被引量：12
4李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
5洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
6刘星星,何婷婷,龚海军,陈龙.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85. 被引量：30
7鲁明羽,姚晓娜,魏善岭.基于模糊聚类的网络论坛热点话题挖掘[J].大连海事大学学报,2008,34(4):52-54. 被引量：20
8潘渊,李弼程,张先飞.一种基于自适应重心向量的主题检测方法[J].计算机工程,2009,35(3):80-82. 被引量：2
9任晓东,张永奎,薛晓飞.基于K-Modes聚类的自适应话题追踪技术[J].计算机工程,2009,35(9):222-224. 被引量：13
10张晓艳,王挺.话题发现与追踪技术研究[J].计算机科学与探索,2009,3(4):347-357. 被引量：21

同被引文献30

1金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
2宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：41
3赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
4洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
5Hofmann T. Probabilisitic latent semantic analysis [ C ]//Proc of UAI99. [ s. 1. ]: [ s. n. ] ,1999. 被引量：1
6Li Hang, Yamanishi K. Topic analysis using a finite mixture model[ J ]. Information Processing and Management, 2003,39 (4) :521-541. 被引量：1
7Landauer T,Foltz P,Laham D. Introduction to latent semantic analysis [ J ]. Discourse Processes, 1998,25:259-284. 被引量：1
8Hotho A, Stumme G. Conceptual clustering of text clusters [ C ]//Proceedings of FGML workshop. Piscataway, N J, USA : IEEE ,2002 : 1-9. 被引量：1
9JORDAN M I, BLEI D M, NG A Y. Latent dirichlet allocation[ J]. Journal of machine learning research,2003,3:993 - 1022. 被引量：1
10张晓艳,王挺,陈火旺.基于多向量和实体模糊匹配的话题关联识别[J].中文信息学报,2008,22(1):9-14. 被引量：5

引证文献3

1徐建民,张猛,吴树芳.基于话题的事件相似度计算[J].计算机工程与设计,2014,35(4):1193-1197. 被引量：4
2肖红,许少华.改进的话题检测和跟踪算法研究[J].计算机技术与发展,2014,24(9):84-88. 被引量：3
3李欣雨,袁方,刘宇,李琮.面向中文新闻话题检测的多向量文本聚类方法[J].郑州大学学报（理学版）,2016,48(2):47-52. 被引量：6

二级引证文献13

1詹威威,程序,蔡惠民,刘汪洋,王彬,余正涛.基于综合影响力模型的改进EvolveKG方法及应用研究[J].计算机应用研究,2020,37(S01):159-162.
2陈福,林闯,薛超,徐月梅,孟坤,倪艺函.短句语义向量计算方法[J].通信学报,2016,37(2):11-19. 被引量：3
3唐亮,席耀一,赵晓峰,易绵竹.基于特征相似度的跨语言事件映射[J].计算机应用,2016,36(A02):247-250. 被引量：3
4江东灿,陈维政,闫宏飞.基于deepwalk方法的适应有限文本信息的DWLTI算法[J].郑州大学学报（理学版）,2017,49(1):29-33.
5邱保志,贺艳芳.多视角核K-means聚类算法的收敛性证明[J].郑州大学学报（理学版）,2017,49(3):32-38. 被引量：4
6张明西,王金华,王晓红,李肖赫.E-learning平台中的课程相似性搜索研究[J].郑州大学学报（理学版）,2017,49(3):39-44.
7刘伍颖,王琳.面向垃圾短信过滤的亚文档集成学习[J].郑州大学学报（理学版）,2017,49(3):59-64. 被引量：1
8刘云花,黎泉.基于MVC模式的网络舆情管理系统的研究与应用[J].现代电子技术,2017,40(24):31-33. 被引量：3
9李晶.网络热门话题的跟踪建模与检测分析[J].现代电子技术,2018,41(3):128-131. 被引量：2
10张素智,赵亚楠,杨芮.推荐系统研究[J].湖北民族学院学报（自然科学版）,2017,35(1):1-6. 被引量：1

1施耐德电气囊获2007中国工控网工控及自动化年度评选四奖项[J].水泥技术,2008(2):27-27.
2施耐德电气荣获2007工控及自动化年度评选四个奖项[J].物流技术与应用,2008,13(3):112-112.
3新闻热点[J].电脑自做,2004(8):5-5.
4施耐德电气荣获2007中国工控网工控及自动化年度评选4个奖项[J].中国电力,2008,41(4):39-39.
5海音(选译).小事件大视界[J].英语沙龙（原版阅读）,2011(8):4-6.
62005年中国工控及自动化界年度评选揭晓[J].中国仪器仪表,2006(2):57-57.
7新闻热点[J].电脑自做,2004(7):5-6.
8闫跃龙.群雄逐鹿移动互联网[J].通讯世界,2008(9):4-4.
9陈海光,韩鹏,吴华峰,高传善.无线传感器网络中基于多向量的拥塞控制[J].通讯和计算机（中英文版）,2007,4(2):38-41.
10孙世杰,濮建忠.基于LDA模型的Twitter中文微博热点主题词组发现[J].洛阳师范学院学报,2012,31(11):60-64. 被引量：6

计算机工程与设计

2012年第8期

浏览历史

内容加载中请稍等...

基于多向量和二次聚类的话题检测被引量：3

参考文献11

二级参考文献100

共引文献225

同被引文献30

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于多向量和二次聚类的话题检测 被引量：3

参考文献11

二级参考文献100

共引文献225

同被引文献30

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于多向量和二次聚类的话题检测被引量：3