改进的K-means算法在网络舆情分析中的应用被引量：7

Application of Improved K-Means Algorithm to Analysis of Online Public Opinions

下载PDF

导出

摘要结合网络舆情分析的应用需求背景,首先介绍了文本信息的处理,然后探讨了文本聚类中的K-means算法,针对其对初始聚类中心的依赖性的特点,对算法加以改进。基于文档标题能够代表文档内容的思想,改进算法采用稀疏特征向量表示文本标题,计算标题间的稀疏相似度,确定初始聚类中心。最后实验证明改进的K-means算法提高了聚类的准确度;与基于最大最小距离原则的初始中心选择算法比较,提高了执行效率,同时保证了聚类准确度。 Combining background application requirement of online public opinion analysis,this paper firstly introduces the processing of text information,and then discusses the K-means algorithm of the text clustering,according to its characteristic that clustering results depend on the centers of initial clustering,and improves it.Based on the thought that text title can express its content,the improved algorithm uses sparse character vector to express text title,calculates the sparse similarity of them and ascertains the centers of initial clustering.The experiments show that the method improves the clustering accuracy.Compared with another algorithm based on the principle of maximum and minimum distance,the improved method heightens the efficiency and ensures the clustering accuracy.

作者汤寒青王汉军

机构地区中国科学院研究生院中国科学院沈阳计算技术研究所

出处《计算机系统应用》 2011年第3期165-168,196,共5页 Computer Systems & Applications

关键词网络舆情 K-MEANS算法文本聚类稀疏特征向量 online public opinion K-means clustering algorithm text clustering sparse character vector

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Likas A, Vlassis N, Verbeek J. The global k-means clustering algorithm. Pattern Recognition, 2003,36(2):451. 被引量：1
2李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报（自然科学版）,2005,33(3):53-55. 被引量：19
3MacQueen J. Some methods for classification and analysis of multivariate observations. Proc. of the 5th Berkeley Symp. on Mathematics Statistic Problem, 1967:281 -297. 被引量：1
4Dhillon IS, Modha DS.Concept decompositions for large sparse text data using clustering. Machine Learning, 2001, 42(1):143- 175. 被引量：1
5Salton G. Wong A, Yang CS. A vector space model for automatic indexing. Communications of ACM, 1975,18(5): 613-620. 被引量：1
6Bun KK. Topic Extraction from News Archive Using TF*PDT Algorithm. Proceedings of the 3rd International Conference on Web Information Systems Engineering. 2002. 被引量：1
7赵亚琴,邹红艳.基于信息粒度的文本聚类算法[J].计算机工程与设计,2009,30(22):5171-5174. 被引量：2
8Steinbach M, Karypis G, Kumar V. A comparison of document clustering techniques Proceeding of the 6th ACM-SIGKDD International Conference on Text Mining, Boston,MA,USA: ACM Press, 2000:103-122. 被引量：1
9张睿..基于k-means的中文文本聚类算法的研究与实现[D].西北大学,2009:
10Steinbach M, Karypis G, Kumara V. A Comparison of Document Clustering Techniques. KDD-2000 Workshop on Text Mining, Boston MA, August 20-23, 2000:109- 110. 被引量：1

二级参考文献11

1李向军,徐国华,刘立平.一种文本聚类算法[J].西北大学学报（自然科学版）,2005,35(2):155-158. 被引量：3
2朱树人,匡芳君,王艳华.基于粒度原理的蚁群聚类算法[J].计算机工程,2005,31(23):162-163. 被引量：6
3王伦文.聚类的粒度分析[J].计算机工程与应用,2006,42(5):29-31. 被引量：19
4赵亚琴,周献中.一种基于小生境遗传算法的中文文本聚类新方法[J].计算机工程,2006,32(6):206-208. 被引量：4
5Salton G, Yang C S.On the specification of term values in automatic indexing[J].Journal of Documentation, 1973, 29(4): 351-372. 被引量：1
6Fabrizio Sebastiani.Machine learning in automated text categorization[J].ACM Computing Surveys, 2002, 34(1): 11-12,32-33. 被引量：1
7白莉媛,黄晖,刘素华,阎秋玲.基于自助平均的朴素贝叶斯文本分类器[J].计算机工程,2007,33(15):190-192. 被引量：5
8郭建永,蔡勇,甄艳霞.基于文本聚类技术的主题发现[J].计算机工程与设计,2008,29(6):1426-1428. 被引量：15
9朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量：45
10王国勇,徐建锁.TCBLSA:一种中文文本聚类新方法[J].计算机工程,2004,30(5):21-22. 被引量：15

共引文献19

1战忠丽,王强,刘金明.基于分解向量空间模型的信息检索系统的设计[J].南方职业教育学刊,2011,1(2):17-19.
2王卫东,宋丹,宋人杰.基于分解的向量空间模型的Web新闻信息检索[J].山东大学学报（理学版）,2006,41(3):37-40. 被引量：1
3付克志,林鸿飞.基于N-Level VSM在Web信息检索中的研究[J].计算机工程与应用,2006,42(19):158-160. 被引量：3
4刘华.汉语信息处理中短语优势的理据及实验证明[J].语言文字应用,2007(4):129-135. 被引量：3
5冯少荣,肖文俊.基于语义距离的高效文本聚类算法[J].华南理工大学学报（自然科学版）,2008,36(5):30-37. 被引量：15
6刘晓丽,王涛,苏鹏,梁令.文本分类检索技术在工程中的应用[J].无线电工程,2008,38(10):58-61. 被引量：1
7冯少荣.一种提高文本聚类算法质量的方法[J].同济大学学报（自然科学版）,2008,36(12):1712-1718. 被引量：3
8李家兵.中文文本分类特征选择的研究[J].皖西学院学报,2009,25(2):22-25. 被引量：1
9樊娜,蔡皖东,赵煜.基于混合模型的文本主题-情感分析方法[J].华中科技大学学报（自然科学版）,2010,38(1):31-34. 被引量：4
10曾文华,黄桦.基于网页信息检索的地理信息变化检测方法[J].计算机应用,2010,30(4):1132-1134. 被引量：8

同被引文献70

1孙宗锋,姜楠.政府部门回应策略及其逻辑研究——以J市政务热线满意度考核为例[J].中国行政管理,2021(5):40-46. 被引量：16
2盖盛楠.政务舆情回应议程设置失灵问题与对策分析——基于政务舆情热点事件应对案例[J].新媒体研究,2021,7(11):53-57. 被引量：1
3郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
4胡雷芳.五种常用系统聚类分析方法及其比较[J].浙江统计,2007(4):11-13. 被引量：76
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
6化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
7郭茜,杨晓春,于戈,李广翱.用于改善web搜索的结构化数据抽取技术(英文)[J]Journal of Southeast University(English Edition),2008(03). 被引量：1
8ZAMIR O E.Clustering Web docaments:A phrase-based method for grouping search engine results,1999. 被引量：1
9SONG Ming-qiu,WU Xin-tao.Content extraction from Web pages based on Chinese punctuation numberProc of International Conference on Wireless CommunicationsNetworking and Mobile Computing,2007. 被引量：1
10Huma Lodhi, Craig Saunders, John Shawe-Taylo, et al. Text classification using String Kernels [J]. Journal of Machine Learning Research, 2002, 2: 419-444. 被引量：1

引证文献7

1彭静,翟英,冯爽.后缀树算法在舆情聚类中的应用[J].河北科技大学学报,2012,33(1):65-68. 被引量：1
2王兰成.网络舆情情报语义集成分析法的理论与实践探析[J].情报理论与实践,2013,36(2):48-50. 被引量：6
3张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统,2013,34(3):471-474. 被引量：25
4焦潞林,彭岩,林云.面向网络舆情的文本知识发现算法对比研究[J].山东大学学报（理学版）,2014,49(9):62-68. 被引量：1
5谢修娟,李香菊,莫凌飞.基于改进K-means算法的微博舆情分析研究[J].计算机工程与科学,2018,40(1):155-158. 被引量：17
6张丽,李菊.基于改进K-means算法的微博舆情热点分析[J].信息技术与信息化,2022(9):103-106. 被引量：2
7刘冰,张航.基于民众需求与情感的突发公共卫生事件政府回应策略研究[J].情报科学,2023,41(9):8-18. 被引量：4

二级引证文献55

1周建青,吴美凤.事故灾难类突发事件政府回应评价体系构建研究[J].中国应急管理科学,2024(3):9-21.
2王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
3张礼星,唐湘华,唐胜,章克昌.里氏木霉纤维素酶在大曲酒丢糟中的应用[J].酿酒科技,2000(3):52-53. 被引量：12
4张伟佳,丛帅,崔巍.论网络舆情监测系统中关键词智能追踪模型的建立[J].计算机光盘软件与应用,2013,16(23):29-30. 被引量：1
5张昭,艾中良.一种基于用户关联分析的热点话题识别算法[J].计算机与现代化,2014(1):156-160. 被引量：2
6黄斐一,孙立军,孔繁盛.构建移动互联网业务安全框架[J].移动通信,2014,38(5):27-30. 被引量：1
7江林升,张春霞.含关键字的新浪微博获取与舆情分析[J].宝鸡文理学院学报（自然科学版）,2014,34(1):51-54. 被引量：4
8马彦.大数据环境下微博舆情热点话题挖掘方法研究[J].现代情报,2014,34(11):29-33. 被引量：9
9骆绍烨.一种基于用户兴趣的STC改进算法[J].江南大学学报（自然科学版）,2015,14(1):85-89.
10李洪利,王箭.基于用户关联的热点话题检测方法[J].计算机与现代化,2015(4):20-25. 被引量：1

1赵亚琴,邹红艳.基于信息粒度的文本聚类算法[J].计算机工程与设计,2009,30(22):5171-5174. 被引量：2
2王志军.利用TC插件对Word文档进行智能命名[J].网友世界,2010(23):38-38.
3杨飒,郑志硕.基于稀疏随机投影的SIFT医学图像配准算法[J].量子电子学报,2015,32(3):283-289. 被引量：8
4西贝.Word文档标题自动进页眉[J].网络与信息,2004,18(9):79-79.
5王霞.Word 2010文档标题自动进页眉[J].电脑知识与技术（经验技巧）,2012(1):42-43.
6王霞.Word2010文档标题自动进页眉[J].网友世界,2011(22):25-25.
7IT民工.让稿纸中的文档标题居中[J].电脑迷,2007,0(17):84-84.
8刘希宋,喻登科,李玥.基于客户知识的客户CABOSFV聚类[J].情报杂志,2008,27(2):7-9. 被引量：3
9刘毛溪,万鸣华,孙成立,王巧丽.无监督的稀疏差分嵌入特征提取方法[J].小型微型计算机系统,2017,38(5):1134-1138. 被引量：4
10武森,姜丹丹,王蔷.分类属性数据聚类算法HABOS[J].工程科学学报,2016,38(7):1017-1024. 被引量：3

计算机系统应用

2011年第3期

浏览历史

内容加载中请稍等...

改进的K-means算法在网络舆情分析中的应用被引量：7

参考文献10

二级参考文献11

共引文献19

同被引文献70

引证文献7

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

改进的K-means算法在网络舆情分析中的应用 被引量：7

参考文献10

二级参考文献11

共引文献19

同被引文献70

引证文献7

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

改进的K-means算法在网络舆情分析中的应用被引量：7