微博自动分类系统设计被引量：5

An Automatic Classifi cation System for Microblogging

下载PDF

导出

摘要文章提出了一种热门微博分类的新思路,通过对热门微博的转发用户进行聚类分析,并根据不同的用户聚集状态来区分不同种类的热门微博。在用户聚类中采用了基于K-means聚类算法的改进算法X-means,并根据微博用户数据特点对X-means算法进行了进一步改进,将属性差异和用户节点差异考虑在聚类过程当中。其中,在对X-means算法改进过程中,对于用户属性的加权采用了基于对数函数的加权方式,确保聚类结果更加科学、准确;在对用户自身权重的加权中,通过建立重点人员信息库的方式,实现了对特殊用户节点的加权,并利用HITS算法对重点人员信息库实现动态更新。在完成用户聚类之后,将得到的重要用户的信息分领域录入重点人员信息库,实现聚类过程与信息库的反馈机制。另外,实验将相同数据分别代入改进前后的K-means算法与X-means算法中,并通过轮廓系数评价聚类结果,证明了改进后的X-means算法在微博用户聚类中更有优势。 This paper proposed a new idea for popular microblogging classifi cation, by analyzing the users who forwarded the popular microblogging to obtain the clustering result, and distinguishing the different kinds of popular microblogging depending on the aggregation state of user. The user clustering algorithm is called X-means algorithm which improved on the basis of K-means clustering algorithm, and improved further according to the characteristics of the microblogging user. Taking into account the difference of the user themselves and their attributes, this paper used a weighted approach based on the logarithmic function in the process of improving X-means algorithm,which can ensure that the clustering results more scientifi c and accurate. Simultaneously, this paper achieved a weighted approach for the special nodes by the way of establishing a Key-Personnel- Database, then this paper achieved the dynamic updates of the database with the HITS algorithm. After completing the user clustering, the experiment put the important user information into the Key-Personnel- Database in different fi elds, by which can achieve the feedback mechanism between the clustering processes and the database. In addition, clustered the microblogging user with the X-means algorithm and the k-means algorithm as well as their improved algorithm, and ultimately proved the improved X-means algorithm has more advantages in the microblogging user clustering.

作者张士豪顾益军张俊豪

机构地区中国人民公安大学网络安全保卫学院

出处《信息网络安全》 2016年第1期81-87,共7页 Netinfo Security

基金公安部重点研究计划[2011ZDYJGADX016]

关键词微博分类用户聚类轮廓系数 microblogging classifi cation user clustering outline coeffi cient

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1王明元,贾焰,周斌,黄九鸣.一种基于主题相关性分类的微博话题立场研判方法[J].信息网络安全,2014(9):17-21. 被引量：4
2江斌..微博自动分类方法研究及应用[D].哈尔滨工业大学,2012:
3严岭,李逸群.网络舆情事件中的微博炒作账号发现方法研究[J].信息网络安全,2014(9):26-29. 被引量：4
4周咏梅,杨佳能,阳爱民.面向文本情感分析的中文情感词典构建方法[J].山东大学学报（工学版）,2013,43(6):27-33. 被引量：41
5柳俊,周斌,黄九鸣.基于二部图投影的微博事件关联分析方法研究[J].信息网络安全,2014(9):44-49. 被引量：4
6曹海涛..基于PAD模型的中文微博情感分析研究[D].大连理工大学,2013:
7谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83. 被引量：199
8杜伟夫..文本倾向性分析中的情感词典构建技术研究[D].哈尔滨工业大学,2010:
9高永兵,郭文彦,周环宇,聂知秘.基于K-means的私人微博聚类算法改进[J].微型机与应用,2014,33(14):78-81. 被引量：2
10张雪凤,张桂珍,刘鹏.基于聚类准则函数的改进K-means算法[J].计算机工程与应用,2011,47(11):123-127. 被引量：41

二级参考文献166

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2张珊,于留宝,胡长军.基于表情图片与情感词的中文微博情感分析[J].计算机科学,2012,39(S3):146-148. 被引量：55
3李红莲,王春花,袁保宗,朱占辉.针对大规模训练集的支持向量机的学习策略[J].计算机学报,2004,27(5):715-719. 被引量：53
4陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
5杨楠,弓丹志,李忺,孟小峰.Web社区发现技术综述[J].计算机研究与发展,2005,42(3):439-447. 被引量：35
6朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
7赵国富,曲国庆.聚类分析中CLARA算法的分析与实现[J].山东理工大学学报（自然科学版）,2006,20(2):45-48. 被引量：9
8张海燕,顾峰,姜丽红.基于模糊簇的个性化推荐方法[J].计算机工程,2006,32(12):65-67. 被引量：7
9徐晓华,陈崚.一种自适应的蚂蚁聚类算法[J].软件学报,2006,17(9):1884-1889. 被引量：55
10刘婷,胡宝清.基于聚类分析的复杂网络中的社团探测[J].复杂系统与复杂性科学,2007,4(1):28-35. 被引量：16

共引文献388

1谈帅,罗尊骅.微博时空大数据疫情发展过程可视化与分析技术研究[J].现代测绘,2020,43(3):1-4. 被引量：2
2张东霞.基于高校学生微博的舆情热点分析与发现[J].东南传播,2013(6):87-89. 被引量：7
3蒋亚婷,李兵.微博数据驱动的用户排名方法研究[J].图书情报工作,2012,56(S2):310-313. 被引量：2
4高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
5赖清楠,马皓,宋维佳,李婷婷,蒋广学,张蓓.高校BBS与微博的用户社交行为特征分析[J].通信学报,2013,34(S2):99-106. 被引量：3
6欧阳焱,刘光大,杨昌智.空调水泵节能运行设计探讨[J].工程设计与研究（长沙）,2000(1):25-28. 被引量：1
7魏萍.改良式剖宫产术112例临床分析[J].川北医学院学报,2000,15(1):42-43.
8孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量：11
9林江豪,阳爱民,周咏梅,陈锦,蔡泽键.一种基于朴素贝叶斯的微博情感分类[J].计算机工程与科学,2012,34(9):160-165. 被引量：44
10罗颖瑶,邬锦雯.新浪微博与腾讯微博的竞争态势比较分析[J].图书情报工作,2012,56(18):82-86. 被引量：5

同被引文献43

1陈婕.文档型数据库与关系型数据库的比较[J].湖北工业大学学报,2006,21(4):98-100. 被引量：4
2吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：165
3王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24. 被引量：304
4张健沛,李泓波,杨静,白劲波,张乐君.基于拓扑势的网络社区结点重要度排序算法[J].哈尔滨工程大学学报,2012,33(6):745-752. 被引量：20
5王连喜,蒋盛益,庞观松,吴美玲.微博用户关系挖掘研究综述[J].情报杂志,2012,31(12):91-97. 被引量：27
6王卫平,范田.一种基于主题相似性和网络拓扑的微博社区发现方法[J].计算机系统应用,2013,22(6):108-113. 被引量：11
7何翔,顾春华,丁军.基于微博的主题社区发现[J].计算机应用与软件,2013,30(6):209-213. 被引量：3
8闫光辉,舒昕,马志程,李祥.基于主题和链接分析的微博社区发现算法[J].计算机应用研究,2013,30(7):1953-1957. 被引量：28
9许凡,施国良.微博分析工具的比较与评价研究[J].竞争情报,2013,9(4):17-21. 被引量：3
10聂展云.移动警务服务平台在公安领域的研究和实践[J].警察技术,2014(3):44-46. 被引量：7

引证文献5

1温俊伟.面向Twitter的分析系统研究[J].信息网络安全,2016(9):234-239. 被引量：1
2刘奇飞.基于兴趣的微博用户关系分析原型系统研究[J].信息网络安全,2016(9):240-245. 被引量：4
3陈希林,马丁.针对微博信息分析的HBase存储结构设计[J].信息网络安全,2016(9):267-271. 被引量：4
4魏文燕,吕鑫,高琰.文本挖掘技术在公安领域案件分析中的应用[J].湖南警察学院学报,2017,29(3):98-104. 被引量：3
5许立辉,陈敏,王池社.一种用于中医四诊分析的子空间聚类方法[J].计算机与现代化,2020(12):67-71.

二级引证文献11

1苏晓红.建立统一的国债回购市场[J].金融理论与实践,2000(3):18-19.
2莫靖杰,屠晨阳,彭佳,袁珺.基于多源信息融合的社交网络挖掘[J].信息网络安全,2017(9):73-76. 被引量：3
3裴杨,瞿学鑫,郭晓博,段丁阳.基于node2vec的社交网络用户属性补全攻击[J].信息网络安全,2017(12):67-72. 被引量：3
4罗文华,王志铭.基于存储形态及特征的HBase数据库灾难恢复机制研究[J].信息网络安全,2018(9):42-47. 被引量：2
5黄建军,方勇,何祥.基于用户关系和文本的微博用户相似性度量[J].现代计算机,2019,25(9):33-37. 被引量：1
6陈志扬,曹金璇,聂世民.特定用户群体关系挖掘与分析研究[J].软件导刊,2019,18(9):183-187. 被引量：1
7李振宇,李勇,聂耀鑫.一种基于知识图谱的多元空间涉案人财物线索挖掘模型简析[J].信息系统工程,2019,0(11):116-117. 被引量：1
8霍纬纲,程文莉,李继龙.基于HBase的QAR数据存储设计与实现[J].计算机工程与设计,2020,41(5):1494-F0003. 被引量：14
9郭凡莎,杨风暴.基于CRF的交通肇事诉讼案件关键要素抽取[J].计算机与现代化,2021(3):77-81. 被引量：2
10王璐.基于HBase的大数据存储设计及高并发查询方法研究[J].信息与电脑,2021,33(15):184-187. 被引量：2

1何莹,秦亮曦.基于PCA的H-K聚类算法研究[J].微计算机信息,2012,28(6):163-165. 被引量：3
2葛亮,郎江涛,唐黄,唐允恒.面向高维数据的PCA-Hubness聚类方法[J].现代计算机（中旬刊）,2017(4):52-55. 被引量：1
3安计勇,闫子骥,翟靖轩.基于距离阈值及样本加权的K-means聚类算法[J].微电子学与计算机,2015,32(8):135-138. 被引量：8
4夏士雄,李文超,周勇,张磊,牛强.Improved k-means clustering algorithm[J].Journal of Southeast University(English Edition),2007,23(3):435-438. 被引量：16
5朱连江,马炳先,赵学泉.基于轮廓系数的聚类有效性分析[J].计算机应用,2010,30(12):139-141. 被引量：117
6安计勇,韩海英,侯效礼.一种改进的DBscan聚类算法[J].微电子学与计算机,2015,32(7):68-71. 被引量：13
7张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：56
8安计勇,高贵阁,史志强,孙磊.一种改进的K均值文本聚类算法[J].传感器与微系统,2015,34(5):130-133. 被引量：19
9王景中,张存正.用于网络行为分析的一种改进K-means算法[J].北方工业大学学报,2016,28(1):24-27. 被引量：1
10陶刚,闫永刚,刘俊,邹娇.基于改进的SOM聚类连续属性离散化算法[J].计算机应用,2015,35(A01):89-92. 被引量：7

信息网络安全

2016年第1期

浏览历史

内容加载中请稍等...

微博自动分类系统设计被引量：5

参考文献18

二级参考文献166

共引文献388

同被引文献43

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

微博自动分类系统设计 被引量：5

参考文献18

二级参考文献166

共引文献388

同被引文献43

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

微博自动分类系统设计被引量：5