摘要
以新浪微博为例,通过网络爬虫软件抓取新浪用户的相关信息。使用计量学方法,对用户特征进行统计分析,并利用决策树分析、相关性分析和关联挖掘用户特征。结果表明:新浪微博的认证用户和非认证用户之间存在明显差异;微博客用户的特性、发布微文时间段、微文长度、关注者、粉丝量和微文数等具有统计特性,地域差异明显;微博客用户选择是否公布城市,是否允许所有人私信、评论等之间存在一定关联关系;另外,通过对用户的分类发现,其中三种类型的用户群体之和占用户总体的85%以上,具有显著特性,为微博客用户特性的深入研究提供参考依据。
This paper analyzes the data crawled from Sina Micro-blog by metrological method,decision-tree analysis, correlation analysis and etc. The result shows that, there are obvious differencesbetween the Sina micro-blog authenticated users and non-authenticated users. The characters ofmicro-blogging users have favorable statistic characteristics, and the regional disparities betweenmicro-blogging users are quite remarkable. There is a certain relationship between whether users chooseto publish their location and whether they allow others comment or send message. Moreover, three kinds ofmicro-blog users account for more than 90% of the total users. This paper is helpful for other researchersto study micro-blog users behavior.
出处
《情报科学》
CSSCI
北大核心
2015年第1期69-75,共7页
Information Science
基金
国家社科基金重点项目(10ATQ004)
江苏省2012年度普通高校研究生科研创新计划(CXLX12_0065)
关键词
微博
用户特征
用户分类
micro-blog
user characteristics
user classification