摘要
为了解决传统聚类算法难以获得较好的Web用户聚类结果、使用的指标无法全面反映用户行为特征的问题,提出一种基于粒度原理的Web用户聚类算法。首先对离散化数据给出稀疏相似度和初始等价关系的定义,进行初次聚类;然后设计可变精度的二次聚类模型对初始聚类结果进行修正;最后结合应用领域定义一种新的聚类质量评价模型。算法中面向Web用户引入多指标体系,各种指标既可独立考核,也可灵活组合,并同时兼顾决策者对指标的偏好。实验证明,该算法适用于Web用户的高维稀疏数据,不依赖样本的顺序,具有更广应用性,可提供多粒度分析结果,得到的聚类结果能真实反映数据的特征。
To solve the problems of that the traditional clustering algorithm was hard to obtain ideal result of Web user, and the indexes of current algorithms could' t reflect user behavioral characteristic, this paper proposed a granular principle based clustering algorithm. It discretized the sparse data through a semi-fuzzy algorithm. Based on these, defined sparse similarity and initial equivalence relation on discrete data and designed variable precision quadratic clustering model to refine the result so the algorithm gained noise resistance ability. Defined a new clustering quantity evaluation model for the application field. The algorithm used muhi indexes which could be used exclusively or together flexibly to evaluate the users. The experiment results show that the algorithm is suitable for Web user clustering and independent of data sequence, and provides results of various granular with high veracity and shows the data characteristics.
出处
《计算机应用研究》
CSCD
北大核心
2011年第7期2427-2431,2435,共6页
Application Research of Computers
基金
国家自然科学基金资助项目(70971027)
国家教育部人文社会科学研究青年基金资助项目(10YJCZH234)
广东高校优秀青年创新人才培养计划(育苗工程)项目(LYM09067)
广东工业大学博士启动基金资助项目(103055)
广东省哲学社会科学"十一五"规划项目(07SJY020)
广东省软科学研究项目(2008B070800092)
广东省大学生创新实验项目(1184510162
1184510166)
关键词
WEB使用挖掘
粒度原理
高属性维稀疏数据
多指标
聚类质量评价
Web usage mining
granular principle
high attribute dimensional sparse data
multi-index
clustering quality evaluation