期刊文献+

基于层次聚类的虚假用户检测 被引量:2

Detecting of fake accounts with hierarchical clustering
原文传递
导出
摘要 互联网上充斥着大量恶意用户,而互联网服务提供商通常有海量的注册用户,使得系统难以从中发现虚假账户。针对海量注册数据中,恶意用户批量注册的虚假账户通常具有相似性的特点。该文提出海量数据中定位虚假账户的系统模型,利用用户名字符串组成模式对海量数据进行预分类,进而对每个分类中元素计算字符串相似度,即计算字符串Levenshtein距离。设置合适的阈值,进行层次聚类分析,从而定位藏匿在海量注册数据中的成组的虚假账户。实验结果表明:该系统模型有效,与现有的模型相比,该系统对数据维度、数据特性依赖较小。 Since there are many malicious users on the Internet, popular online websites sometimes have millions of registered users. The system cannot easily distinguish between fake accounts and legitimate users. Fake accounts registered by a single malicious user often have similar profiles. This paper presents a new framework to find fake accounts in large numbers of users. The framework uses username string patterns to classify the original data and then calculates the similarity as measured by the Levenshtein distance between any two elements in one category. Hierarchical clustering with a proper threshold then finds groups of fake accounts hidden in the large amount of registration data. Tests demonstrate the effectiveness of this framework which algorithm relies less on data dimensions and features than other algorithms.
作者 方勇 刘道胜 黄诚 FANG Yong LIU Daosheng HUANG Cheng(College of Electronics and Information Engineering Sichuan University, Chengdu 610064, China)
出处 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第6期620-624,共5页 Journal of Tsinghua University(Science and Technology)
关键词 数据安全 虚假账户 机器学习 层次聚类 data security fake accounts machine learning hierarchical clustering
  • 相关文献

同被引文献31

引证文献2

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部