基于层次聚类的虚假用户检测被引量：2

Detecting of fake accounts with hierarchical clustering

导出

摘要互联网上充斥着大量恶意用户,而互联网服务提供商通常有海量的注册用户,使得系统难以从中发现虚假账户。针对海量注册数据中,恶意用户批量注册的虚假账户通常具有相似性的特点。该文提出海量数据中定位虚假账户的系统模型,利用用户名字符串组成模式对海量数据进行预分类,进而对每个分类中元素计算字符串相似度,即计算字符串Levenshtein距离。设置合适的阈值,进行层次聚类分析,从而定位藏匿在海量注册数据中的成组的虚假账户。实验结果表明:该系统模型有效,与现有的模型相比,该系统对数据维度、数据特性依赖较小。 Since there are many malicious users on the Internet, popular online websites sometimes have millions of registered users. The system cannot easily distinguish between fake accounts and legitimate users. Fake accounts registered by a single malicious user often have similar profiles. This paper presents a new framework to find fake accounts in large numbers of users. The framework uses username string patterns to classify the original data and then calculates the similarity as measured by the Levenshtein distance between any two elements in one category. Hierarchical clustering with a proper threshold then finds groups of fake accounts hidden in the large amount of registration data. Tests demonstrate the effectiveness of this framework which algorithm relies less on data dimensions and features than other algorithms.

作者方勇刘道胜黄诚 FANG Yong LIU Daosheng HUANG Cheng(College of Electronics and Information Engineering Sichuan University, Chengdu 610064, China)

机构地区四川大学电子信息学院

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2017年第6期620-624,共5页 Journal of Tsinghua University(Science and Technology)

关键词数据安全虚假账户机器学习层次聚类 data security fake accounts machine learning hierarchical clustering

分类号 TP309.2 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

同被引文献31

1谈磊,连一峰,陈恺.基于复合分类模型的社交网络恶意用户识别方法[J].计算机应用与软件,2012,29(12):1-5. 被引量：12
2潘大庆.基于层次聚类的微博敏感话题检测算法研究[J].广西民族大学学报（自然科学版）,2012,18(4):56-59. 被引量：5
3方明,方意.一种新型智能僵尸粉甄别方法[J].计算机工程,2013,39(4):190-193. 被引量：11
4赵斌,吉根林,曲维光,顾彦慧.基于重用检测的微博垃圾用户过滤算法[J].南京大学学报（自然科学版）,2013,49(4):456-464. 被引量：8
5王越,张剑金,刘芳芳.一种多特征微博僵尸粉检测方法与实现[J].中国科技论文,2014,9(1):81-86. 被引量：9
6张锡英,车鑫,田宪允.一种基于微博用户行为的僵尸粉识别方法[J].黑龙江大学自然科学学报,2014,31(2):250-254. 被引量：7
7莫倩,杨珂.网络水军识别研究[J].软件学报,2014,25(7):1505-1526. 被引量：57
8张良,朱湘,李爱平,王志华,鲁鹏.一种基于逻辑回归算法的水军识别方法[J].信息安全与技术,2015,6(4):57-62. 被引量：10
9李赫元,俞晓明,刘悦,程学旗,程工.中文微博客的垃圾用户检测[J].中文信息学报,2014,28(3):62-67. 被引量：9
10翟东海,崔静静,聂洪玉,于磊,杜佳.基于条件随机场的敏感话题检测模型研究[J].计算机工程,2014,40(8):158-162. 被引量：7

引证文献2

1仲丽君,杨文忠,袁婷婷,向进勇.社交网络异常用户识别技术综述[J].计算机工程与应用,2018,54(16):13-23. 被引量：7
2韩宇.基于目标终端与社交数据的虚假用户检测技术[J].软件,2023,44(4):145-147.

二级引证文献7

1李阳阳,曹银浩,杨英光,金昊,杨阳朝,石珺,李志鹏.社交网络机器账号检测综述[J].中国电子科学研究院学报,2021,16(3):209-219. 被引量：5
2李潇.基于遗传算法的英语社交平台设计[J].自动化技术与应用,2021,40(7):49-52. 被引量：1
3孙冉,安璐.突发公共卫生事件中谣言识别研究[J].情报资料工作,2021,42(5):42-49. 被引量：17
4邓胜利,夏苏迪,汪奋奋.基于图注意力网络的社交媒体异常用户预测研究[J].情报理论与实践,2022,45(3):94-102. 被引量：3
5郝晓培,朱建生,单杏花.图神经网络在12306黑产用户挖掘的研究[J].计算机技术与发展,2022,32(7):185-190.
6朱梦蝶,付少雄,郑德俊,李杨.文献视角下的社交媒体健康谣言研究:特征、传播与治理[J].图书情报知识,2022,39(5):131-143. 被引量：8
7吴正昊,曾国荪.基于自适应差异化图卷积的社交网络新增恶意用户检测[J].计算机应用研究,2023,40(9):2820-2825.

1铃儿.QQ兼职转动画[J].网友世界,2006(6):34-34.
2轻松藏匿高清影音金士顿SDHC 16GB Class 4[J].数字世界,2008,0(4):43-43.
3杨世旺,陈永熙,黑夜.黑客风云[J].现代计算机（中旬刊）,2009(9):127-129.
4李新,刘小辉.俄“黑客之王”遭美通缉[J].环球军事,2015,0(6):52-53.
5罗大光,范明钰,郝玉洁,王光卫.一种新的基于RGB图像的多区域信息隐藏技术[J].计算机应用研究,2005,22(9):165-166. 被引量：7
6严宇平,吴石松,王建永,张璐.企业移动网站中投资盈利信息检测仿真研究[J].计算机仿真,2017,34(6):423-426.
7蔡蓉,钱东,王丹丹,朱平.一种兼具生物和物理特征的E基因签名方法——以p53家族基因为例[J].计算机工程与应用,2017,53(13):155-159.
8李晨亮,牛海山,尚尔鹏.基于煤矿电机制造的CAPP系统[J].价值工程,2017,36(20):72-73.
9陈良文,雷娅.小组合作学习高效性细节实施策略[J].科学咨询,2017,0(26):4-4.
10刘疆.冷锯控制系统在750初轧生产线中的应用[J].山东冶金,2017,39(3):55-56.

清华大学学报（自然科学版）

2017年第6期

浏览历史

内容加载中请稍等...

基于层次聚类的虚假用户检测被引量：2

同被引文献31

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于层次聚类的虚假用户检测 被引量：2

同被引文献31

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于层次聚类的虚假用户检测被引量：2