摘要
为了解决Folksonomy存在垃圾标签的问题,提出垃圾标签检测模型。利用向量空间模型表征用户特征,再用支持向量机将Folksonomy用户二分类。通过检测出隐藏在正常用户群体中的垃圾投放人,以此减少垃圾标签数量。垃圾标签数据集具有数量大,纬度高的特点。面对传统svm算法处理高维大规模数据集上过于复杂,存在速度和精度的瓶颈的问题,笔者曾经提出用lssvm算法进行垃圾标签检测处理,取得一定的效果。但是,lssvm算法本身也存在稀疏性以及处理重要数据点不敏感的问题,所以针对这点,提出了用剪切法进行解决,通过实验表明,改进的LSSVM提高了建模的精度,而稀疏化的处理虽然对精度有一定影响,但大大减少了训练数据量,从而有效减轻了计算负担,使快速性得到了保障。
出处
《山东工业技术》
2015年第8期132-133,共2页
Journal of Shandong Industrial Technology