期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种半监督的中文垃圾微博过滤方法 被引量:8
1
作者 子瑜 屠守中 +1 位作者 黄民烈 朱小燕 《中文信息学报》 CSCD 北大核心 2016年第5期176-186,共11页
微博作为目前国内外最活跃的信息分享平台之一,其中却充斥着大量的垃圾内容。因此,如何从给定话题的微博数据中,过滤掉与话题不相关的垃圾微博、保留话题相关微博,成为迫切需要解决的问题。该文提出了一种半监督的中文微博过滤方法,基... 微博作为目前国内外最活跃的信息分享平台之一,其中却充斥着大量的垃圾内容。因此,如何从给定话题的微博数据中,过滤掉与话题不相关的垃圾微博、保留话题相关微博,成为迫切需要解决的问题。该文提出了一种半监督的中文微博过滤方法,基于朴素贝叶斯分类模型和最大期望算法,实现了利用少量标注数据的垃圾微博过滤算法,其优势是仅仅利用少量标注数据就可以获得较为理想的过滤性能。分别对十个话题140 000余条新浪微博数据进行过滤,该文提出的模型准确度和F值优于朴素贝叶斯和支持向量机模型。 展开更多
关键词 垃圾微博过滤 半监督学习 EM算法 朴素贝叶斯
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部