基于微博转发集的微博过滤研究被引量：3

Micro-blog filtering based on forwarding set of micro-blog

下载PDF

导出

摘要针对微博文本的特点,提出了基于微博转发集的过滤方法。借助微博转发集,构建<子串,频次,转发时间差>三元组,形成用户需求模板;以知网为知识源计算微博文本与用户需求模板的相似度,抽取用户感兴趣的内容形成候选文本集;根据提出的基于三元组的微博权重计算方法,对候选集做进一步筛选,最终得到用户需求的微博文本。实验结果表明,基于微博转发集的过滤方法在滤准率和滤全率2个指标上比基于关键词与KNN的方法有了显著的提高。 According to the characteristics of micro-blog text,the filtering method based on forwarding set of micro-blog is put forward.Triples-＆lt;substring,frequency,forwarding time＆gt; that will be used to form the user template with micro-blog forwarding set are constituted.Making use of Hownet as a source of knowledge,the similarity between the filtered micro-blog text and the user template is calculated to extract micro-blog texts that interest users and form a candidate set of micro-blog.The weight calculation method based on triples of the micro-blog text is proposed for further screening in order to get micro-blog texts the users need at last.Experimental results show that the method based on forwarding set of micro-blog greatly improves in the two indexes of the filtering precision and filtering recall in comparison with the keyword-based and KNN-based method.

作者孙建旺吕学强郭跇秀

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室

出处《北京信息科技大学学报（自然科学版）》 2013年第3期27-33,共7页 Journal of Beijing Information Science and Technology University

基金国家自然科学基金项目(61271304) 北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037) 国家科技支撑计划课题(2011BAH11B03)

关键词微博转发集三元组相似度微博权重过滤 forwarding set of micro-blog triple similarity micro-blog weight filtering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83. 被引量：199
2CNNIC(中国互联网信息中心).第29次中国互联网络发展状况统计报告[R].北京:中国互联网络信息中心(CNNIC),2012. 被引量：2
3厉果育.文本过滤关键技术综述[J].城市建设理论研究(电子版),201l,(20):1-4. 被引量：1
4Ernesto Diaz-Aviles, Lucas Drumond, Zeno Gantner. What is happening right now.., that interests me? : online topic discovery and recommendation in twitter [ C ]//Proceedings of the 21 st ACM international conference on Information and knowledge management, 2012 : 1592 - 1596. 被引量：1
5Bharath Sriram, Dave Fuhry, Engin Demir. Short text classification in twitter to improve information filtering [ C ] //Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval,2010, :841 - 842. 被引量：1
6Jennifer Golbeck. The twitter mute button:a web filtering challenge [ C ] // Proceedings of the SIGCHI Conference on Human Factors in Computing Systems ,2012:2755 - 2758. 被引量：1
7John Hannon, Mike Bennett, Barry Smyth. Recommending twitter users to follow using content and collaborative filtering approaches [ C ] // Proceedings of the Fourth ACM Conference on Recommender Systems,2012.199 - 206. 被引量：1
8王琳,冯时,徐伟丽,杨卓,王大玲,张一飞.一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法[J].计算机应用与软件,2012,29(8):25-29. 被引量：15
9邵建双,李冠宇,张俊.基于概念格的文本过滤模型设计[J].计算机工程与设计,2011,32(3):1047-1050. 被引量：2
10沈竞,蒋侨.DSTFA分布式短文本过滤算法[J].四川兵工学报,2011,32(10):151-153. 被引量：2

二级参考文献68

1朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
2黄晓斌,邱明辉.网络信息过滤系统研究[J].情报学报,2004,23(3):326-332. 被引量：24
3李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
4王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
5王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
6李强,李建华.基于向量空间模型的过滤不良文本方法[J].计算机工程,2006,32(10):4-5. 被引量：14
7杨丽华,戴齐,郭艳军.KNN文本分类算法研究[J].微计算机信息,2006,22(07X):269-270. 被引量：24
8柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
10宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：41

共引文献241

1赵武生,田金超,申连洋,罗奇.自适应过滤算法在基于社区E-learning的个性化知识服务系统中的研究[J].清华大学学报（自然科学版）,2007,47(z2):1910-1913. 被引量：3
2张宗福.一种基于LCS的微博相似页面检测方法[J].集成技术,2013,2(3):5-9.
3赖清楠,马皓,宋维佳,李婷婷,蒋广学,张蓓.高校BBS与微博的用户社交行为特征分析[J].通信学报,2013,34(S2):99-106. 被引量：3
4汪琴,安贺意,秦颖.网络信息过滤和个性化信息服务[J].情报科学,2007,25(6):858-863. 被引量：8
5罗奇,谈宏华.自适应过滤算法在社区E-learning的个性化服务系统中的研究[J].智能系统学报,2008,3(1):91-94. 被引量：2
6赵卫东.基于MAS的个性化信息检索系统的设计[J].现代电子技术,2008,31(12):72-74. 被引量：4
7陈龙,范瑞霞,高琪.基于概念的文本表示模型[J].计算机工程与应用,2008,44(20):162-164. 被引量：16
8刘汉兴,刘财兴.主题爬虫的搜索策略研究[J].计算机工程与设计,2008,29(12):3160-3162. 被引量：26
9李嘉俊,郑宇,吴耿锋.基于领域本体的文本过滤模型[J].计算机工程与设计,2008,29(21):5555-5558. 被引量：4
10曾德华.基于语义和统计特征的中文文本表示方法[J].中国管理信息化,2009,12(15):65-67.

同被引文献18

1尹杰.基于用户分析的微博信息过滤研究[D].大连:大连理工大学,2009. 被引量：1
2瓮毓琦.微博信息生态化原理及实现过程研究[D].长春:吉林大学,2014. 被引量：1
3刘海峰,刘守生,姚泽清,张学仁.基于Web的信息过滤技术研究[J].情报科学,2008,26(12):1869-1872. 被引量：7
4贾志洋,李伟伟,张海燕.基于内容的搜索引擎垃圾网页检测[J].计算机应用与软件,2009,26(11):165-167. 被引量：9
5方育柯,傅彦,周俊临,夏虎.基于主题网络爬虫的不良网页的发现与识别[J].郑州大学学报（理学版）,2010,42(2):26-30. 被引量：2
6杨成明.微博客用户行为特征实证分析[J].图书情报工作,2011,55(12):21-25. 被引量：28
7王琳,冯时,徐伟丽,杨卓,王大玲,张一飞.一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法[J].计算机应用与软件,2012,29(8):25-29. 被引量：15
8汪洋,帅建梅,陈志刚.基于海量信息过滤的微博热词抽取方法[J].计算机系统应用,2012,21(11):131-136. 被引量：4
9张瑞娟.基于微博客系统中的文本信息过滤算法分析与探讨[J].科技广场,2012(9):24-27. 被引量：1
10赵斌,吉根林,曲维光,顾彦慧.基于重用检测的微博垃圾用户过滤算法[J].南京大学学报（自然科学版）,2013,49(4):456-464. 被引量：8

引证文献3

1张海涛,宋拓,张连峰,许孝君.基于信息内容与信息属性的微博热点信息生态化的实现研究[J].图书情报工作,2014,58(15):123-127. 被引量：10
2王峥,叶维,邱秀连.基于特征加权贝叶斯神经网络的微博异常账号检测[J].计算机与数字工程,2018,46(11):2323-2328. 被引量：3
3张晓瑜,高扬,苗星星,祝永霞.基于自适应特征词的微博噪音过滤方法[J].计算机与数字工程,2024,52(2):496-501.

二级引证文献13

1栾春玉,代榕家.网络金融信息生态治理模式与管控对策研究[J].情报科学,2015,33(5):48-52. 被引量：3
2钱丹丹.微博信息生态系统构建机理[J].情报科学,2016,34(9):45-48. 被引量：9
3崔金栋,于园美,王新媛.信息哲学视角下微博信息系统运行机理研究[J].情报科学,2016,34(10):34-37. 被引量：1
4卢璐.社交网络可视化工具在企业竞争情报搜集中的应用[J].情报探索,2016(11):129-134. 被引量：4
5崔金栋,郑鹊,孙硕.微博信息传播模型及其演化研究综述[J].图书馆论坛,2018,38(1):68-77. 被引量：10
6熊勇清,王溪.创新教育与创业实践的融合促进机制：现实水平及关键要素——国家首批双创示范基地实践的文本分析[J].创新与创业教育,2019,10(5):1-9. 被引量：3
7田璐萍,嵇启春.基于眼部信息融合的疲劳驾驶检测的研究[J].国外电子测量技术,2019,38(10):26-29. 被引量：6
8韦雅楠,王晰巍,张柳,娄正卿.新媒体环境下企业与微博用户信息行为特征挖掘[J].情报科学,2020,38(4):123-130. 被引量：2
9张彬,隋雨佳.社交媒体平台不良信息治理主体策略选择——基于三方演化博弈的视角[J].北京邮电大学学报（社会科学版）,2020,22(6):19-29. 被引量：2
10杜秀珺.新媒体环境下企业微博信息行为研究[J].科技资讯,2022,20(15):27-34. 被引量：1

1李雯,刘培玉,周洪利.基于遗传算法的用户模板优化研究[J].山东师范大学学报（自然科学版）,2007,22(3):34-36. 被引量：1
2刘红芝.网络文本信息过滤系统的模型初探[J].图书馆学刊,2009,31(9):35-37. 被引量：2
3曹月雷,纪文彦,贾斌.词典与后缀数组相结合的中文分词方法[J].硅谷,2012,5(21):151-154. 被引量：2
4李向伟,李战明,张明新,邢敬宏,魏伟一.基于内容的视频镜头检测技术[J].电视技术,2008,32(3):19-21. 被引量：5
5周宓.基于支持向量机的信用卡信誉检测[J].新乡学院学报,2012,29(6):514-516.
6宗中.中文信息检索中词典机制分词算法的研究[J].计算机技术与发展,2014,24(4):118-121. 被引量：6
7张新奎,侯永红.Word中的“书签”功能[J].视窗世界,2005(3):59-59. 被引量：1
8周宓.基于决策树方法的信用卡信誉检测[J].中原工学院学报,2011,22(4):75-78.
9许黎,黄果.基于语义分析的不良信息过滤系统研究[J].乐山师范学院学报,2014,29(5):33-38.
10刘件,魏程.中文分词算法研究[J].微计算机应用,2008,29(8):11-16. 被引量：25

北京信息科技大学学报（自然科学版）

2013年第3期

浏览历史

内容加载中请稍等...

基于微博转发集的微博过滤研究被引量：3

参考文献16

二级参考文献68

共引文献241

同被引文献18

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于微博转发集的微博过滤研究 被引量：3

参考文献16

二级参考文献68

共引文献241

同被引文献18

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于微博转发集的微博过滤研究被引量：3