基于spark的协同过滤推荐算法的改进被引量：1

Improvement of Collaborative Filtering Algorithm Based on Spark Platform

下载PDF

导出

摘要在协同过滤推荐算法中,如果用户-评价矩阵稀疏,共同评价的物品个数少,就很难准确的计算出用户相似度,加上其它实际因素,会使最终的推荐结果与实际结果有很大的差异,推荐效果不佳。本文旨在通过改进算法的计算方式,融入更多实际因素,最终形成更准确的推荐结果集。首先,对数据进行预处理分类,降低冗余数据的计算和矩阵稀疏性。其次,考虑实际推荐中影响用户相似度较大的因素,对用户相似度计算做出改进。然后,通过构造混合推荐函数,在spark分布式计算平台上进行离线和实时计算,减少了计算时间。通过最终的数据训练和结果集的对比,展示了改进后的算法在效率和准确率的提高程度。 In the collaborative filtering recommendation algorithm, if the user-evaluation matrix is sparse and the number of items evaluated together is small, it is difficult to accurately calculate the user similarity. With the other practical factors, there will be very Big differences between recommendation result and the actual result. The purpose of this paper is to improve the calculation method of the algorithm and incorporate more practical factors to form a more accurate recommendation result set. First, the data is pre-processed to reduce the calculation of redundant data and matrix sparsity. Secondly, considering the factors that affect the user's similarity in the actual recommendation , the user similarity calculation is improved. Then, through the algorithm integration, the hybrid recommendation function is constructed, and the offline and real-time calculations are performed on the spark distributed computing platform, which reduces the time. Through the comparison of the final data training and the result set, the improvement of the efficiency and accuracy of the improved algorithm is demonstrated.

作者李淑敏夏茂辉赵志伟 LI Shu-min;XIA Mao-hui;ZHAO Zhi-wei(College of Science, Yanshan University, Hebei 066004, China)

机构地区燕山大学理学院

出处《软件》 2019年第2期173-178,共6页 Software

关键词协同过滤聚类分析用户相似度 spark计算 MASE Collaborative filtering Cluster analysis User similarity Spark calculation MASE

分类号 O241.5 [理学—计算数学]

引文网络
相关文献

参考文献8

1林子雨..大数据技术原理与应用第2版[M].北京:人民邮电出版社,2017.
2史尤昭.数据挖掘技术研究与应用[J].软件,2015,36(11):38-42. 被引量：22
3栾红波,文福安.数据挖掘在大学英语成绩预测中的应用研究[J].软件,2016,37(3):67-69. 被引量：5
4胡俊,胡贤德,程家兴.基于Spark的大数据混合计算模型[J].计算机系统应用,2015,24(4):214-218. 被引量：56
5谭云志,张敏,刘奕群,马少平.基于用户评分和评论信息的协同推荐框架[J].模式识别与人工智能,2016,29(4):359-366. 被引量：10
6杨彬.移动云计算中分布式计算卸载框架的研究[J].软件,2015,36(6):129-133. 被引量：4
7王成,朱志刚,张玉侠,苏芳芳.基于用户的协同过滤算法的推荐效率和个性化改进[J].小型微型计算机系统,2016,37(3):428-432. 被引量：37
8江周峰,杨俊,鄂海红.结合社会化标签的基于内容的推荐算法[J].软件,2015,36(1):1-5. 被引量：39

二级参考文献66

1臧朝平,马双超.利用测试模态数据识别结构有限元模型误差源的一种新方法[J].新型工业化,2013,2(8):1-9. 被引量：7
2张栋梁,谭永杰.云计算中负载均衡优化模型及算法研究[J].软件,2013,34(8):52-55. 被引量：17
3颜龙杰.基于近邻评分预测的协同过滤推荐算法[J].软件,2013,34(8):63-66. 被引量：14
4张荫明.数据挖掘在机电设备中的应用[J].软件,2013,34(8). 被引量：4
5邓娜,王宇,王秋玲.数据挖掘库预处理技术在教学中的应用研究[J].河北省科学院学报,2006,23(2):15-18. 被引量：5
6杨琛,李秉智.MPLS多播机制中模糊标签聚集的研究[J].计算机工程与应用,2007,43(36):147-149. 被引量：3
7J. R. Quinlan.Induction of decision trees[J].Machine Learning.1986(1) 被引量：13
8夏俊鸾,邵赛赛.Spark Streaming: 大规模流式数据处理的新贵. http://www.csdn.net/article/2014-01-28/2818282-Spark -Streaming-big-data. 2014. 被引量：1
9Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. Communications of the ACM, 2008, 3(51-1): 107-113. 被引量：1
10耿益锋,陈冠诚.Impala:新一代开源大数据分析引擎. http://www.csdn.net/article/2013-12-04/2817707-ImpalaBig- Data-Engine. 2013.12. 被引量：1

共引文献166

1王星凯,邓浩江,盛益强.基于深度学习的智能推荐系统综述[J].网络新媒体技术,2021(1):1-11. 被引量：9
2崔岩,祁伟,庞海龙,赵辉.融合协同过滤和XGBoost的推荐算法[J].计算机应用研究,2020,37(1):62-65. 被引量：11
3韩亚兰,韩学明,白玲.用电子冷热针灸仪治疗糖尿病50例疗效观察[J].针灸临床杂志,2000,16(2):33-34. 被引量：1
4郑诚,徐启南,章金平.基于互信息的推荐系统方法研究[J].微电子学与计算机,2018,35(12):76-79. 被引量：5
5叶小榕,邵晴.基于Spark的大规模社交网络社区发现原型系统[J].科技导报,2018,36(23):93-101. 被引量：8
6陆韦,朱捷飞,崔德义,孟飞.基于“互联网+”的电网用电监察平台设计[J].自动化与仪器仪表,2019(1):103-105. 被引量：2
7汤伟,杨铖.智能检索技术在电网调度本体知识库中的应用[J].自动化与仪器仪表,2019(1):178-180. 被引量：2
8汤伟,杨铖.智能检索技术在电网调度本体知识库中的应用[J].自动化与仪器仪表,2019(2):193-196. 被引量：1
9曹畋.探究适合中小型机构知识库的智能推荐系统[J].农业图书情报学刊,2016,28(3):5-9. 被引量：2
10张雄,陆路,石宣化.分布式数据处理系统内存对象管理问题分析[J].中兴通讯技术,2016,22(2):19-22. 被引量：2

同被引文献4

1翁小兰,王志坚.协同过滤推荐算法研究进展[J].计算机工程与应用,2018,54(1):25-31. 被引量：86
2孙丽娜.协同过滤推荐算法以及相关推荐系统开发应用[J].电子技术与软件工程,2018(4):36-36. 被引量：1
3张双庆.一种基于用户的协同过滤推荐算法[J].电脑知识与技术,2019,15(1):19-21. 被引量：3
4李涛,符丁.基于协同过滤算法的自动化隐式评分音乐双重推荐系统[J].计算机测量与控制,2018,26(11):171-175. 被引量：5

引证文献1

1佟帅辰,杨佳林.基于协同过滤算法的求职者招聘信息搜索引擎[J].IT经理世界,2019,0(3):157-158.

1苗志刚,郭效忠,田亮.外周血肥大细胞类胰蛋白酶Chymase在结肠癌中的表达意义[J].中国现代普通外科进展,2018,21(7):573-574. 被引量：1
2朱康文,雷波,何君,杨春华,李建辉,郑莉.县域尺度生态保护红线划定方法研究[J].三峡生态环境监测,2019,4(1):31-39. 被引量：7
3Chen Xiang,Lu Fengyan,Shen Yuxiang,Xie Junfeng,Wen Wanzhi.Analogy-based software effort estimation using multi-objective feature selection[J].Journal of Southeast University(English Edition),2018,34(3):295-302.
4金文祥,王绍伟,李梦滢,郝卓然.基于改进MRRE算法的RFID去冗余阅读器分析[J].电子测量技术,2018,41(22):27-31.
5陈飞云,张玉忠,吴彩芹,魏馨雨,成颖,胡娟,韩鹏,陈耔辰,高滢,许珉,张青.头脉冲抑制试验在健康成年人中的参数特征[J].中华耳鼻咽喉头颈外科杂志,2018,53(12):914-917. 被引量：5
6曹家铭.无人驾驶汽车的数据与计算模型研究[J].电子制作,2019,27(3):138-140. 被引量：2
7陶志勇,崔新新.一种融合用户与项目属性的协同过滤算法的设计与实现[J].计算机应用与软件,2019,36(2):12-18. 被引量：4
8韩佳彤,彭怀午,许昌,戎泓历,李召波,任星涧.考虑逆温层影响的海上风电场发电功率研究[J].内蒙古大学学报（自然科学版）,2019,50(1):74-78.
9孙克雷,沈华理.基于用户多种关联信息和项目聚类的推荐算法[J].安徽理工大学学报（自然科学版）,2018,38(5):57-64. 被引量：2
10盛姝,路燕.基于三层维度的文献个性化推荐模型研究[J].情报科学,2019,37(2):19-24. 被引量：3

软件

2019年第2期

浏览历史

内容加载中请稍等...

基于spark的协同过滤推荐算法的改进被引量：1

参考文献8

二级参考文献66

共引文献166

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于spark的协同过滤推荐算法的改进 被引量：1

参考文献8

二级参考文献66

共引文献166

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于spark的协同过滤推荐算法的改进被引量：1