基于Spark的推荐系统的设计与实现被引量：8

Design and Implementation of Recommendation System Based on Spark

下载PDF

导出

摘要推荐系统是数据挖掘的一个重要部分,能够实现海量数据信息的快速、全面、准确过滤。然而基于以往传统单个主机模式实现的推荐算法其计算过程耗费的时间过长,已经不能满足当前商业时代快速可靠的技术追求。大数据平台Spark分布式计算框架通过引入RDD(弹性分布式数据集)的概念以及基于内存的运算模式,能够更好地适应大数据挖掘这一应用场景。推荐算法在实现过程中存在多次迭代计算,Spark计算框架的使用可以极大提升推荐系统的运算效率。文中利用Spark平台设计了一个基于物品的协同过滤(Item-CF)算法的商品推荐系统,并将其应用在MovieLens数据集上运行测试。实验结果表明,该系统能够提高推荐精确度并降低运算时间。 The recommendation system is an important part of data mining,which can realize the rapid,comprehensive and accurate filtering for a large number of data. However,it takes a lot of time to realize the proposed algorithm based on the traditional single-machinemodel,which cannot meet the fast and reliable business needs in today’s business era. The Spark distributed computing framework of bigdata platform can better adapt to big data mining by introducing the concept of RDD （resilient distributed datasets） and based on memorycomputing mode. The recommendation algorithm has many iterative calculations in the implementation process,and the use of the Sparkcalculation framework can greatly enhance the efficiency of the recommended system. We use the Spark platform to design a product recommendation system based on item-based collaborative filtering （Item-CF） algorithm,which is applied to run a test on the MovieLensdata set. The experiment shows that the system can improve the recommendation accuracy and reduce the operation time.

作者李星李涛 LI Xing;LI Tao(School of Communication and Information Technology,Nanjing University of Posts andTelecommunications,Nanjing 210003,China)

机构地区南京邮电大学通信与信息工程学院

出处《计算机技术与发展》 2018年第10期194-198,共5页 Computer Technology and Development

基金国家自然科学基金(61572260)

关键词大数据 Spark平台推荐系统协同过滤(CF) 数据挖掘 big data Spark recommendation system collaborative filtering （CF） data mining

分类号 TP302 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1项亮编著..推荐系统实践[M].北京:人民邮电出版社,2012:197.
2郭景瞻编著..图解Spark 核心技术与案例实战[M].北京:电子工业出版社,2017:480.
3于娜娜,王中杰.基于Spark的协同过滤算法的研究[J].系统仿真技术,2016,12(1):40-45. 被引量：10
4王全民,苗雨,何明,郑爽.基于矩阵分解的协同过滤算法的并行化研究[J].计算机技术与发展,2015,25(2):55-59. 被引量：10
5朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012,41(2):163-175. 被引量：249
6岑凯伦,于红岩,杨腾霄.大数据下基于Spark的电商实时推荐系统的设计与实现[J].现代计算机,2016,22(16):61-69. 被引量：22

二级参考文献34

1Takacs G, Pilaszy I, Nemeth B, et al. Matrix factorization and neighbor based algorithms the nettlix prize problem [ C ]//Pro- ceedings of the 2008 ACM conference on recommender sys- tems. Lausanne, Switzerland : ACM, 2008 : 267-274. 被引量：1
2Pilaszy I,Zibriczky D, Tikk D. Fast ALS-basedmatrix factori- zation for explicit and implicit feedback datasets [ C ]//Pro- ceedings of the fourth ACM conference on recommender sys-terns. New York : ACM ,2010:71-78. 被引量：1
3Zhou Yunhong, Wilkinson D, Schreiber R, et al. Large- scale parallel collaborative filtering for the netflix prize [ C ]//Proc of the 4th international conference on algorthmic aspects in in- formation and management. Shanghai: Springer, 2008:337- 348. 被引量：1
4Apache Mahout[ EB/OL]. 2013-12-20. http://mah- out. a- pache, org,/. 被引量：1
5Apache Hadoop[ EB/OL]. 2013-12-20. http://hado- op. a- pache, org. 被引量：1
6Dean J, Ghemawat S. MapReduce:simplified data processing on large clusters [ J]. Communication of the ACM, 2008,51 (1) :107-113. 被引量：1
7Apache HDFS Architecture [ EB/OL ]. 2013 - 12 -20. http :// hadoop, apache, org/common/docs/current/h-dfs_design, ht- ml. 被引量：1
8Hadoop DistributedCache [ EB/OL]. 2013-12-20. http ://ha- doop. apache, org/docs/r0.20.2/api/org/ap- ache/hadoop/ filecache/DistributedCache, html. 被引量：1
9Yingyi B, Bill H, Magdalena B, et al. HaLoop : efficient itera- tive data processing on large clusters [ J ]. Proceedings of the VLDB Endowment ,2010,3 ( 1-2 ) :285-296. 被引量：1
10IDC. The Digital Universe of Opportunities:Rich Data and the Incdreasing Value of the Internet of Things [EB/OL]. [2014-04]. http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm. 被引量：1

共引文献285

1董云薪,林耿,张清伟,陈颖婷.基于Apriori算法填充数据及改进相似度的推荐算法[J].计算机科学,2022,49(S02):307-311. 被引量：7
2王玫申,张鹏,薛乐洋.基于扩散的推荐算法的可预测性[J].中国科技论文在线精品论文,2021(4):462-467. 被引量：1
3丁欣,马严,吴军.适用于校园网的视频推荐系统的设计与实现[J].通信学报,2013,34(S2):175-179. 被引量：4
4张亮,柏林森,周涛.基于跨电商行为的交叉推荐算法[J].电子科技大学学报,2013,42(1):154-160. 被引量：8
5张瑶,陈维斌,傅顺开.协同过滤推荐研究综述[J].微型机与应用,2013,32(6):4-6. 被引量：6
6方耀宁,郭云飞,丁雪涛,兰巨龙.一种基于局部结构的改进奇异值分解推荐算法[J].电子与信息学报,2013,35(6):1284-1289. 被引量：13
7张瑶,陈维斌,傅顺开.基于大数据的高校图书馆推荐系统仿真研究[J].计算机工程与设计,2013,34(7):2533-2541. 被引量：23
8郭磊,马军,陈竹敏.一种信任关系强度敏感的社会化推荐算法[J].计算机研究与发展,2013,50(9):1805-1813. 被引量：40
9方耀宁,郭云飞,丁雪涛,兰巨龙.一种基于标签迁移学习的改进正则化奇异值分解推荐算法[J].电子与信息学报,2013,35(12):3046-3050. 被引量：7
10郭磊,马军,陈竹敏,姜浩然.一种结合推荐对象间关联关系的社会化推荐算法[J].计算机学报,2014,37(1):219-228. 被引量：73

同被引文献66

1何艳频,孙爱峰.Spearman等级相关系数计算公式及其相互关系的探讨[J].中国现代药物应用,2007,1(7):72-73. 被引量：16
2陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：342
3李秀央,陈坤,赵克勤.用基于联系数的主因子分析预测法预测流行性乙型脑炎[J].中华流行病学杂志,2005,26(3):218-220. 被引量：3
4滕广青,毛英爽.国外数据挖掘应用研究与发展分析[J].统计研究,2005,22(12):68-70. 被引量：16
5叶磊,骆兴国,李建喜.数据挖掘的应用和发展趋势叶磊[J].电脑知识与技术,2006(11):26-27. 被引量：2
6徐兵河,张绪超.石蜡包埋组织的基因表达谱分析预测局部晚期乳腺癌的化疗反应[J].循证医学,2007,7(3):138-140. 被引量：1
7张爱霞,朱明,赵亮.用回归分析预测法预测伤亡事故[J].河北理工大学学报(自然科学版),2007,29(4):11-13. 被引量：3
8刘星毅.一种新的决策树分裂属性选择方法[J].计算机技术与发展,2008,18(5):70-72. 被引量：6
9刘典文.数据挖掘技术在公共管理领域的应用[J].行政论坛,2010,17(2):42-46. 被引量：12
10李改,李磊.基于矩阵分解的协同过滤算法[J].计算机工程与应用,2011,47(30):4-7. 被引量：58

引证文献8

1苗立志,刁继尧,娄冲,崔进东.基于Spark和随机森林的乳腺癌风险预测分析[J].计算机技术与发展,2019,29(8):142-146. 被引量：12
2潘主强.浅谈新时期数据挖掘的运用[J].电脑知识与技术,2019,15(9):1-2. 被引量：2
3刘宇,周虎.基于Spark Streaming实时推荐系统的研究与设计[J].计算机与数字工程,2020,48(5):1172-1175. 被引量：6
4吴磊,欧阳赫明.基于Spark的分布式健康大数据分析系统设计与实现[J].软件导刊,2020,19(7):99-102. 被引量：1
5李宇翔,李帅,宋艳琼,张福泉,周湘贞.基于Spark平台的K均值聚类算法的人力资源推荐[J].济南大学学报（自然科学版）,2020,34(5):430-435. 被引量：11
6朱岸青,李帅,唐晓东.Spark平台中的并行化FP_growth关联规则挖掘方法[J].计算机科学,2020,47(12):139-143. 被引量：5
7王义勇.基于Spark框架的智慧物流服务推荐系统研究[J].信息与电脑,2021,33(20):113-115.
8王程,唐建国.ALS算法在菜品智能推荐系统的应用[J].福建电脑,2023,39(3):78-81.

二级引证文献36

1刘浩,曾兴兴,鲁艳柳.生物医学数据分析方法与应用[J].遵义医科大学学报,2019,42(5):607-612. 被引量：2
2花亚博.数据挖掘在金融领域中的应用及发展趋势[J].吉林农业科技学院学报,2020,29(1):90-93. 被引量：4
3鲍烈,王曼韬,刘江川,彭珍,彭帅波.基于SSD目标检测框架的乌龟常见病症识别方法[J].沈阳农业大学学报,2020,51(2):238-244. 被引量：1
4吴磊,欧阳赫明.基于Spark的分布式健康大数据分析系统设计与实现[J].软件导刊,2020,19(7):99-102. 被引量：1
5李进,何冉.深度森林在乳腺癌检测中的应用[J].新一代信息技术,2020,3(10):8-13.
6易茹.基于K均值聚类算法的数字媒体推荐方法研究[J].长春工程学院学报（自然科学版）,2020,21(4):99-102. 被引量：4
7殷锋,曹旭,漆翔宇.基于聚类的推荐算法综述[J].西南民族大学学报（自然科学版）,2021,47(3):303-309. 被引量：8
8李庆.基于大数据的教学督导评教信息反馈平台关键技术[J].信息技术与信息化,2021(6):188-190.
9杨宇环,张开生.融合FP-Growth和RBM的图书推荐算法研究[J].陕西科技大学学报,2021,39(4):156-160. 被引量：4
10孙煦.基于决策树算法的人力资源推荐研究[J].微型电脑应用,2021,37(7):140-143. 被引量：6

1邱京伟.基于属性特性算法的商品推荐系统模型[J].中国信息化,2018,0(6):56-58.
2胡兰.小微企业智能商业之路该怎么走？——聚焦GICC2018全球小微企业创新大会[J].中国高新区,2018,0(8):21-24.
3赵春芳.空间解析几何中的向量代数研究[J].黑河学院学报,2018,9(6):213-214.
4智能商业时代如何通过定位快速占领品类[J].中国商人,2018,0(9):38-42.
5吴继勋.新课程背景下提高小学数学练习课有效性的研究[J].读书文摘（中）,2018,0(8):144-144.
6许敏,魏晓锋.现代工匠精神对高职教师专业发展的启示[J].高等职业教育探索,2018,17(2):25-29. 被引量：8
7李成为,王屿,郑迪威.基于MR框架的不确定时间序列相似性计算方法[J].计算机技术与发展,2018,28(10):27-31.
8潘承昌,吴恋,刘远珍,周雨梅.基于SSM的商品智能推荐系统的开发研究[J].物联网技术,2018,8(7):73-75. 被引量：4
9朱南燕,曾真,李霄鹤,兰思仁.ArcGIS的影像相减法在景观变迁中的应用综述[J].金陵科技学院学报,2018,34(2):84-88. 被引量：1
10杨金梅.“互联网+会计”时代,高职管理会计人才职业能力培养研究[J].财会学习,2018(18):210-212. 被引量：9

计算机技术与发展

2018年第10期

浏览历史

内容加载中请稍等...

基于Spark的推荐系统的设计与实现被引量：8

参考文献6

二级参考文献34

共引文献285

同被引文献66

引证文献8

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于Spark的推荐系统的设计与实现 被引量：8

参考文献6

二级参考文献34

共引文献285

同被引文献66

引证文献8

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于Spark的推荐系统的设计与实现被引量：8