大数据下基于Spark的电商实时推荐系统的设计与实现被引量：22

Design and Implement of E-Commerce Real-Time Recommender System with Spark Based on Big Data

下载PDF

导出

摘要大数据下基于Hadoop平台构建的电商推荐系统存在着计算缓慢、无法根据用户实时行为作出推荐的问题。针对以上问题,设计和实现基于Spark平台的电商实时推荐系统。与Hadoop平台构建的推荐系统相比,系统首先基于Spark平台构建了分布式日志采集模块和分布式日志数据传输模块,用于采集和传输用户隐式行为日志,解决电子商务跨系统数据源收集问题;其次在统一数据源的基础上,采用基于Spark的矩阵分解推荐模型进行离线训练,提升离线推荐训练的效率;进而在离线推荐的基础上,提出一种使用Spark Streaming实时流技术对电商日志数据做实时过滤,获取用户当前所需商品,并将离线推荐结果与实时推荐结果通过统一介质融合的方案,实现对用户隐式行为进行实时推荐反馈的功能。最后经实验证明,基于Spark平台的电商实时推荐系统相对于Hadoop平台的电商推荐系统具有更高的可靠性和稳定性,能够承载大规模数据量,离线推荐训练速度相对于Hadoop平台提高10倍,并且对用户的实时行为也能够作出实时推荐反馈,提升5%的交易转化率,增强电商网站的用户体验。 Concerns the problem that the e-commerce recommendation system which based on Hadoop platform has low computing speed and can＇t make recommendation based on real-time user behavior. In order to solve the problem, designs real-time e-commerce recommendation system which is based on Spark platform. What is different from the previous system is that distributed log collection module and dis- tributed log data transmission module are designed to collect and transfer log data of implicit user behavior, which solves the problem of collecting the log data come from different system. On the basis of a unified data source, the matrix decomposition model based on Spark is used to do off-line training and Spark streaming is used to do real-time log filtering to get the most similar goods to the good which in- cluded in the log. The result of real-time recommendation and off-line recommendation is merged in the system as feedback to the real- time user behavior. The experimental results show that the system which can carry massive amounts of data has the higher reliability and stability than the system which is based on Hadoop, the training speed of the off-line recommendation is 10 times as fast as that of the Hadoop platform, can make real-time recommended feedback to real-time user behavior which increase the user experience and the percent conversion of trade can be increased 5%.

作者岑凯伦于红岩杨腾霄

机构地区上海海事大学信息工程学院上海海事大学交通运输学院上海纽盾科技有限公司研发部

出处《现代计算机》 2016年第16期61-69,共9页 Modern Computer

基金国家自然科学基金(No.61562056) 教育部人文社科青年基金资助项目(No.13YJC630210) 2014年上海市科技型技术创新基金项目(No.1401H164800) 上海市杨浦区国家创新型试点城区建设与管理专项资金项目(No.2015YPCX03-002)

关键词大数据 Spark平台 HADOOP平台实时推荐用户隐式行为 Big-Data Spark Platform Hadoop Platform Real-Time Recommendation Implicit User Behavior

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP391.3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献15

1IDC. The Digital Universe of Opportunities:Rich Data and the Incdreasing Value of the Internet of Things [EB/OL]. [2014-04]. http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm. 被引量：1
2FERRERIA C R L , Traina J C, MACHADO T A J, et al. Clustering Very Large Multi-Dimensional Datasets with Mapreduce [C]. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2011 ACM. San Diego: ACM Press, 2011: 690-698. 被引量：1
3江小平,李成华,向文,张新访.云计算环境下朴素贝叶斯文本分类算法的实现[J].计算机应用,2011,31(9):2551-2554. 被引量：21
4刘义,景宁,陈荦,熊伟.MapReduce框架下基于R-树的k-近邻连接算法[J].软件学报,2013,24(8):1836-1851. 被引量：60
5YU Y, HUANG C, LEE Y. An Intelligent Touring System Based on Mobile Social Network and Cloud Computing for Travel Recom- mendation[C]. 28th International Conference on Advanced Information Networking and Applications Workshops(AINA), 2014 IEEE. Victoria, Canada: IEEE Press, 2014:19-24. 被引量：1
6WALUNJ S G, SADAFALE K. An Online Recommendation System for E-commerce Based on Apache Mahout Framework[C]. 2013 Annual Conference on Computers and People Research, 2013 ACM. Cincinnati: ACM Press,2013: 153-158. 被引量：1
7ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: Cluster Computing with Working Sets[C]. Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing , 2010:10-10. 被引量：1
8ZAHARIA M, CHOWDHURY M, DAS T, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for in-Memory Cluster Computing[C]. Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation. USENIX Association, 2012:2-2. 被引量：1
9X.LU,M.W.U. RAHMAN, N. ISLAM, D. SHANKAR. Accelerating Spark with RDMA for Big Data Processing: Early Experiences[C]. Proceedings of the 22nd Annual Symposium on High-Performance Interconnects.2010:9-16. 被引量：1
10Rong-Zhi Qi,Zhi-Jian Wang,Shui-Yan Li.A Parallel Genetic Algorithm Based on Spark for Pairwise Test Suite Generation[J].Journal of Computer Science & Technology,2016,31(2):417-427. 被引量：12

二级参考文献145

1汪卫,周皓峰,袁晴晴,楼宇波,施伯乐.基于图论的频繁模式挖掘[J].计算机研究与发展,2005,42(2):230-235. 被引量：17
2DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters [ J] // Communications of the ACM: 50th anniversary issue, 2008, 51(1): 107-113. 被引量：1
3Apache Hadoop. Hadoop[ EB/OL]. [2011-03- 15]. http://hadoop. apache, org. 被引量：1
4CHU C-T, KIM S K, LIN Y-A, et al. Map-reduce for machine learning on multicore[ C]// NIPS 2006: Proceedings of Neural Information Processing Systems Conference. Cambridge, MA: MIT, 2006:281-288. 被引量：1
5JASON D, LAWRENCE S, JAIME T, et al. Tracking the poor assumptions of Naive Bayes text classifiers[ C]// ICML 2003: Proceedings of the Twenty International Conference on Machine Learning. Washington, DC: [s. n. ], 2003:616-693. 被引量：1
6中国科学院计算技术研究所.ICTCLAS汉语分词系统【EB/OL】.[2011-02—16】.http://ictclas.org/. 被引量：5
7University of Waikato. Weka 3: data mining software in Java [ EB/ OL]. [2011 -03 - 15]. http://www, cs. waikato, ac. nz/ml/weka/. 被引量：1
8WEGENER D, MOCK M, ADRANALE D, et al. Toolkit-based high-performance data mining of large data on MapReduce clusters [ C]// ICDM: IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2009:296 -301. 被引量：1
9MIT Computer Science and Artificial Intelligence Laboratory. Twenty news groups dataset[ EB/OL]. (2008 -01 - 14) [2011 -02 - 18]. http://people, csail, mit. edu/jrennie/20Newsgroups/. 被引量：1
10搜狗实验室.互联网语料库【EB/OL】.【2011—02—17].www.sogou.com/labs/dl/t.html. 被引量：1

共引文献147

1曹泽文,周姚.基于MapReduce的JP算法设计与实现[J].计算机工程,2012,38(24):14-16. 被引量：6
2郝晓飞,谭跃生,王静宇.Hadoop平台上Apriori算法并行化研究与实现[J].计算机与现代化,2013(3):1-4. 被引量：26
3樊龙,万定生,顾昕辰.基于Hadoop云平台的水利普查数据挖掘系统的设计和实现[J].计算机与数字工程,2014,42(5):831-834. 被引量：9
4刘琼,赵荣,孙立坚.Map/Reduce框架下的粗糙集空间数据挖掘改进算法[J].测绘科学,2014,39(5):49-53. 被引量：3
5代亮,许宏科,陈婷,钱超,梁殿鹏.基于MapReduce的多元线性回归预测模型[J].计算机应用,2014,34(7):1862-1866. 被引量：17
6叶小榕,邵晴.基于Spark的大规模社交网络社区发现原型系统[J].科技导报,2018,36(23):93-101. 被引量：8
7黄黎,顾筠.基于Hadoop平台的并行化数据分类算法研究[J].制造业自动化,2014,36(14):5-9. 被引量：4
8陈晓康,刘竹松.基于改进Kd-Tree构建算法的k近邻查询[J].广东工业大学学报,2014,31(3):119-123. 被引量：8
9潘佰林,李淑萍,汪炎平,龙丹.公有云中基于系统工作流的并行策略性能评估[J].中国科技论文,2014,9(10):1091-1098.
10李玉丹,郑晓薇.Hadoop下多模式并行分类算法及其应用研究[J].计算机工程,2014,40(12):45-49. 被引量：2

同被引文献156

1吴飞贤,段华斌,扈乐华,朱珍珠,宋均.基于Spark的商品推荐系统的设计与实现[J].办公自动化,2021,26(3):60-62. 被引量：3
2尹清波,王慧强,张汝波,申丽然,李雪耀.半监督在线增量自学习异常检测方法研究[J].计算机研究与发展,2006,43(z2):419-424. 被引量：2
3刘清华,陈金平,刘向群,张曦.对大数据时代的网络思想政治教育分析[J].自动化与仪器仪表,2016(1):195-196. 被引量：15
4傅初黎,李洪芳,熊向团.不适定问题的迭代Tikhonov正则化方法[J].计算数学,2006,28(3):237-246. 被引量：33
5吴颜,沈洁,顾天竺,陈晓红,李慧,张舒.协同过滤推荐系统中数据稀疏问题的解决[J].计算机应用研究,2007,24(6):94-97. 被引量：51
6刘建国,周涛,郭强,汪秉宏.个性化推荐系统评价方法综述[J].复杂系统与复杂性科学,2009,6(3):1-10. 被引量：131
7董袁泉.基于MVC模式的Struts框架研究与应用[J].电脑编程技巧与维护,2010(22):25-26. 被引量：1
8霍庆,刘培植.使用Solr为大数据库搭建搜索引擎[J].软件,2011,32(6):11-14. 被引量：16
9李改,李磊.基于矩阵分解的协同过滤算法[J].计算机工程与应用,2011,47(30):4-7. 被引量：58
10马小龙.一种改进的贝叶斯算法在垃圾邮件过滤中的研究[J].计算机应用研究,2012,29(3):1091-1094. 被引量：11

引证文献22

1金铭.大数据与推荐系统研究[J].电脑知识与技术,2018,14(12):253-254.
2王佳娴,王中杰.基于Spark的分布式实时推荐系统[J].系统仿真技术,2017,13(2):158-161. 被引量：3
3夏冉.基于Spark的机器学习Web服务引擎设计[J].指挥控制与仿真,2018,40(1):113-117. 被引量：1
4陈粤龙,张治中,符静.智慧旅游客情监控平台的设计与实现[J].信息通信,2018,0(2):52-55.
5许文英,向强.基于Pyspark平台的协同过滤推荐算法应用与实现[J].西南民族大学学报（自然科学版）,2018,44(2):202-207. 被引量：2
6赵瑞丹.基于大数据分析的思政教学系统的设计与实现[J].自动化与仪器仪表,2018,0(8):117-119. 被引量：5
7李星,李涛.基于Spark的推荐系统的设计与实现[J].计算机技术与发展,2018,28(10):194-198. 被引量：8
8王晓鑫,冯永祥.理财产品推荐指导系统的研究与设计[J].电脑知识与技术,2018,14(5X):101-105.
9侯敬儒,吴晟,李英娜.基于Spark Streaming的在线KMeans聚类模型研究[J].计算机与数字工程,2018,46(4):783-787. 被引量：2
10杨强,张钧鸣.基于微服务架构的大数据应用开发创新实践[J].电力大数据,2019,22(3):71-76. 被引量：19

二级引证文献65

1朱义奎,黄佳豪,蔡亮.基于Spark机器学习的电商推荐系统的设计与实现[J].现代商贸工业,2021,42(S01):52-54. 被引量：2
2董辉,方晓,马健,盛魁,姚宏亮.基于情景感知的移动电商用户-项目聚类协同过滤推荐算法[J].广西民族大学学报（自然科学版）,2018,24(2):61-68. 被引量：1
3贾如春.基于海量数据集中式数字图形仿真视景系统的研究与应用[J].激光杂志,2018,39(11):195-199. 被引量：1
4廖丽,杨小国.基于B/S模式的学生毕业设计管理系统的设计和应用[J].信息与电脑,2018,30(22):92-94. 被引量：3
5庄银霞.基于信用评价机制的物业缴费模式推荐系统设计[J].长春工程学院学报（自然科学版）,2019,20(3):90-93.
6曹宏宇,胡恒.基于微服务架构的智能终端软件架构探讨[J].科技创新与应用,2019,0(20):17-19. 被引量：7
7凌武能,莫东,张德亮,黄红伟,毛文照,游成彬.基于分布式计算的月度机组组合高效算法设计[J].电力大数据,2019,22(8):14-20. 被引量：4
8苗立志,刁继尧,娄冲,崔进东.基于Spark和随机森林的乳腺癌风险预测分析[J].计算机技术与发展,2019,29(8):142-146. 被引量：12
9刘友旗.企业级自动化数据采集平台的设计与实现[J].信息技术与信息化,2019,0(9):32-34.
10潘主强.浅谈新时期数据挖掘的运用[J].电脑知识与技术,2019,15(9):1-2. 被引量：2

1魏臻,韦振.基于进化计算的产品推荐算法[J].合肥工业大学学报（自然科学版）,2015,38(8):1074-1080.
2周锋.Web挖掘技术在远程网络教育中的应用[J].常州工学院学报,2010,23(2):64-66. 被引量：3
3吴涛,韩星,刘薇.基于数据流聚类的出租车载客点实时推荐算法[J].软件导刊,2017,16(2):77-80. 被引量：1
4莫萍燕,王玉龙.一种实时推荐系统数据发布平台的设计与实现[J].电信网技术,2015(9):38-42.
5高明,金澈清,钱卫宁,王晓玲,周傲英.面向微博系统的实时个性化推荐[J].计算机学报,2014,37(4):963-975. 被引量：53
6刘敏娴,马强.基于混合型的Web实时推荐模型研究[J].计算机工程与设计,2011,32(10):3518-3521. 被引量：3
7卢志翔.网络学习系统个性化实时推荐策略研究[J].重庆科技学院学报（自然科学版）,2015,17(3):80-84.
8欧阳广,彭成,李倩倩.基于软件交互行为日志的动态模型构建[J].计算机工程与应用,2013,49(20):34-39. 被引量：1
9刘敏娴,夏阳.基于Web日志的实时推荐系统[J].计算机工程,2009,35(23):47-49. 被引量：4
10李永忠,张心歌.在VC++中动态加载ODBC实现数据库访问方法[J].西北民族大学学报（自然科学版）,2005,26(2):47-53. 被引量：8

现代计算机

2016年第16期

浏览历史

内容加载中请稍等...

大数据下基于Spark的电商实时推荐系统的设计与实现被引量：22

参考文献15

二级参考文献145

共引文献147

同被引文献156

引证文献22

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

大数据下基于Spark的电商实时推荐系统的设计与实现 被引量：22

参考文献15

二级参考文献145

共引文献147

同被引文献156

引证文献22

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

大数据下基于Spark的电商实时推荐系统的设计与实现被引量：22