基于LSH和MapReduce的近邻模型推荐算法被引量：2

Nearest Neighbor Model Recommendation Algorithm Based on LSH and MapReduce

下载PDF

导出

摘要传统的近邻模型(k-nearest Neighborhood,KNN)是一种使用广泛的协同过滤模型,但是随着用户和项目的增加,需要计算大量用户或项之间的相似度,其时间复杂度过高.通过结合位置敏感哈希(Locality-Sensitive Hashing,LSH)与MapReduce,提出了一种能够在线性时间复杂度内并行计算用户或项之间相似度的近邻模型推荐算法,降低了时间和空间复杂度.在Tencent Weibo数据集上进行了仿真实验,实验表明提出的模型能有效解决传统近邻模型对于大数据集时间复杂度过高的问题,显著地提高了传统近邻模型的精度和降低传统近邻模型的耗时. Traditional k-nearest neighborhood （KNN） model has been widely used in the recommender systems. However, with the increasing of users and items, the large scale of similarity between users or items need to be calculated and the time complexity is too high. In this paper, a nearest neighbor model recommendation algorithm combined with a locality sensitive hash （Locality--Sensitive Hashing, LSH） and MapReduce is proposed , which is a way to linear time complexity by parallel computing similarity between users or items, reducing the time and space complexity. Simulate experiments in Tencent Weibo datasets show that the proposed model can effectively solve the problem of high time complexity exists in the traditional nearest neighbor model for large data sets and significantly improve the accuracy of the traditional nearest neighbor model and reduce the time--consuming.

作者陈佑雄向阳张骐潘涛

机构地区同济大学计算机科学与技术系神华和利时信息技术有限公司

出处《微电子学与计算机》 CSCD 北大核心 2013年第12期47-49,53,共4页 Microelectronics & Computer

基金国家自然科学基金(71171148) 国家科技计划课题(2012BAD35B01) 上海市科技创新计划(11DZ1501703) 陈家镇智慧社区和智能交通项目(11dz1210600)

关键词协同过滤 K-nearest NEIGHBOR LSH MAPREDUCE collaborative Filtering K-nearest neighborhood LSH MapReduce

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Das A, Datar M, Garg A. Google news personaliza-tion: scalable online collaborative filtering[C]// ACM2007 Article. Bibliometrics Data Bibliometrics. NewYork, 2007:271-281. 被引量：1
2Koren Y. Factor in the neighbors : scalable and accu-rate collaborative filtering[J]. ACM Transactions onKnowledge Discovery from Data , 2010,4(1) : 1-11. 被引量：1
3Bell R,Koren Y. Improved neighborhood-based col-laborative filtering [C]// KDD-Cup and Workshop.New York: ACM press, 2007. 被引量：1
4Datar M, Immorlica N, Indyk P, et al. Locality-sensi-tive hashing scheme based on p-stable distributions[C]//Proceedings of the twentieth annual symposiumon Computational geometry. New York,2004: 253-262 . 被引量：1
5Chen P L,Chen T,Chen Y N,et al. A linear ensem-ble of individual and blended models for music ratingprediction [ C]// KDD-Cup and Workshop. NewYork: ACM press, 2011. 被引量：1
6Rajaraman A,Ullman J. Mining of massive datasets[M]. USA: Stanford Univ,2011: 62-65. 被引量：1
7Andoni A, Indyk P. Neai^optimal hashing algorithms forapproximate nearest neighbor in high dimensions [J].Communications of the ACM - 50th anniversary, 2008(51):117-122 . 被引量：1

同被引文献18

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2张勤,马费成.国外知识管理研究范式——以共词分析为方法[J].管理科学学报,2007,10(6):65-75. 被引量：487
3马建斌,李滢,滕桂法,王芳,赵洋.KNN和SVM算法在中文文本自动分类技术上的比较研究[J].河北农业大学学报,2008,31(3):120-123. 被引量：11
4付允,牛文元,汪云林,李丁.科学学领域作者合作网络分析--以《科研管理》(2004-2008)为例[J].科研管理,2009,30(3):41-46. 被引量：75
5盛亚,范栋梁.结构洞分类理论及其在创新网络中的应用[J].科学学研究,2009,27(9):1407-1411. 被引量：100
6魏瑞斌.社会网络分析在关键词网络分析中的实证研究[J].情报杂志,2009,28(9):46-49. 被引量：247
7李改,潘嵘,李章凤,李磊.基于大数据集的协同过滤算法的并行化研究[J].计算机工程与设计,2012,33(6):2437-2441. 被引量：19
8余鹰,苗夺谦,刘财辉,王磊.基于变精度粗糙集的KNN分类改进算法[J].模式识别与人工智能,2012,25(4):617-623. 被引量：32
9查礼.基于Hadoop的大数据计算技术[J].科研信息化技术与应用,2012,3(6):26-33. 被引量：18
10彭凯,汪伟,杨煜普.基于余弦距离度量学习的伪K近邻文本分类算法[J].计算机工程与设计,2013,34(6):2200-2203. 被引量：19

引证文献2

1赵彤,刘斌,李涛.基于非均衡局部敏感哈希的并行文本分类研究[J].微电子学与计算机,2017,34(12):67-73.
2陈军,谢卫红,陈扬森.国内外大数据推荐算法领域前沿动态研究[J].中国科技论坛,2018(1):173-181. 被引量：20

二级引证文献20

1张志威.智慧博物馆智能推送平台的应用研究[J].信息与电脑,2018,30(18):87-89.
2刘姣.基于布谷鸟搜索的聚类推荐算法研究综述[J].软件导刊,2019,18(4):91-94. 被引量：4
3唐国艳.大数据与保险业精准营销[J].市场研究,2019,0(5):57-58. 被引量：1
4陶冶.基于Hadoop和MapReduce的商品推荐[J].计算机时代,2019,0(7):29-32.
5茅晓晨,顾杰,杭雪莲,龚文彬.基于多维相似度的大数据检测推荐算法系统[J].中国高新科技,2019,0(16):8-10.
6刘汉,刘玮,王永晶.国内外经管学科大数据研究热点与趋势分析[J].东北师大学报（哲学社会科学版）,2019,0(5):125-132. 被引量：2
7任敏.大数据个性化推荐分析[J].物联网技术,2019,9(11):62-64. 被引量：6
8李海英,徐小露.人工智能时代中国个人信息保护法的选择[J].北京航空航天大学学报（社会科学版）,2020,33(3):17-24. 被引量：5
9吴建帆,曾昭平,郑亮,李琥,管孜恒,徐寅.基于用户的协同过滤推荐算法研究[J].现代计算机,2020,26(19):27-29. 被引量：7
10徐静,王勃,孙雪莹.基于RNN神经网络的人力资源管理风险预警模型[J].计算机与数字工程,2020,48(7):1727-1730. 被引量：7

1杨丽华,戴齐,郭艳军.KNN文本分类算法研究[J].微计算机信息,2006,22(07X):269-270. 被引量：24
2张清清,李长云,李旭,周玲芳,胡淑新,邹豪杰.基于不规则区域划分方法的k-Nearest Neighbor查询算法[J].计算机系统应用,2015,24(9):186-190. 被引量：1
3陈晓红,沈洁,顾天竺,吴颜,张舒,李慧.基于用户潜在偏好的协同过滤[J].计算机工程,2007,33(4):42-44. 被引量：2
4周红鹃,梅建强,任刚,孙丙宇.基于改进协同过滤模型的农资推荐方法研究[J].大众科技,2017,19(2):17-20.
5侯士江,张玉江,刘国华.基于位置敏感哈希分割的空间K-匿名共匿算法[J].计算机科学,2013,40(8):115-118. 被引量：2
6李捷.基于矩阵分解的物资管理系统优化[J].机电信息,2016(30):29-29.
7陈俊华,章玲玲,杨浩,李轶鹏,肖勇才.基于位置敏感哈希的入侵检测方法[J].警察技术,2015,0(5):52-55.
8刘鑫洋,王菁,韩博洋.面向移动客户端的数据服务推荐策略研究[J].小型微型计算机系统,2015,36(8):1752-1757. 被引量：1
9吉聪睿,邓志鸿,唐世渭.基于Nearest Pair的XML关键词检索算法[J].软件学报,2009,20(4):910-917. 被引量：4
10杨萌萌,黄浩,程露红,马平,包武杰.基于LDA主题模型的短文本分类[J].计算机工程与设计,2016,37(12):3371-3377. 被引量：19

微电子学与计算机

2013年第12期

浏览历史

内容加载中请稍等...

基于LSH和MapReduce的近邻模型推荐算法被引量：2

参考文献7

同被引文献18

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于LSH和MapReduce的近邻模型推荐算法 被引量：2

参考文献7

同被引文献18

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于LSH和MapReduce的近邻模型推荐算法被引量：2