基于MapReduce和分布式缓存的KNN分类算法研究被引量：2

Parallelized K-nearest neighbor algorithm based on MapReduce and distributed cache

下载PDF

导出

摘要随着大数据时代的到来,K最近邻(KNN)算法较高的计算复杂度的弊端日益凸显。在深入研究了KNN算法的基础上,结合Map Reduce编程模型,利用其开源实现Hadoop,提出了一种基于Map Reduce和分布式缓存机制的KNN并行化方案。该方案只需要通过Mapper阶段就能完成分类任务,减少了Task Tracker与Job Tracker之间的通信开销,同时也避免了Mapper的中间结果在集群任务节点之间的通信开销。通过在Hadoop集群上实验,验证了所提出的并行化KNN方案有着优良的加速比和扩展性。 With the advent of the era of big data, K-nearest neighbor algorithm＇s shortcoming which high computational complexity is become more and more seriously. Through the use of distributed cache mechanism and Hadoop programming ideas provided, this paper proposed KNN parallelization scheme based on the MapReduce. The program only needs to complete classification tasks by Mapper stage. It reduced the communication overhead between the TaskTracker and JobTraeker; on the other hand, it avoided the intermediate results Mapper overhead communication and information transfer between nodes in the cluster task. Through experiments on a Hadoop cluster, the proposed parallel KNN has a better speedup and sealability.

作者涂敬伟皮建勇

机构地区贵州大学计算机科学与信息学院贵州大学云计算与物联网研究中心

出处《微型机与应用》 2015年第2期18-21,共4页 Microcomputer & Its Applications

关键词 KNN分类算法并行化 MapReduce编程模型 HADOOP 分布式缓存 K-nearest neighbor algorithm parallelization MapReduce hadoop distributed cache

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1SAMET H.The design and analysis of spatial data structures[M].MA:Addison-Wesley,1990. 被引量：1
2FRANKLIN M,HALEVY A,MAIER D.A first tutorial on dataspaces[J].Proceedings of the VLDB Endowment,2008,1(2):1516-1517. 被引量：1
3刘莉,郭艳艳,吴扬扬.一种基于基本信息单元的索引[J].计算机工程与科学,2011,33(9):117-122. 被引量：4
4DEAN J,GHENAWAT S.Map Reduce:simplified data processing on large clusters[J].Communications of the ADM-50th Anniversary Issue:1958-2008,2008,51(1):107-113. 被引量：1
5COVER T,HART P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27. 被引量：1
6李航著..统计学习方法[M].北京:清华大学出版社,2012:235.
7TOM W.Hadoop:the definitive guide(second editon)[M].O′Reilly Media,Inc.,2011. 被引量：1
8闫永刚,马廷淮,王建.KNN分类算法的MapReduce并行化实现[J].南京航空航天大学学报,2013,45(4):550-555. 被引量：21

二级参考文献9

1Franklin M, Halevy A, Maier D. From Databases to Dataspaces : A New Abstraction for Information Management[J] SIGMOD Record, 2005, 34(4):27-33. 被引量：1
2Dong X, Halevy A. Indexing Dataspaees[C]//Proe of the 27th Int'l Conf on Management of Data (SIGMOD 2007), 2007:43-54. 被引量：1
3郭艳艳,数据空间查询索引探究.[硕士学位论文][D].厦门:华侨大学.2010. 被引量：1
4中科院计算所.ICTCLAS汉语分词系统[EB/OL].[2010-09-12].http://ictclas.org/ictclas-download.aspx. 被引量：2
5陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1311
6陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：931
7王宗跃,马洪超,徐宏根,张建伟,彭检贵.多核CPU的海量点云并行kNN算法[J].测绘科学技术学报,2010,27(1):46-49. 被引量：10
8王鹏,孟丹,詹剑锋,涂碧波.数据密集型计算编程模型研究进展[J].计算机研究与发展,2010,47(11):1993-2002. 被引量：39
9李玲娟,张敏.云计算环境下关联规则挖掘算法的研究[J].计算机技术与发展,2011,21(2):43-46. 被引量：48

共引文献23

1王江海,吴扬扬.数据空间命名实体的集成方法[J].计算机科学,2012,39(10):170-173.
2王江海,刘莉,武林仙,崔晨,吴扬扬.基于刻面描述的数据空间原型系统[J].计算机应用与软件,2012,29(11):196-200.
3黄黎,顾筠.基于Hadoop平台的并行化数据分类算法研究[J].制造业自动化,2014,36(14):5-9. 被引量：4
4石林,马慰,祁君,徐守坤.一种基于情境的语义索引方法[J].计算机工程与科学,2014,36(8):1615-1622. 被引量：1
5王勇,许钟涛,王瑛.大数据环境下竞争情报系统的研究与实现[J].广东工业大学学报,2014,31(3):27-31. 被引量：9
6张明敏,张功萱,周秀敏.对数似然相似度算法的MapReduce并行化实现[J].计算机工程与设计,2015,36(5):1233-1238. 被引量：3
7闫威,马宗民.基于多谓词选择的海量XML数据并行查询方法[J].小型微型计算机系统,2015,36(7):1415-1420. 被引量：3
8江立伟,袁红林,严燕,包志华.一种低信噪比下的高精度射频指纹变换方法[J].数据采集与处理,2015,30(5):1036-1042. 被引量：3
9王江涛,陈锻生,温新竹.基于Hadoop平台的KNN分类器的优化和实现[J].太原理工大学学报,2016,47(4):513-517. 被引量：2
10孟繁疆,姬祥,袁琦,刘东,侯哲鹏.农产品价格主题搜索引擎的研究与实现[J].东北农业大学学报,2016,47(9):64-71. 被引量：6

同被引文献15

1姜奇平.大数据时代到来[J].互联网周刊,2012(2):6-6. 被引量：59
2耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344. 被引量：61
3郭曦,王盼,王建勇,张焕国.基于k近邻最弱前置条件的程序多路径验证方法[J].计算机学报,2015,38(11):2203-2214. 被引量：5
4樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43. 被引量：25
5李正杰,黄刚.基于Hadoop平台的SVM_KNN分类算法的研究[J].计算机技术与发展,2016,26(3):75-79. 被引量：7
6苏毅娟,邓振云,程德波,宗鸣.大数据下的快速KNN分类算法[J].计算机应用研究,2016,33(4):1003-1006. 被引量：29
7邓振云,龚永红,孙可,张继连.基于局部相关性的kNN分类算法[J].广西师范大学学报（自然科学版）,2016,34(1):52-58. 被引量：4
8马闯,吴涛,段梦雅.基于K近邻隶属度的聚类算法研究[J].计算机工程与应用,2016,52(10):55-58. 被引量：10
9夏靖波,韦泽鲲,付凯,陈珍.云计算中Hadoop技术研究与应用综述[J].计算机科学,2016,43(11):6-11. 被引量：74
10任朋启,王芳,黄树成.一种改进的文本分类算法[J].电子设计工程,2017,25(18):1-5. 被引量：5

引证文献2

1马莹,赵辉,崔岩.基于Hadoop平台的改进KNN分类算法并行化处理[J].长春工业大学学报,2018,39(5):484-489. 被引量：3
2邹劲松,李芳.大数据下的分布式精确模糊KNN分类算法[J].计算机应用研究,2019,36(12):3701-3704. 被引量：4

二级引证文献7

1李姚舜,刘黎志.逻辑回归中的批量梯度下降算法并行化研究[J].武汉工程大学学报,2019,41(5):499-503. 被引量：4
2李文航,余恒奇.基于Hadoop平台的数据分析和应用[J].微型电脑应用,2019,35(11):134-136. 被引量：1
3黄光华,殷锋,冯九林.一种交叉验证和距离加权方法改进的KNN算法研究[J].西南民族大学学报（自然科学版）,2020,46(2):172-177. 被引量：7
4于佳楠,李万龙,郑山红,杨妥,苏珂.结合上下文和注意力机制的特定目标情感分析[J].长春工业大学学报,2020,41(2):142-148. 被引量：5
5王志.基于Spark框架的网络大数据分类处理方法研究[J].信息与电脑,2021,33(10):49-51. 被引量：3
6胡挺峰.基于ML-kNN算法的大数据分类系统设计[J].信息与电脑,2022,34(1):71-73. 被引量：4
7黄山河,陈鹏飞,杨涛,何培垒,巩鑫.基于Leap Motion的手势识别及在大型结构件虚拟安装中的应用[J].现代雷达,2023,45(4):91-96. 被引量：2

1黄富洁,李玉忱,巩垒.决策支持系统中的分布式缓存机制[J].计算机工程,2004,30(13):58-59. 被引量：1
2杨若冰,马严.命名数据网络中的转发策略研究[J].新型工业化,2015,5(10):59-67. 被引量：2
3孙红星,万麟瑞,李志飞.HTTP分布式缓存机制研究[J].计算机工程与应用,2002,38(4):62-65. 被引量：1
4郭唐宝,张延园,林奕.一种面向应用服务器的分布式缓存机制[J].科学技术与工程,2011,11(36):8988-8992. 被引量：4
5闫中威,孙大嵬.B/S模式在线考试系统性能优化及实现[J].计算机系统应用,2016,25(10):81-85. 被引量：5
6涂金金,杨明,郭丽娜.基于MapReduce的基因读段定位改进算法[J].计算机科学,2015,42(8):82-85. 被引量：1
7李文中,陈道蓄,陆桑璐.分布式缓存系统中一种优化缓存部署的图算法[J].软件学报,2010,21(7):1524-1535. 被引量：13
8钟运琴,方金云,赵晓芳.大规模时空数据分布式存储方法研究[J].高技术通讯,2013,23(12):1219-1229. 被引量：11
9刘外喜,余顺争,蔡君,高鹰.ICN中的一种协作缓存机制[J].软件学报,2013,24(8):1947-1962. 被引量：26

微型机与应用

2015年第2期

浏览历史

内容加载中请稍等...

基于MapReduce和分布式缓存的KNN分类算法研究被引量：2

参考文献8

二级参考文献9

共引文献23

同被引文献15

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于MapReduce和分布式缓存的KNN分类算法研究 被引量：2

参考文献8

二级参考文献9

共引文献23

同被引文献15

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于MapReduce和分布式缓存的KNN分类算法研究被引量：2