期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
MapReduce并行编程模型研究综述 被引量:187
1
作者 李建江 崔健 +2 位作者 王聃 严林 黄义双 《电子学报》 EI CAS CSCD 北大核心 2011年第11期2635-2642,共8页
MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成... MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成果的特点和不足,重点对MapReduce涉及的关键技术(包括:模型改进、模型针对不同平台的实现、任务调度、负载均衡和容错)的研究现状进行了深入的分析.本文最后还对MapReduce未来的发展趋势进行了展望. 展开更多
关键词 mapreduce 并行编程模型 运行时支持库 海量数据处理
下载PDF
基于Hadoop MapReduce模型的应用研究 被引量:69
2
作者 谢桂兰 罗省贤 《微型机与应用》 2010年第8期4-7,共4页
MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的... MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法。 展开更多
关键词 分布式并行计算 HADOOP 编程模型 mapreduce
下载PDF
基于MapReduce模型的并行科学计算 被引量:39
3
作者 郑启龙 房明 +3 位作者 汪胜 王向前 吴晓伟 王昊 《微电子学与计算机》 CSCD 北大核心 2009年第8期13-17,共5页
随着多核处理器日渐普及,开发高效易用的并行编程模型成为新的挑战.MapReduce是Google开发的一种并行分布式计算模型,在其搜索业务中获得了巨大的成功.将MapReduce模型引入科学计算领域,并结合实例阐述了如何使用面向高性能计算的HPMR/H... 随着多核处理器日渐普及,开发高效易用的并行编程模型成为新的挑战.MapReduce是Google开发的一种并行分布式计算模型,在其搜索业务中获得了巨大的成功.将MapReduce模型引入科学计算领域,并结合实例阐述了如何使用面向高性能计算的HPMR/HPMR-s系统在分布式或共享存储系统中采用统一的方式描述并实现并行科学计算. 展开更多
关键词 并行编程模型 科学计算 mapreduce
下载PDF
数据密集型计算编程模型研究进展 被引量:39
4
作者 王鹏 孟丹 +1 位作者 詹剑锋 涂碧波 《计算机研究与发展》 EI CSCD 北大核心 2010年第11期1993-2002,共10页
作为一种新兴的计算模式,云计算受到了学术界和产业界的广泛关注.云计算以互联网服务和应用为中心,服务提供者需要存储和分析海量数据.为了能够低成本高效率地处理Web量级数据,主要的互联网公司都在由商品化服务器组成的大规模集群系统... 作为一种新兴的计算模式,云计算受到了学术界和产业界的广泛关注.云计算以互联网服务和应用为中心,服务提供者需要存储和分析海量数据.为了能够低成本高效率地处理Web量级数据,主要的互联网公司都在由商品化服务器组成的大规模集群系统上研发了分布式编程系统.编程模型可以降低开发人员在大规模集群上编程的难度,并让程序充分利用集群资源,但设计这样的编程模型面临巨大挑战.首先说明了数据密集型计算的特点,并指出了编程模型要解决的基本问题;接着深入介绍了国际上代表性的编程模型,并对这些编程模型的特点进行了比较和分析;最后对当前所面临的问题和今后的发展趋势进行了总结和展望. 展开更多
关键词 云计算 数据密集型计算 编程模型 数据并行 海量数据处理 mapreduce
下载PDF
MapReduce并行编程模型研究综述 被引量:24
5
作者 杜江 张铮 +1 位作者 张杰鑫 邰铭 《计算机科学》 CSCD 北大核心 2015年第S1期537-541 564,564,共6页
MapReduce并行编程模型的出现简化了并行编程的复杂度。通过调用方便的接口和运行时支持库,MapReduce并行编程模型可令大规模并行计算任务自动并发地执行而不必关心底层的具体实现细节,从而令MapReduce并行编程模型在大规模中低性能集... MapReduce并行编程模型的出现简化了并行编程的复杂度。通过调用方便的接口和运行时支持库,MapReduce并行编程模型可令大规模并行计算任务自动并发地执行而不必关心底层的具体实现细节,从而令MapReduce并行编程模型在大规模中低性能集群中发挥出色的计算能力,且可节约成本。对国内外关于MapReduce并行编程模型的研究现状进行了综述,分析了目前国内外相关研究成果的优缺点,并对MapReduce并行编程模型的未来发展进行了展望。 展开更多
关键词 mapreduce 并行编程模型 并行计算 海量数据处理
下载PDF
KNN分类算法的MapReduce并行化实现 被引量:21
6
作者 闫永刚 马廷淮 王建 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2013年第4期550-555,共6页
为了提高k-nearest neighbor algorithm(KNN)算法处理大数据集的能力,本文利用Map Reduce并行编程模型,同时结合KNN算法自身的特点,给出了KNN算法在Hadoop平台下的并行化实现。通过设计Map、Combine和Reduce 3个函数,实现了KNN算法的并... 为了提高k-nearest neighbor algorithm(KNN)算法处理大数据集的能力,本文利用Map Reduce并行编程模型,同时结合KNN算法自身的特点,给出了KNN算法在Hadoop平台下的并行化实现。通过设计Map、Combine和Reduce 3个函数,实现了KNN算法的并行化。Map函数完成每个测试样本与训练样本之间的相似度计算,Combine函数作为一个本地的Reduce操作,用以减少中间计算量及通信开销,Reduce函数则根据上述函数得到的中间结果计算出k近邻并作出分类判断。实验结果表明:较之以往的单机版方法,在Hadoop集群上实现的并行化KNN算法具有较好的加速比和良好的扩展性。 展开更多
关键词 KNN分类 并行计算 mapreduce模型 HADOOP
下载PDF
MapReduce集群环境下的数据放置策略 被引量:16
7
作者 荀亚玲 张继福 秦啸 《软件学报》 EI CSCD 北大核心 2015年第8期2056-2073,共18页
MapReduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于MapReduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响MapRe... MapReduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于MapReduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响MapReduce集群系统性能(包括能耗、资源利用率、通信和I/O代价、响应时间、系统的可靠性和吞吐率等)的关键因素之一.首先,对MapReduce编程模型的典型实现——Hadoop缺省的数据放置策略进行分析,并进一步讨论了MapReduce框架下,设计数据放置策略时需考虑的关键问题和衡量数据放置策略的标准;其次,对目前MapReduce集群环境下的数据放置策略优化方法的研究与进展进行了综述和分析;最后,分析和归纳了MapReduce集群环境下数据放置策略的下一步研究工作. 展开更多
关键词 数据放置 mapreduce 编程模型 能耗 负载均衡
下载PDF
基于MapReduce的Hadoop大表导入编程模型 被引量:13
8
作者 陈吉荣 乐嘉锦 《计算机应用》 CSCD 北大核心 2013年第9期2486-2489,2561,共5页
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长... 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。 展开更多
关键词 编程模型 HADOOP mapreduce HADOOP分布式文件系统 Sqoop
下载PDF
基于MapReduce的并行关联规则增量更新算法 被引量:12
9
作者 程广 王晓峰 《计算机工程》 CAS CSCD 北大核心 2016年第2期21-25,32,共6页
为解决传统关联规则挖掘算法在大数据环境下运行效率较低的问题,基于频繁模式增长(FP-growth)算法,提出一种面向大数据的并行关联规则增量更新算法。利用MapReduce编程模型与云计算平台,对FP-growth算法各步骤进行并行化处理。在增量更... 为解决传统关联规则挖掘算法在大数据环境下运行效率较低的问题,基于频繁模式增长(FP-growth)算法,提出一种面向大数据的并行关联规则增量更新算法。利用MapReduce编程模型与云计算平台,对FP-growth算法各步骤进行并行化处理。在增量更新挖掘过程中,使用已有的频繁项集和1-项集对新增事务集构建频繁模式树,通过扫描原始事务数据库完成频繁项集的更新。实验结果表明,与传统关联规则挖掘算法相比,该算法具有更高的挖掘效率和扩展性,适用于海量数据的关联规则增量挖掘。 展开更多
关键词 大数据 云计算 mapreduce编程模型 频繁项集 增量更新 关联规则
下载PDF
基于MapReduce的微博用户搜索排名算法 被引量:12
10
作者 梁秋实 吴一雷 封磊 《计算机应用》 CSCD 北大核心 2012年第11期2989-2993,共5页
在微博搜索领域,单纯依赖于粉丝数量的搜索排名使刷粉行为有了可乘之机,通过将用户看作网页,将用户间的"关注"关系看作网页间的链接关系,使PageRank关于网页等级的基本思想融入到微博用户搜索,并引入一个状态转移矩阵和一个... 在微博搜索领域,单纯依赖于粉丝数量的搜索排名使刷粉行为有了可乘之机,通过将用户看作网页,将用户间的"关注"关系看作网页间的链接关系,使PageRank关于网页等级的基本思想融入到微博用户搜索,并引入一个状态转移矩阵和一个自动迭代的MapReduce工作流将计算过程并行化,进而提出一种基于MapReduce的微博用户搜索排名算法。在Hadoop平台上对该算法进行了实验分析,结果表明,该算法避免了用户排名单纯与其粉丝数量相关,使那些更具"重要性"的用户在搜索结果中的排名获得提升,提高了搜索结果的相关性和质量。 展开更多
关键词 微博搜索 云计算 mapreduce编程模型 Hadoop平台/系统 PAGERANK算法
下载PDF
一种基于大数据的网络日志分析模型构建研究 被引量:11
11
作者 邓小盾 《电子设计工程》 2017年第23期97-100,共4页
针对海量web日志数据在存储和计算方面存在的问题,结合当前的大数据技术,提出一种基于Hadoop与聚类分析的网络日志分析模型。利用Hadoop中的Map Reduce编程模型对海量Web日志进行处理;利用HDFS结合的方式对数据进行存储;利用聚类分析算... 针对海量web日志数据在存储和计算方面存在的问题,结合当前的大数据技术,提出一种基于Hadoop与聚类分析的网络日志分析模型。利用Hadoop中的Map Reduce编程模型对海量Web日志进行处理;利用HDFS结合的方式对数据进行存储;利用聚类分析算法构建web日志分析模型,对用户行为进行分析。最后通过搭建Hadoop测试环境对日志分析系统功能进行测试,并与单机系统比较,验证了该设计方案的优势。 展开更多
关键词 大数据 WEB日志 mapreducc编程模型 HDFS 聚类分析
下载PDF
基于MapReduce的分布式网络数据聚类算法 被引量:9
12
作者 陈东明 刘健 +1 位作者 王冬琦 徐晓伟 《计算机工程》 CAS CSCD 2013年第7期76-82,共7页
时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法。根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利... 时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法。根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利用Map内合并技术对网络流量进行控制,在进行中间结果合并时仅对社团合并,而不考虑社团内部节点,以控制内存开销。使用模拟生成的数据在集群中进行实验,结果表明,当数据规模和集群规模增大时,该算法具有较好的加速比和扩展性。 展开更多
关键词 聚类算法 分布式聚类 mapreduce编程模型 数据挖掘 社团结构
下载PDF
基于Hadoop云计算模型探究 被引量:9
13
作者 李珺 《信息安全与技术》 2011年第6期30-32,37,共4页
云计算是并行计算、分布式计算和网格计算的发展。文中详细地阐述了MapReduce的编程思想、工作原理、步骤和方法。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的... 云计算是并行计算、分布式计算和网格计算的发展。文中详细地阐述了MapReduce的编程思想、工作原理、步骤和方法。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法。 展开更多
关键词 云计算 mapreduce 编程模型 HADOOP
下载PDF
支持隐私保护的众包实体解析 被引量:7
14
作者 燕彩蓉 张洋舜 徐光伟 《计算机科学与探索》 CSCD 2014年第7期802-811,共10页
实体解析是指发现并聚合描述现实世界中同一对象的记录。纯粹的机器算法虽然可以获得较高的效率,但是准确率难以保证。提出了一种机器计算与众包相结合的实体解析方法。该方法首先采用MapReduce并行计算框架排除不可能匹配的记录对,减... 实体解析是指发现并聚合描述现实世界中同一对象的记录。纯粹的机器算法虽然可以获得较高的效率,但是准确率难以保证。提出了一种机器计算与众包相结合的实体解析方法。该方法首先采用MapReduce并行计算框架排除不可能匹配的记录对,减少人类智能任务的数量,然后由人工进行确定性标注。为了支持隐私保护,在众包计算时提出了基于角色的访问控制模型和重要信息隐藏策略。该方法和模型被应用于某医院患者主索引构建平台,实验结果表明,人机结合方法充分利用了机器和人工处理的优势,可以进行高效率和高精度的患者实体解析,并且有效地避免了患者信息的泄漏。 展开更多
关键词 实体解析 众包 mapreduce编程模型 隐私保护 患者主索引
下载PDF
Hadoop环境下基于并行熵的FIUT算法挖掘 被引量:6
15
作者 晏依 徐苏 《计算机工程与设计》 北大核心 2019年第3期685-690,787,共7页
针对传统频繁项集挖掘算法效率低下的问题,提出基于Hadoop平台的并行BMR-FIUT算法。通过引入FIU-Tree(frequent items ultrametric tree)结构挖掘频繁项集,避免传统算法的缺陷;改进FIUT算法的分解过程,使之适应于Map-Reduce框架下的并... 针对传统频繁项集挖掘算法效率低下的问题,提出基于Hadoop平台的并行BMR-FIUT算法。通过引入FIU-Tree(frequent items ultrametric tree)结构挖掘频繁项集,避免传统算法的缺陷;改进FIUT算法的分解过程,使之适应于Map-Reduce框架下的并行计算,达到并行化的目的;利用并行熵作为集群系统的负载均衡度量,使系统尽可能在各节点间合理分发数据以平衡负载。实验结果表明,BMR-FIUT算法能够有效减少并行化过程中节点负载倾斜的问题,较现有的PFP-Growth算法具有更好的性能,适用于海量数据挖掘。 展开更多
关键词 数据挖掘 频繁项集 mapreduce编程模型 FIUT算法 并行熵 负载均衡
下载PDF
基于改进MapReduce模型的BP神经网络并行化研究 被引量:2
16
作者 李楠 于孟渤 +3 位作者 贾珍珍 王一惠 李昕宸 邹淑雪 《通信技术》 2018年第4期799-804,共6页
为了提高BP神经网络算法并行化速率,利用神经网络并行化思想,提出了一种基于Hadoop平台的改进Map Reduce编程模型及并行化的实现。采用Map Reduce编程模型,用神经网络训练集的一组样本的键/值替代单一键/值,通过分组标记将同一value值... 为了提高BP神经网络算法并行化速率,利用神经网络并行化思想,提出了一种基于Hadoop平台的改进Map Reduce编程模型及并行化的实现。采用Map Reduce编程模型,用神经网络训练集的一组样本的键/值替代单一键/值,通过分组标记将同一value值对应的reduce工作方式分散为多个reduce进行工作,实现各个任务节点并行处理大数据,从而减少了处理大规模数据集的运行时间。选用不同大小数据集进行测试,通过与传统的神经网络并行化进行对比,发现改进后的Map Reduce并行编程模型提高了神经网络的并行速率,在处理大数据集时具有一定的优越性。 展开更多
关键词 BP神经网络 mapreduce编程模型 mapreduce改进模型 大数据集
下载PDF
一种基于MapReduce的并行PSO-BP神经网络算法 被引量:4
17
作者 崔红艳 曹建芳 史昊 《科技通报》 北大核心 2017年第4期110-115,共6页
为了提高BP神经网络算法的分类准确率和运行时间效率,利用PSO算法和并行化设计的思想,提出了Hadoop平台下基于MapReduce的PSO优化BP神经网络的并行化设计及实现方法。利用PSO算法优化BP神经网络的初始权值和阈值,提高算法分类准确率;采... 为了提高BP神经网络算法的分类准确率和运行时间效率,利用PSO算法和并行化设计的思想,提出了Hadoop平台下基于MapReduce的PSO优化BP神经网络的并行化设计及实现方法。利用PSO算法优化BP神经网络的初始权值和阈值,提高算法分类准确率;采用MapReduce并行编程模型实现算法的并行化处理,解决了BP神经网络在处理大规模样本数据集时存在的硬件开销和通信开销大的问题。选用SUN Database场景图像库构造了5个不同规模的数据集,通过与传统的串行PSO-BP神经网络算法实验对比,并行化的PSO-BP神经网络算法分类准确率达92%左右,系统效率在0.85左右,在处理大规模数据集时具有明显的优越性。 展开更多
关键词 PSO算法 BP神经网络 mapreduce编程模型 HADOOP平台 并行化处理 大规模数据集
下载PDF
迭代式MapReduce研究进展 被引量:2
18
作者 李金忠 汤鹏杰 +1 位作者 夏洁武 谭云兰 《计算机工程与应用》 CSCD 北大核心 2015年第12期123-132,共10页
迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细... 迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细地阐述了这些研究成果,给出了它们各自的基本思想,并分析了它们各自的特点、优势和不足,且对比了它们所采用的一些技术。对迭代式MapReduce未来的发展趋势进行了展望。 展开更多
关键词 mapreduce 迭代计算 迭代式mapreduce 并行编程模型 大数据处理
下载PDF
Hadoop平台下计算能力调度算法的改进与实现 被引量:4
19
作者 戴小平 张宜力 《计算机工程与应用》 CSCD 北大核心 2015年第19期61-65,共5页
在计算能力调度算法中没有全面考虑各资源特征的分配是否满足作业多样的服务要求,提出一种基于优先级的计算能力加权调度算法,根据作业的优先级以及提交时间等因素来计算作业的权重。依据作业的权重对作业队列进行排序并分配空闲的slot... 在计算能力调度算法中没有全面考虑各资源特征的分配是否满足作业多样的服务要求,提出一种基于优先级的计算能力加权调度算法,根据作业的优先级以及提交时间等因素来计算作业的权重。依据作业的权重对作业队列进行排序并分配空闲的slot给队首的作业,从而避免调度陷入局部最优也能更好地满足作业的多样性服务要求。在搭建的Hadoop平台上进行实验表明,改进后的算法能较均衡地分配系统资源减少一些作业的等待时间,并且运行全部作业的用时有所减少。 展开更多
关键词 云计算 作业调度 HADOOP 加权 Map Reduce编程模型
下载PDF
面向大数据的数据库划分FP-Growth改进算法 被引量:3
20
作者 张乐 魏昕怡 +1 位作者 徐苏 林两位 《南昌大学学报(理科版)》 CAS 北大核心 2022年第5期570-576,共7页
提出了一种基于Hadoop架构和MapReduce编程模型实现的面向大数据的FP-Growth频繁项集挖掘的改进算法。首先将事务数据库按每个频繁1项进行抽取,生成对应的投影数据库,并将这些投影数据库分发到一个个节点机上;再由节点机对投影数据库进... 提出了一种基于Hadoop架构和MapReduce编程模型实现的面向大数据的FP-Growth频繁项集挖掘的改进算法。首先将事务数据库按每个频繁1项进行抽取,生成对应的投影数据库,并将这些投影数据库分发到一个个节点机上;再由节点机对投影数据库进行划分,生成一个个规模更小的子数据库,并由节点机使用改进后的算法并行挖掘生成部分频繁项集;最后归并所有部分频繁项集得到全部的频繁项集。该算法无需像传统的FP-Growth算法一样为事务数据库生成庞大的FP树,有效解决了传统FP-Growth算法及其一些改进算法中因单机内存存储不下庞大的FP树而导致算法失效的问题。同时,由于所划分的子数据库规模接近,分发到各节点机上的负载更均衡,使得算法效率更高。 展开更多
关键词 频繁项集 FP-GROWTH 大数据 mapreduce编程模型
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部