期刊文献+
共找到114篇文章
< 1 2 6 >
每页显示 20 50 100
基于Hadoop的MapReduce模型的研究与改进 被引量:36
1
作者 李玉林 董晶 《计算机工程与设计》 CSCD 北大核心 2012年第8期3110-3116,共7页
针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通... 针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。 展开更多
关键词 mapreduce模型 HADOOP 数据倾斜 云计算 并行编程
下载PDF
基于云计算和改进K-means算法的海量用电数据分析方法 被引量:30
2
作者 张承畅 张华誉 +1 位作者 罗建昌 何丰 《计算机应用》 CSCD 北大核心 2018年第1期159-164,共6页
针对小区居民用电数据挖掘效率低、数据量大等难题,进行了基于云计算和改进K-means算法的海量用电数据分析方法研究。针对传统K-means算法中存在初始聚类中心和K值难确定的问题,提出一种基于密度的Kmeans改进算法。首先,定义样本密度、... 针对小区居民用电数据挖掘效率低、数据量大等难题,进行了基于云计算和改进K-means算法的海量用电数据分析方法研究。针对传统K-means算法中存在初始聚类中心和K值难确定的问题,提出一种基于密度的Kmeans改进算法。首先,定义样本密度、簇内样本平均距离的倒数和簇间距离三者乘积为权值积,通过最大权值积法依次确定聚类中心,提高了聚类的准确率;然后,基于MapReduce模型实现改进算法的并行化,提高了聚类的效率;最后,以小区400户家庭用电数据为基础,进行海量电力数据的挖掘分析实验。以家庭为单位,提取出用户的峰时耗电率、负荷率、谷电负荷系数以及平段用电量百分比,建立聚类的数据维度特征向量,完成相似用户类型的聚类,同时分析出各类用户的行为特征。基于Hadoop集群的实验结果证明提出的改进K-means算法运行稳定、可靠,具有很好的聚类效果。 展开更多
关键词 用电数据 云计算 改进K-MEANS算法 mapreduce模型 并行化
下载PDF
MapReduce并行编程架构模型研究 被引量:23
3
作者 江务学 张璟 王志明 《微电子学与计算机》 CSCD 北大核心 2011年第6期168-170,175,共4页
针对高质量高效率的MapReduce应用程序的开发,分析了基于Hadoop MapReduce模型的工作机制,从开发类库级阐述了MapReduce并行工作流程,提出了一个具有通用性的MapReduce开发框架原型,对开源的Ma-pReduce模型的改进作了一些展望.
关键词 mapreduce模型 并行编程 心跳程序
下载PDF
面向大数据挖掘的Hadoop框架K均值聚类算法 被引量:22
4
作者 李爽 陈瑞瑞 林楠 《计算机工程与设计》 北大核心 2018年第12期3734-3738,共5页
为提高大数据聚类效率,提出一种基于Hadoop框架的K均值聚类算法。采用Hadoop框架所用的MapReduce模型,将大数据划分成许多数据块。在Map阶段提出权重K均值聚类算法,对每一个数据块独立聚类,得到聚类中心和权重;在Reduce阶段提出加权融合... 为提高大数据聚类效率,提出一种基于Hadoop框架的K均值聚类算法。采用Hadoop框架所用的MapReduce模型,将大数据划分成许多数据块。在Map阶段提出权重K均值聚类算法,对每一个数据块独立聚类,得到聚类中心和权重;在Reduce阶段提出加权融合K均值聚类算法,对Map阶段得到的聚类中心和权重进行融合,得到最终的聚类结果。在HIGGS数据集上进行聚类实验,实验结果表明,该算法在保持聚类准确率的前提下大幅提升了大数据聚类时K均值聚类算法的运算效率。 展开更多
关键词 数据挖掘 K均值聚类 Hadoop框架 大数据 mapreduce模型
下载PDF
中国公共数据库数据质量控制模型体系及实证 被引量:18
5
作者 刘文奇 《中国科学:信息科学》 CSCD 2014年第7期836-856,共21页
在讨论公共数据库的公共产品属性及其制造过程的特点基础上,确定了公共数据库中数据质量的维度,提出了公共数据库作为特殊公共产品的生产过程中非技术数据清洗和数据稽查的概念,并建立了数据质量的变权综合评估模型.对公共数据库的数据... 在讨论公共数据库的公共产品属性及其制造过程的特点基础上,确定了公共数据库中数据质量的维度,提出了公共数据库作为特殊公共产品的生产过程中非技术数据清洗和数据稽查的概念,并建立了数据质量的变权综合评估模型.对公共数据库的数据制造过程质量控制进行了技术设计和博弈论模型分析,给出了各个环节的数据质量控制措施,并以此分析了当前中国公共数据库建设和运行中存在的问题和政策建议.最后,作为实例,提供了质量技术监督公共数据库的设计、运行、数据制造过程质量控制方法. 展开更多
关键词 公共数据库 数据质量 数据清洗 数据制造过程控制 数据稽查 博弈分析 mapreduce模型
原文传递
基于MapReduce模型的间歇性能源海量数据处理技术 被引量:13
6
作者 梅华威 米增强 吴广磊 《电力系统自动化》 EI CSCD 北大核心 2014年第15期76-80,99,共6页
针对传统间歇性能源海量数据处理技术的局限性,提出了基于MapReduce模型的间歇性能源海量数据处理技术,利用廉价的商用计算机组成集群,对海量数据进行并行处理,确保了海量数据处理的可靠性、低成本、高效能和扩展性,并对该技术的平台实... 针对传统间歇性能源海量数据处理技术的局限性,提出了基于MapReduce模型的间歇性能源海量数据处理技术,利用廉价的商用计算机组成集群,对海量数据进行并行处理,确保了海量数据处理的可靠性、低成本、高效能和扩展性,并对该技术的平台实现进行了论述。最后通过实验对比不同数据平台下海量数据处理的效率,验证了基于MapReduce模型的间歇性能源海量数据处理技术的高效性。 展开更多
关键词 间歇性能源 风力发电 mapreduce模型 数据处理 云计算
下载PDF
基于MapReduce模型的分布式粒子群算法 被引量:11
7
作者 范德斌 邓长寿 +2 位作者 袁斯昊 谭旭杰 董小刚 《山东大学学报(工学版)》 CAS 北大核心 2016年第6期23-30,61,共9页
通过对传统的单种群粒子群算法的分析,提出一种基于MapReduce模型的分布式粒子群算法,解决粒子群算法在求解大规模优化问题时求解效率和精度明显下降等问题。在粒子群进化过程中,粒子速度和位置的更新采用惯性权重的方法,其权重值线性递... 通过对传统的单种群粒子群算法的分析,提出一种基于MapReduce模型的分布式粒子群算法,解决粒子群算法在求解大规模优化问题时求解效率和精度明显下降等问题。在粒子群进化过程中,粒子速度和位置的更新采用惯性权重的方法,其权重值线性递减,并且利用多子群进化策略,提高算法的收敛精度。通过MapReduce模型实现算法的并行化,有效提高算法求解效率。选取目前比较流行的几种算法,并在13个500维、1 000维的标准测试函数上仿真试验,结果显示该算法具有良好的优化性能。 展开更多
关键词 粒子群 并行 大规模优化 分布式 mapreduce模型
原文传递
基于结构并行的MRBP算法 被引量:9
8
作者 任刚 邓攀 +1 位作者 杨超 吴长茂 《计算机研究与发展》 EI CSCD 北大核心 2018年第6期1308-1319,共12页
BP(back propagation)算法是一种常用的神经网络学习算法,而基于Hadoop集群MapReduce编程模型的BP(MapReduce back propagation,MRBP)算法在处理大数据问题时,表现出良好的性能,因而得到了广泛应用.但是,由于该算法缺乏神经节点之间细... BP(back propagation)算法是一种常用的神经网络学习算法,而基于Hadoop集群MapReduce编程模型的BP(MapReduce back propagation,MRBP)算法在处理大数据问题时,表现出良好的性能,因而得到了广泛应用.但是,由于该算法缺乏神经节点之间细粒度结构并行的能力,当遇到数据维度较高、网络节点较多时,性能还显不足.另一方面,Hadoop集群计算节点通信不能由用户直接控制,现有基于集群系统的结构并行策略不能直接用于MRBP算法.为此,提出一种适合于Hadoop集群的结构并行MRBP(structure parallelism based MapReduce back propagation,SP-MRBP)算法,该算法将神经网络各层划分为多个结构,通过逐层并行-逐层集成(layer-wise parallelism,layer-wise ensemble,LPLE)的方式,实现了MRBP算法的结构并行.同时,推导出了SP-MRBP算法和MRBP算法计算时间解析表达式,以此分析了2种算法时间差和SP-MRBP算法最优并行规模.据了解,这是首次将结构并行策略引入MRBP算法中.实验表明,当神经网络规模较大时,SP-MRBP较之原算法,具有较好的性能. 展开更多
关键词 mapreduce模型 结构并行 BP算法 多层神经网络 MRBP算法
下载PDF
基于抽样和最大最小距离法的并行K-means聚类算法 被引量:10
9
作者 刘燕 《智能计算机与应用》 2018年第6期37-39,43,共4页
随着网络技术的发展和社会信息化进程的加快,数据规模迅速增长,传统的聚类算法很难满足海量数据的分析处理需求。针对目前K-means聚类算法处理海量数据时存在聚类效果不稳定、准确率不高等问题,本文基于MapReduce模型,采用抽样技术和最... 随着网络技术的发展和社会信息化进程的加快,数据规模迅速增长,传统的聚类算法很难满足海量数据的分析处理需求。针对目前K-means聚类算法处理海量数据时存在聚类效果不稳定、准确率不高等问题,本文基于MapReduce模型,采用抽样技术和最大最小距离法,在此基础上提出一种高效的并行K-means聚类算法。选用UCI数据集进行实验,结果表明该算法的收敛速度、聚类精度,以及在处理海量数据时的并行性能都得到了提高。 展开更多
关键词 mapreduce模型 K-MEANS算法 抽样 最大最小距离法
下载PDF
MapReduce模型下的模糊C均值算法研究 被引量:10
10
作者 王永贵 李鸿绪 宋晓 《计算机工程》 CAS CSCD 2014年第10期47-51,共5页
针对模糊C均值算法需要不断迭代来计算样本数据的隶属度值以及聚类中心的特点,利用MapReduce模型解决海量数据下的模糊C均值问题,进而提出高效的模糊C均值算法。在Map阶段和Reduce阶段分别完成隶属度和聚类中心的计算,每次迭代都需要启... 针对模糊C均值算法需要不断迭代来计算样本数据的隶属度值以及聚类中心的特点,利用MapReduce模型解决海量数据下的模糊C均值问题,进而提出高效的模糊C均值算法。在Map阶段和Reduce阶段分别完成隶属度和聚类中心的计算,每次迭代都需要启动一次完整的MapReduce执行过程。通过多次迭代计算出隶属度值以及聚类中心,并更新聚类中心文件,供下一轮作业使用,重复执行这一过程直至得到最终聚类结果。实验结果表明,该算法能够有效减少MapReduce计算过程中的迭代次数,从而提高整体执行效率。 展开更多
关键词 模糊C均值算法 mapreduce模型 海量数据 高效 迭代
下载PDF
Nutch中网页排序效果的改进方法 被引量:6
11
作者 潘涛 梁正友 《计算机工程》 CAS CSCD 北大核心 2010年第13期42-44,共3页
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的... Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。 展开更多
关键词 Nutch搜索引擎 mapreduce模型 PAGERANK算法 JE中文分词器
下载PDF
基于MapReduce的高能物理数据分析系统 被引量:9
12
作者 臧冬松 霍菁 +1 位作者 梁栋 孙功星 《计算机工程》 CAS CSCD 2014年第2期1-5,共5页
将MapReduce思想引入到高能物理数据分析中,提出一个基于Hadoop框架的高能物理数据分析系统。通过建立事例的TAG信息数据库,将需要进一步分析的事例数减少2-3个数量级,从而减轻I/O压力,提高分析作业的效率。利用基于TAG信息的事例... 将MapReduce思想引入到高能物理数据分析中,提出一个基于Hadoop框架的高能物理数据分析系统。通过建立事例的TAG信息数据库,将需要进一步分析的事例数减少2-3个数量级,从而减轻I/O压力,提高分析作业的效率。利用基于TAG信息的事例预筛选模型以及事例分析的MapReduce模型,设计适用于ROOT框架的数据拆分、事例读取、结果合并等MapReduce类库。在北京正负电子对撞机实验上进行系统实现后,将其应用于一个8节点实验集群上进行测试,结果表明,该系统可使4×10-6个事例的分析时间缩短23%,当增加节点个数时,每秒钟能够并发分析的事例数与集群的节点数基本呈正比,说明事例分析集群具有良好的扩展性。 展开更多
关键词 高能物理 大数据 数据分析 mapreduce模型 集群 分布式计算
下载PDF
基于MapReduce的Bagging决策树优化算法 被引量:8
13
作者 张元鸣 陈苗 +2 位作者 陆佳炜 徐俊 肖刚 《计算机工程与科学》 CSCD 北大核心 2017年第5期841-848,共8页
针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等... 针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduce Job工作流的并行决策树改进算法,提高了对大数据集的分析能力。实验结果表明,并行Bagging决策树改进算法具有较高的准确度与敏感度,以及较好的伸缩性和加速比。 展开更多
关键词 决策树 BAGGING mapreduce模型 大数据分析 准确性
下载PDF
基于大数据分析技术的激光三维图像重构研究 被引量:7
14
作者 龚皓 干彬 《激光杂志》 北大核心 2019年第6期83-87,共5页
基于多景深融合模型的激光三维图像重构方法难以应付大规模点云大数据处理问题,为解决此问题,研究基于大数据分析技术的激光三维图像重构方法。采用基于MapReduce算法的计算模型处理激光三维图像的点云大数据,使用K-means聚类算法分割... 基于多景深融合模型的激光三维图像重构方法难以应付大规模点云大数据处理问题,为解决此问题,研究基于大数据分析技术的激光三维图像重构方法。采用基于MapReduce算法的计算模型处理激光三维图像的点云大数据,使用K-means聚类算法分割处理完成的激光三维图像点云大数据,读取分割完成的点云大数据,通过OpenGL应用程序接口设置数据点的颜色、纹理、贴图等元素,变换视线、视点方向,重构激光三维图像。实验结果表明,所提方法根据原始点云大数据可有效重构激光三维图像,平均用时在11.3ms左右,重构精确度均值高达98.1%,是一种高效、准确的激光三维图像重构方法。 展开更多
关键词 大数据 分析技术 激光三维图像 点云大数据 mapreduce模型 重构
下载PDF
基于MapReduce框架下的K-means聚类算法的改进 被引量:7
15
作者 宋阳 石鸿雁 《计算机与现代化》 2019年第8期28-32,43,共6页
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的... 针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。 展开更多
关键词 K-MEANS算法 相异度函数 mapreduce模型
下载PDF
旅游大数据的MapReduce客户细分应用 被引量:7
16
作者 汪永旗 王惠娇 《华侨大学学报(自然科学版)》 CAS 北大核心 2015年第3期292-296,共5页
分析K-means聚类算法和Hadoop云平台的特点,对聚类算法进行改进,给出算法的MapReduce实现.通过加速比实验和旅游数据细分实验,验证了算法的有效性和高可扩展性.针对旅游大数据的特点,构建了多指标的RFM扩展模型,通过文中算法聚类,得到... 分析K-means聚类算法和Hadoop云平台的特点,对聚类算法进行改进,给出算法的MapReduce实现.通过加速比实验和旅游数据细分实验,验证了算法的有效性和高可扩展性.针对旅游大数据的特点,构建了多指标的RFM扩展模型,通过文中算法聚类,得到与预期相近的聚类结果.实验结果表明:文中算法具有较高的实用价值. 展开更多
关键词 旅游大数据 mapreduce模型 聚类 客户细分
下载PDF
基于云计算的并行测试方案设计与实现 被引量:7
17
作者 黄晓玲 陈桂林 赵生慧 《计算机工程》 CAS CSCD 2012年第24期27-31,共5页
目前对软件测试用例的需求在以指数级增长,导致测试资源相对不足、测试成本高、测试用例执行效率低等问题更加突出。为解决上述问题,设计一个基于云计算的并行测试方案,采用有限状态机定义测试对象及测试过程中的状态迁移,借鉴随机路线... 目前对软件测试用例的需求在以指数级增长,导致测试资源相对不足、测试成本高、测试用例执行效率低等问题更加突出。为解决上述问题,设计一个基于云计算的并行测试方案,采用有限状态机定义测试对象及测试过程中的状态迁移,借鉴随机路线的思想,提出一个并行测试用例生成算法,在此基础上给出基于MapReduce模型和云计算平台的并行测试脚本。实验结果表明,与顺序执行测试序列相比,该方案的加速比可达20,测试效率有明显提高。 展开更多
关键词 云计算 云测试 并行测试 有限状态机 mapreduce模型
下载PDF
一种基于MapReduce的微博信息推荐并行算法 被引量:7
18
作者 刘其成 冯利光 《小型微型计算机系统》 CSCD 北大核心 2017年第7期1518-1522,共5页
随着微博和移动互联网的快速发展,社交网络变得越来越庞大,信息的个性化服务越来越受到重视.Slope One算法是一种协同过滤推荐算法,算法通过用户项目的偏差矩阵和频度矩阵,预测目标用户感兴趣的项目,实现了信息的个性化推荐.考虑到Slope... 随着微博和移动互联网的快速发展,社交网络变得越来越庞大,信息的个性化服务越来越受到重视.Slope One算法是一种协同过滤推荐算法,算法通过用户项目的偏差矩阵和频度矩阵,预测目标用户感兴趣的项目,实现了信息的个性化推荐.考虑到Slope One算法对大数据处理不足的问题,提出一种改进的基于并行Slope One算法的微博信息推荐算法,并借助MapReduce平台设计实现了该算法.实验表明,该算法不仅具有良好的加速比和可扩展性,还具有较好的预测准确率,它可以更高效的处理微博数据. 展开更多
关键词 SLOPE One算法 微博信息推荐 mapreduce模型 并行计算
下载PDF
Hadoop平台下基于资源预测的Delay调度算法 被引量:6
19
作者 魏晓辉 付庆午 李洪亮 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2013年第1期101-106,共6页
针对Delay算法的不合理等待问题,提出一种基于资源预测的Delay调度算法(RFD),该算法基于对资源可用性的预测方法合理地调度作业.实验结果表明,在Hadoop机群一般应用场景下,该调度算法与已有算法相比,在保证作业本地化计算Map任务比例相... 针对Delay算法的不合理等待问题,提出一种基于资源预测的Delay调度算法(RFD),该算法基于对资源可用性的预测方法合理地调度作业.实验结果表明,在Hadoop机群一般应用场景下,该调度算法与已有算法相比,在保证作业本地化计算Map任务比例相近的同时,将作业平均运行效率提高28.8%,明显提高了Mapreduce作业的执行效率. 展开更多
关键词 HADOOP平台 mapreduce模型 资源调度 资源预测 Delay调度
下载PDF
基于MapReduce模型的并行量子进化算法 被引量:6
20
作者 贾瑞玉 刘范范 +1 位作者 潘雯雯 王伟东 《计算机工程》 CAS CSCD 2012年第8期180-182,188,共4页
利用MapReduce模型可自动编写串行程序及编程接口简单的优点,实现量子进化算法在MapReduce模型下的并行化,提出基于MapReduce模型的并行量子进化算法MRQEA,并将其部署到Hadoop云计算平台上运行。对0-1背包问题的测试结果证明,MRQEA算法... 利用MapReduce模型可自动编写串行程序及编程接口简单的优点,实现量子进化算法在MapReduce模型下的并行化,提出基于MapReduce模型的并行量子进化算法MRQEA,并将其部署到Hadoop云计算平台上运行。对0-1背包问题的测试结果证明,MRQEA算法在处理大型数据集时具有良好的加速比和并行效率。 展开更多
关键词 量子进化算法 mapreduce模型 云计算平台 HADOOP平台
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部