期刊文献+
共找到268篇文章
< 1 2 14 >
每页显示 20 50 100
基于云计算的Web数据挖掘 被引量:51
1
作者 程苗 《计算机科学》 CSCD 北大核心 2011年第B10期146-149,共4页
因特网是一个巨大的、分布广泛的信息服务中心,其上产生的海量数据通常是地理上分布、异构、动态的,复杂性也越来越高,若用已有的集中式数据挖掘方法则不能满足应用的要求。为了解决这些问题,提出了一种基于云计算的Web数据挖掘方法:将... 因特网是一个巨大的、分布广泛的信息服务中心,其上产生的海量数据通常是地理上分布、异构、动态的,复杂性也越来越高,若用已有的集中式数据挖掘方法则不能满足应用的要求。为了解决这些问题,提出了一种基于云计算的Web数据挖掘方法:将海量数据和挖掘任务分解到多台服务器上并行处理。采用Hadoop开源平台,建立一个基于Apriori算法的并行关联规则挖掘算法来验证了该系统的高效性。还提出"计算向存储迁移"的设计思想,将计算在数据存储节点就地执行,从而避免了大量数据在网络上的传递,不会占用大量带宽。 展开更多
关键词 云计算 数据挖掘 map/reduce 关联规则
下载PDF
基于大数据聚类的电力系统中长期负荷预测 被引量:47
2
作者 徐源 程潜善 +3 位作者 李阳 张浩 余伟 何冰 《电力系统及其自动化学报》 CSCD 北大核心 2017年第8期43-48,共6页
随着电网数据收集能力的提升,积累了海量的负荷及相关数据,为负荷预测开辟了新的思路。提出了一种应用大数据技术的中长期负荷预测新方法。首先通过历史负荷序列的增长趋势、波动性等变化特性的参数化表达,实现负荷的标准化处理,形成大... 随着电网数据收集能力的提升,积累了海量的负荷及相关数据,为负荷预测开辟了新的思路。提出了一种应用大数据技术的中长期负荷预测新方法。首先通过历史负荷序列的增长趋势、波动性等变化特性的参数化表达,实现负荷的标准化处理,形成大数据聚类的样本;然后结合大数据分析平台的数据处理能力设计了基于Map Reduce并行编程模型的改进模糊K-means聚类方法,实现对负荷大数据的聚类划分;最后综合相同聚类负荷,并建立预测模型。计算结果表明,大数据聚类算法能有效地进行大量负荷数据的聚类划分,实现不同增长特性负荷的区分预测,具有较高的预测精度。 展开更多
关键词 大数据 中长期负荷预测 聚类分析 map reduce 并行编程
下载PDF
基于Map-Reduce的海量数据高效Skyline查询处理 被引量:44
3
作者 丁琳琳 信俊昌 +1 位作者 王国仁 黄山 《计算机学报》 EI CSCD 北大核心 2011年第10期1785-1796,共12页
Skyline查询已成为现今数据库和信息检索领域的研究热点之一,伴随着人类可以采集和利用的数据信息的急剧增长,使得如何处理海量数据的Skyline查询成为急需解决的问题.近年来兴起的Map-Reduce编程框架能够有效地处理基于海量数据的应用,... Skyline查询已成为现今数据库和信息检索领域的研究热点之一,伴随着人类可以采集和利用的数据信息的急剧增长,使得如何处理海量数据的Skyline查询成为急需解决的问题.近年来兴起的Map-Reduce编程框架能够有效地处理基于海量数据的应用,该文既是研究如何运用Map-Reduce编程框架解决海量数据的Skyline查询问题.在Map-Reduce框架下处理Skyline查询的直接方法是扫描整个数据集进而得到查询结果,但是在海量数据Skyline查询问题中,查询结果的数量远小于原始数据集的数据量,对此该文提出了一系列的Skyline查询算法及优化,有效地过滤掉部分不能成为Skyline查询结果的数据对象,大幅度提高了在Map-Reduce框架下处理Skyline查询的效率.大量运行在Hadoop平台上的实验验证了该文所提出的Skyline查询处理算法具有良好的有效性、准确性和可用性. 展开更多
关键词 云计算 SKYLINE查询 map-reduce 海量数据 HADOOP
下载PDF
一种基于FP-Growth的频繁项目集并行挖掘算法 被引量:44
4
作者 章志刚 吉根林 《计算机工程与应用》 CSCD 2014年第2期103-106,共4页
FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式... FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式树,并对之进行挖掘得到局部频繁项目集,然后合并局部频繁项目集以得到全局频繁项集,由于此时得到的结果并不完备,所以对合并后未达到最小支持度阈值的项目集,重新计算其支持数。介绍了FPPM算法的设计思想,测试了其性能。实验结果表明FPPM算法具有较好的可扩展性。 展开更多
关键词 频繁项目集 并行挖掘 FP Growth map reduce
下载PDF
大数据处理模型Apache Spark研究 被引量:34
5
作者 黎文阳 《现代计算机(中旬刊)》 2015年第3期55-60,共6页
Apache Spark是当前流行的大数据处理模型,具有快速、通用、简单等特点。Spark是针对Map Reduce在迭代式机器学习算法和交互式数据挖掘等应用方面的低效率,而提出的新的内存计算框架,既保留了Map Reduce的可扩展性、容错性、兼容性,又... Apache Spark是当前流行的大数据处理模型,具有快速、通用、简单等特点。Spark是针对Map Reduce在迭代式机器学习算法和交互式数据挖掘等应用方面的低效率,而提出的新的内存计算框架,既保留了Map Reduce的可扩展性、容错性、兼容性,又弥补了Map Reduce在这些应用上的不足。由于采用基于内存的集群计算,所以Spark在这些应用上比Map Reduce快100倍。介绍Spark的基本概念、组成部分、部署模式,分析Spark的核心内容与编程模型,给出相关的编程示例。 展开更多
关键词 SPARK HADOOP mapreduce 大数据 数据分析
下载PDF
基于Hadoop的云计算模型 被引量:27
6
作者 林清滢 《现代计算机》 2010年第7期114-116,121,共4页
Hadoop是一个更容易开发和并行处理大规模数据的分布式计算平台,也是目前最为广泛应用的开源云计算软件平台。在对Hadoop平台上的分布式文件系统HDFS和计算模型Map/Reduce进行深入分析和研究的基础上,给出基于Hadoop的云计算模型和实现... Hadoop是一个更容易开发和并行处理大规模数据的分布式计算平台,也是目前最为广泛应用的开源云计算软件平台。在对Hadoop平台上的分布式文件系统HDFS和计算模型Map/Reduce进行深入分析和研究的基础上,给出基于Hadoop的云计算模型和实现步骤。 展开更多
关键词 云计算 HADOOP HDFS map/reduce
下载PDF
基于Redis内存数据库的快速查找算法 被引量:26
7
作者 郎泓钰 任永功 《计算机应用与软件》 CSCD 2016年第5期40-43,52,共5页
大数据时代的到来,使许多云环境下的新型应用蓬勃发展。针对大数据管理的新需求,key-value型数据存储系统成为当今研究的热点。基于key-value引擎的内存数据库Redis以及Cuckoo Hash技术,提出一种混合哈希快速查找算法CSR_Hash。通过对... 大数据时代的到来,使许多云环境下的新型应用蓬勃发展。针对大数据管理的新需求,key-value型数据存储系统成为当今研究的热点。基于key-value引擎的内存数据库Redis以及Cuckoo Hash技术,提出一种混合哈希快速查找算法CSR_Hash。通过对实验结果的分析,表明该算法有效地缩短了查询响应时间,并将其应用在通过Hadoop云平台以及Map/Reduce编程模型实现的图书销售系统中,对图书数据进行实时高效的解析与推荐,增强了No SQL数据库与Map/Reduce结合的实时性和高并发性。 展开更多
关键词 key-value型存储系统 Redis数据库 map/reduce CUCKOO HASH
下载PDF
异构环境下自适应的Map-Reduce调度 被引量:21
8
作者 陈全 邓倩妮 《计算机工程与科学》 CSCD 北大核心 2009年第A01期168-171,175,共5页
本文针对Hadoop自带的Map-Reduce调度器和LATE调度器的不足,提出了自适应的Map-Reduce调度方式。通过历史信息动态调整Map和Reduce任务各阶段的时间比例,以找出真正需要启动备份任务的任务。并将节点进一步分类,在快速节点上启动落后任... 本文针对Hadoop自带的Map-Reduce调度器和LATE调度器的不足,提出了自适应的Map-Reduce调度方式。通过历史信息动态调整Map和Reduce任务各阶段的时间比例,以找出真正需要启动备份任务的任务。并将节点进一步分类,在快速节点上启动落后任务的备份任务,从而减小响应时间,并尽量避免节点空载,以免浪费系统资源。最后通过具体实验验证了自适应的Map-Reduce调度的有效性,从历史信息中学习的方式在实验中能减少15%左右的响应时间,综合各种技术,能够减少25%左右的响应时间。 展开更多
关键词 map-reduce 异构环境 调度算法 自适应
下载PDF
基于云计算技术的个性化推荐系统 被引量:24
9
作者 应毅 刘亚军 陈诚 《计算机工程与应用》 CSCD 北大核心 2015年第13期111-117,共7页
传统的协同过滤推荐技术在大数据环境下存在一定的不足。针对该问题,提出了一种基于云计算技术的个性化推荐方法:将大数据集和推荐计算分解到多台计算机上并行处理。在对经典Item CF算法Map Reduce化后,建立了一个基于Hadoop开源框架的... 传统的协同过滤推荐技术在大数据环境下存在一定的不足。针对该问题,提出了一种基于云计算技术的个性化推荐方法:将大数据集和推荐计算分解到多台计算机上并行处理。在对经典Item CF算法Map Reduce化后,建立了一个基于Hadoop开源框架的并行推荐引擎,并通过在已商用的英语训练平台上进行学习推荐工作验证了该系统的有效性。实验结果表明,在集群中使用云计算技术处理海量数据,可以大大提高推荐系统的可扩展性。 展开更多
关键词 推荐系统 基于物品的协同过滤 map reduce ITEM CF-MR算法 学习资源推荐
下载PDF
云计算及其架构模式 被引量:25
10
作者 江务学 张璟 王志明 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2011年第4期575-579,共5页
为了构建有效、稳定的云计算平台环境并对其应用性能进行研究,采用理论分析和实践设计的方法,研究了云计算的关键技术,包括云数据中心串联、云数据存储管理技术和云编程模型,提出了一个通用的云计算架构模型,实现了一个基于Hadoop的实... 为了构建有效、稳定的云计算平台环境并对其应用性能进行研究,采用理论分析和实践设计的方法,研究了云计算的关键技术,包括云数据中心串联、云数据存储管理技术和云编程模型,提出了一个通用的云计算架构模型,实现了一个基于Hadoop的实际云平台。研究结果表明:该通用架构模型与NIST模型具有良好的一致性,构建的云平台具有较好的分布式计算性能。该成果对云计算架构模型的研究具有一定的理论指导意义和实际应用价值。 展开更多
关键词 云计算 架构模式 基础设施 HADOOP 分布式文件系统 mapreduce
下载PDF
基于Map-Reduce的大数据缺失值填充算法 被引量:18
11
作者 金连 王宏志 +1 位作者 黄沈滨 高宏 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期312-321,共10页
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性... 缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度. 展开更多
关键词 缺失值填充 概率推理 map-reduce
下载PDF
云平台下并行总体经验模态分解局部放电信号去噪方法 被引量:20
12
作者 宋亚奇 周国亮 +2 位作者 朱永利 李莉 王德文 《电工技术学报》 EI CSCD 北大核心 2015年第18期213-222,共10页
信号去噪是对输变电设备进行在线监测和诊断时首要解决的问题。鉴于总体经验模态分解(EEMD)方法对局部放电信号进行去噪的优势,设计了基于Map Reduce模型的并行化EEMD算法(MR-EEMD),利用云平台提高算法的计算效率。在对分段包络线进行... 信号去噪是对输变电设备进行在线监测和诊断时首要解决的问题。鉴于总体经验模态分解(EEMD)方法对局部放电信号进行去噪的优势,设计了基于Map Reduce模型的并行化EEMD算法(MR-EEMD),利用云平台提高算法的计算效率。在对分段包络线进行重构时,针对矩形窗的固有缺陷,提出了基于局部平稳度的自适应分段包络线重构算法(LF-ASER)进行分段边界的补偿处理,使重构的包络线误差减小到给定阈值范围内。实验结果表明MR-EEMD算法相对于EEMD性能提升显著,适合处理变压器的局部放电等高采样率信号,同时保持了EEMD去噪效果,并获得较高的可扩展性和加速比。 展开更多
关键词 局部放电 信号去噪 总体经验模态分解 mapreduce 包络线重构
下载PDF
基于Google的云计算实例分析 被引量:14
13
作者 蔡键 王树梅 《电脑知识与技术》 2009年第9期7093-7095,7107,共4页
先介绍了云计算产生的背景、概念、基本原理和体系结构,然后以Google系统为例详细阐述了云计算的实现机制。云计算是并行计算、分布式计算和网格计算等计算机科学概念的商业实现。Google拥有自己云计算平台,提供了云计算的实现机制和... 先介绍了云计算产生的背景、概念、基本原理和体系结构,然后以Google系统为例详细阐述了云计算的实现机制。云计算是并行计算、分布式计算和网格计算等计算机科学概念的商业实现。Google拥有自己云计算平台,提供了云计算的实现机制和基础构架模式。该文阐述了Google云计算平台:GFS分布式文件、分布式数据库BigTable及Map/Reduce编程模式。最后分析了云计算发展所面临的挑战。 展开更多
关键词 云计算 集群 谷歌文件系统 大表 映射/化简
下载PDF
Hadoop下的分布式搜索引擎 被引量:15
14
作者 胡彧 封俊 《计算机系统应用》 2010年第7期224-228,共5页
分析了Hadoop系统结构,提出一种改进的PageRank算法,使用Map/Reduce模式设计系统模块。实验证明,使用Hadoop框架能够设计出具有高性能、高可靠性和易扩展性的分布式搜索引擎。
关键词 HADOOP PAGERANK map/reduce 分布式搜索引擎
下载PDF
基于Hadoop的分布式搜索引擎关键技术 被引量:15
15
作者 王俊生 施运梅 张仰森 《北京信息科技大学学报(自然科学版)》 2011年第4期53-56,61,共5页
实现了基于Hadoop的分布式搜索引擎,着重讨论了实现分布式搜索引擎涉及的3个关键性技术:索引表的建立、分词的处理和索引前的预处理。通过实验对比了集中式搜索引擎和分布式搜索引擎,结果表明了基于hadoop的分布式搜索引擎在处理数据方... 实现了基于Hadoop的分布式搜索引擎,着重讨论了实现分布式搜索引擎涉及的3个关键性技术:索引表的建立、分词的处理和索引前的预处理。通过实验对比了集中式搜索引擎和分布式搜索引擎,结果表明了基于hadoop的分布式搜索引擎在处理数据方面强劲的优势。 展开更多
关键词 HADOOP 分布式搜索引擎 map/reduce 索引表 分词
下载PDF
基于MapReduce的Web日志挖掘 被引量:15
16
作者 李彬 刘莉莉 《计算机工程与应用》 CSCD 2012年第22期95-98,共4页
针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Ha... 针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Hadoop平台,利用该算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,充分利用了集群系统的分布式计算能力处理大量的Web日志文件,可以大大地提高Web数据挖掘的效率。 展开更多
关键词 云计算 map/reduce HADOOP平台 WEB日志挖掘 蚁群算法
下载PDF
基于Hadoop的校园云计算系统 被引量:14
17
作者 曹风兵 吴开贵 吴长泽 《计算机系统应用》 2011年第6期6-11,5,共7页
针对传统的海量数据处理方法硬件成本太高,并行程序编写困难的缺点,在云计算理论的基础上设计了一个用于处理海量数据的校园云计算系统。此云计算系统是在Hadoop分布式计算框架的基础上采用Map-Reduce编程模型实现对海量数据的并行处理... 针对传统的海量数据处理方法硬件成本太高,并行程序编写困难的缺点,在云计算理论的基础上设计了一个用于处理海量数据的校园云计算系统。此云计算系统是在Hadoop分布式计算框架的基础上采用Map-Reduce编程模型实现对海量数据的并行处理,有效解决了成本问题,降低了并行编程的难度。 展开更多
关键词 云计算 分布式计算 海量数据 HADOOP map-reduce
下载PDF
基于云计算的物联网数据挖掘 被引量:15
18
作者 张海江 赵建民 +1 位作者 朱信忠 徐慧英 《微型电脑应用》 2012年第6期10-13,共4页
物联网是一个巨大的、分布广泛的物与物相连的网络,其上产生的海量数据通常是与时间和空间相关的,具有动态、异构、分布的特性,因此对这些数据的挖掘非常困难,而且耗费时间和内存,效率低下。为了解决这些问题,提出了一种基于云计算的物... 物联网是一个巨大的、分布广泛的物与物相连的网络,其上产生的海量数据通常是与时间和空间相关的,具有动态、异构、分布的特性,因此对这些数据的挖掘非常困难,而且耗费时间和内存,效率低下。为了解决这些问题,提出了一种基于云计算的物联网数据挖掘系统:将这些海量数据转化为PML数据文件,并存储在HDFS中,同时把挖掘任务分配到多台节点服务器上并行处理。采用Hadoop平台,将关联规则Apriori算法Map/Reduce化,提高了挖掘的效率。另外,采用副本策略将计算向存储迁移,将失效节点的计算迁移到副本数据存储节点就地执行,降低了数据传输的时间,大为提高了挖掘的效率。 展开更多
关键词 云计算 物联网 数据挖掘 map/reduce 关联规则 副本策略
下载PDF
基于结构相似度的大规模社交网络聚类算法 被引量:15
19
作者 陈季梦 陈佳俊 +3 位作者 刘杰 黄亚楼 王嫄 冯霞 《电子与信息学报》 EI CSCD 北大核心 2015年第2期449-454,共6页
针对社交网络的有向交互性和大规模特性,该文提出一种基于结构相似度的有向网络聚类算法(Dir SCAN),以及相应的分布式并行算法(PDir SCAN)。考虑社交网络中节点间的有向交互性,将行为结构相似的节点聚集起来,并进行节点功能分析。针对... 针对社交网络的有向交互性和大规模特性,该文提出一种基于结构相似度的有向网络聚类算法(Dir SCAN),以及相应的分布式并行算法(PDir SCAN)。考虑社交网络中节点间的有向交互性,将行为结构相似的节点聚集起来,并进行节点功能分析。针对社交网络规模巨大的特点,提出Map Reduce框架下的分布式并行聚类算法,在确保聚类结果一致的前提下,提高处理性能。大量真实数据集上的实验结果表明,Dir SCAN比无向网络聚类算法(SCAN)在F1上可提高2.34%的性能,并行算法PDir SCAN比Dir SCAN运行速度提升1.67倍,能够有效处理大规模的有向网络聚类问题。 展开更多
关键词 社交网络 有向网络聚类 并行算法 map reduce
下载PDF
大数据环境下基于MapReduce的网络舆情热点发现 被引量:15
20
作者 王书梦 吴晓松 《软件》 2015年第7期108-113,共6页
大数据环境下的网络舆情分析更侧重于在海量数据的采集、存储、清洗和文本聚类,因此传统的仅依据数据统计的舆情分析方法不再适用。文章对大数据网络舆情分析的相关文献进行总结研究,归纳出网络舆情分析的基本流程框架,并阐明了在大数... 大数据环境下的网络舆情分析更侧重于在海量数据的采集、存储、清洗和文本聚类,因此传统的仅依据数据统计的舆情分析方法不再适用。文章对大数据网络舆情分析的相关文献进行总结研究,归纳出网络舆情分析的基本流程框架,并阐明了在大数据环境下网络舆情分析中文本聚类的各个阶段如何运用Map Reduce进行分布式计算,以此提高网络舆情分析的准确度与及时性。 展开更多
关键词 大数据 舆情热点 map reduce 文本聚类
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部