期刊文献+
共找到5,318篇文章
< 1 2 250 >
每页显示 20 50 100
放电等离子烧结技术 被引量:117
1
作者 高濂 宫本大树 《无机材料学报》 SCIE EI CAS CSCD 北大核心 1997年第2期129-133,共5页
本文介绍了近几年来在日本迅速发展的放电等离子烧结技术,除概要地介绍了这种烧结新技术的原理和特点外,着重介绍了放电等离子烧结技术在制备梯度功能材料和快速烧结细晶粒陶瓷方面的重要应用,其中后者包括了作者最近在日本大阪府立... 本文介绍了近几年来在日本迅速发展的放电等离子烧结技术,除概要地介绍了这种烧结新技术的原理和特点外,着重介绍了放电等离子烧结技术在制备梯度功能材料和快速烧结细晶粒陶瓷方面的重要应用,其中后者包括了作者最近在日本大阪府立产业技术研究所取得的部分研究结果. 展开更多
关键词 放电等离子烧结 烧结 陶瓷
下载PDF
MapReduce与Spark用于大数据分析之比较 被引量:75
2
作者 吴信东 嵇圣硙 《软件学报》 EI CSCD 北大核心 2018年第6期1770-1791,共22页
评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量... 评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面的性能要优于Spark;而在处理迭代问题和一些低延迟问题时,Spark可以根据数据之间的依赖关系对任务进行更合理的划分,相较于MapReduce,有效地减少了中间数据传输数量与同步次数,提高了系统的运行效率. 展开更多
关键词 大数据 MAPREDUCE spark 迭代问题 非迭代问题
下载PDF
云计算中Hadoop技术研究与应用综述 被引量:74
3
作者 夏靖波 韦泽鲲 +1 位作者 付凯 陈珍 《计算机科学》 CSCD 北大核心 2016年第11期6-11,48,共7页
Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学... Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学术研究成果,从MapReduce算法的改进与创新、HDFS技术的优化与创新、二次开发与其它技术相结合、应用领域创新与实践4个方面进行总结,并简述了国内外应用现状。而Hadoop与Spark结合是未来的趋势,最后展望了Hadoop未来研究的发展方向和亟需解决的问题。 展开更多
关键词 云计算 大数据 HADOOP spark MAPREDUCE
下载PDF
一种基于Spark和聚类分析的辨识电力系统不良数据新方法 被引量:65
4
作者 孟建良 刘德超 《电力系统保护与控制》 EI CSCD 北大核心 2016年第3期85-91,共7页
随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的Map Reduce框... 随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的Map Reduce框架不能有效处理频繁迭代计算等问题,提出一种基于Spark的并行K-means算法辨识不良数据的新方法。以某一节点电力负荷数据为研究对象,运用基于Spark的并行K-means聚类算法提取出日负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用EUNITE提供的真实电力负荷数据进行实验,结果表明此方法能有效提高状态估计结果的准确性,与基于Map Reduce框架的方法相比,具有更好的加速比、扩展性,能更好地处理电力系统的海量数据。 展开更多
关键词 spark 聚类 K-MEANS 电力系统 不良数据 负荷曲线分类
下载PDF
基于Spark的大数据混合计算模型 被引量:56
5
作者 胡俊 胡贤德 程家兴 《计算机系统应用》 2015年第4期214-218,共5页
现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用.混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几... 现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用.混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(Graph X).Spark提供了一个强大的内存计算引擎,实现了优异的计算性能,同时还保持与Hadoop平台的兼容性.因此,随着系统的不断稳定和成熟,Spark有望成为与Hadoop共存的新一代大数据处理系统和平台.本文详细研究和分析了Spark生态系统,建立了基于Spark平台的混合计算模型架构,并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用. 展开更多
关键词 大数据 混合计算模式 spark 弹性分布数据集
下载PDF
基于Spark和IPPSO_LSSVM的短期分布式电力负荷预测算法 被引量:48
6
作者 王保义 王冬阳 张少敏 《电力自动化设备》 EI CSCD 北大核心 2016年第1期117-122,共6页
为了提高电力负荷预测的精度,应对单机运算资源不足的挑战,提出一种改进并行化粒子群算法优化的最小二乘支持向量机短期负荷预测模型。通过引入Spark on YARN内存计算平台,将改进并行粒子群优化(IPPSO)算法部署在平台上,对最小二乘支持... 为了提高电力负荷预测的精度,应对单机运算资源不足的挑战,提出一种改进并行化粒子群算法优化的最小二乘支持向量机短期负荷预测模型。通过引入Spark on YARN内存计算平台,将改进并行粒子群优化(IPPSO)算法部署在平台上,对最小二乘支持向量机(LSSVM)的不确定参数进行算法优化,利用优化后的参数进行负荷预测。通过引入并行化和分布式的思想,提高算法预测准确率和处理海量高维数据的能力。采用EUNITE提供的真实负荷数据,在8节点的云计算集群上进行实验和分析,结果表明所提分布式电力负荷预测算法精度优于传统的泛化神经网络算法,在执行效率上优于基于Map Reduce的分布式在线序列优化学习机算法,且提出的算法具有较好的并行能力。 展开更多
关键词 spark IPPSO LSSVM 负荷预测 短期预测 支持向量机 并行处理 优化
下载PDF
弓网受流中出现连续火花的原因分析 被引量:33
7
作者 韩通新 《铁道机车车辆》 2003年第3期58-61,共4页
通过对某些线路弓网受流试验中出现连续火花的分析 ,说明引起此现象的原因有弓网振动不匹配、接触导线不平顺、导线本身的刚度不均匀和施工过程造成接触导线吊弦点处高度不平等方面 。
关键词 电气化铁路 弓网系统 受流性能 连续火花现象 原因分析 接触网 受电弓 接触导线
下载PDF
A high entropy silicide by reactive spark plasma sintering 被引量:38
8
作者 Yuan QIN Ji-Xuan LIU +3 位作者 Fei LI Xiaofeng WEI Houzheng WU Guo-Jun ZHANG 《Journal of Advanced Ceramics》 SCIE CSCD 2019年第1期148-152,共5页
A high-entropy silicide(HES),(Ti_(0.2) Zr_(0.2) Nb_(0.2) Mo_(0.2) W_(0.2))Si_2 with close-packed hexagonal structure is successfully manufactured through reactive spark plasma sintering at 1300 ℃ for 15 min.The eleme... A high-entropy silicide(HES),(Ti_(0.2) Zr_(0.2) Nb_(0.2) Mo_(0.2) W_(0.2))Si_2 with close-packed hexagonal structure is successfully manufactured through reactive spark plasma sintering at 1300 ℃ for 15 min.The elements in this HES are uniformly distributed in the specimen based on the energy dispersive spectrometer analysis except a small amount of zirconium that is combined with oxygen as impurity particles. The Young's modulus, Poisson's ratio,and Vickers hardness of the obtained(Ti_(0.2) Zr_(0.2) Nb_(0.2) Mo_(0.2) W_(0.2))Si_2 are also measured. 展开更多
关键词 high-entropy ceramics high-entropy SILICIDE spark plasma SINTERING SILICIDE
原文传递
2005-2017年全国法定传染病重复报告卡大数据分析与应用 被引量:35
9
作者 李言飞 张业武 +1 位作者 王晓风 王丽萍 《疾病监测》 CAS 2019年第5期468-472,共5页
目的了解全国传染病报告信息管理系统中法定传染病报告卡重复报告(重卡)现状,分析重卡原因,提出解决方法,进一步规范报告管理,提高数据质量。方法基于Hadoop和Spark为核心的大数据分析平台,利用Python和Jupyter notebook,按照查重条件对... 目的了解全国传染病报告信息管理系统中法定传染病报告卡重复报告(重卡)现状,分析重卡原因,提出解决方法,进一步规范报告管理,提高数据质量。方法基于Hadoop和Spark为核心的大数据分析平台,利用Python和Jupyter notebook,按照查重条件对2005-2017年全国法定传染病报告卡分别统计分析年度内重卡、累计重卡和跨年度重卡,并利用Python包matplotlib绘图展示统计结果。结果2005-2017年年度内重卡率平均为7.65/万,累计重卡数1 141 539张,累计重卡率133.47/万,重卡数居前3位的疾病是乙型肝炎、手足口病和肺结核,占比分别为30.23%、28.01%和12.96%。其中2017年年度内重卡率为11.19/万,年内重卡数8 497张,跨年度重卡累计276 194张。结论法定传染病年度内卡片重复报告依然有待加强管理,跨年度重卡和累计重卡逐年增多,严重影响数据分析,需要尽快采取相应的数据管理和分析对策。 展开更多
关键词 大数据 网络直报 数据质量 重复报告 重复报告卡 HADOOP spark
原文传递
Hadoop与Spark应用场景研究 被引量:33
10
作者 冯兴杰 王文超 《计算机应用研究》 CSCD 北大核心 2018年第9期2561-2566,共6页
Spark的崛起对作为当前最为流行的大数据问题解决方案的Hadoop及其生态系统形成了有力的冲击,甚至一度有人认为Spark有取代Hadoop的趋势,但是因为Hadoop与Spark有着各自不同的特点,使得两者拥有不同的应用场景,从而Spark无法完全取代Had... Spark的崛起对作为当前最为流行的大数据问题解决方案的Hadoop及其生态系统形成了有力的冲击,甚至一度有人认为Spark有取代Hadoop的趋势,但是因为Hadoop与Spark有着各自不同的特点,使得两者拥有不同的应用场景,从而Spark无法完全取代Hadoop。针对以上问题,对Hadoop与Spark的应用场景进行了分析。首先介绍了Hadoop与Spark的相关技术以及各自的生态系统,详细分析了两者的特性;最后针对两者特性,阐述了Hadoop与Spark各自所适应的应用场景。 展开更多
关键词 HADOOP spark 大数据 生态系统 应用场景
下载PDF
大数据处理模型Apache Spark研究 被引量:33
11
作者 黎文阳 《现代计算机(中旬刊)》 2015年第3期55-60,共6页
Apache Spark是当前流行的大数据处理模型,具有快速、通用、简单等特点。Spark是针对Map Reduce在迭代式机器学习算法和交互式数据挖掘等应用方面的低效率,而提出的新的内存计算框架,既保留了Map Reduce的可扩展性、容错性、兼容性,又... Apache Spark是当前流行的大数据处理模型,具有快速、通用、简单等特点。Spark是针对Map Reduce在迭代式机器学习算法和交互式数据挖掘等应用方面的低效率,而提出的新的内存计算框架,既保留了Map Reduce的可扩展性、容错性、兼容性,又弥补了Map Reduce在这些应用上的不足。由于采用基于内存的集群计算,所以Spark在这些应用上比Map Reduce快100倍。介绍Spark的基本概念、组成部分、部署模式,分析Spark的核心内容与编程模型,给出相关的编程示例。 展开更多
关键词 spark HADOOP MAPREDUCE 大数据 数据分析
下载PDF
计及数据类别不平衡的海量用户负荷典型特征高性能提取方法 被引量:31
12
作者 刘洋 刘洋 +1 位作者 许立雄 王剑 《中国电机工程学报》 EI CSCD 北大核心 2019年第14期4093-4103,共11页
深度探索用户负荷的用电特性是面向电力大数据趋势下电力市场精细化发展的迫切需求。该文提出一种计及数据类别不平衡的用户负荷典型形态提取模型,适用于电力系统负荷数据量大、缺乏训练标签的情况。首先,通过K-medoids算法将局部数据... 深度探索用户负荷的用电特性是面向电力大数据趋势下电力市场精细化发展的迫切需求。该文提出一种计及数据类别不平衡的用户负荷典型形态提取模型,适用于电力系统负荷数据量大、缺乏训练标签的情况。首先,通过K-medoids算法将局部数据聚类获取类别标签作为训练集。针对训练集部分类簇数据样本过小,采用基于聚类结果的过采样方法进行类别平衡。负荷数据分类采用基于Spark的分布式神经网络基分类器集成学习方法。最后,通过形态互相关性提取典型负荷形态特征。算例选取模拟日负荷数据和爱尔兰实测负荷数据,对比K-means聚类和K-medoids+串行BPNN分类性能,验证了所提算法的有效性和实用性,同时也证明了该方法对于负荷分类所具有的效率优势。 展开更多
关键词 用电特性 类别不平衡 电力大数据 聚类 过采样技术 spark 集成学习 神经网络
下载PDF
基于随机森林的PM2.5实时预报系统 被引量:32
13
作者 侯俊雄 李琦 +2 位作者 朱亚杰 冯逍 毛曦 《测绘科学》 CSCD 北大核心 2017年第1期1-6,共6页
针对我国当前重污染天气PM2.5浓度的实时预报问题,该文提出了一种基于随机森林算法的PM2.5浓度实时预报方法,并利用此方法对北京市地面空气质量监测数据和气象数据进行分析,建立了基于随机森林算法的PM2.5浓度实时预报模型。实验证明,... 针对我国当前重污染天气PM2.5浓度的实时预报问题,该文提出了一种基于随机森林算法的PM2.5浓度实时预报方法,并利用此方法对北京市地面空气质量监测数据和气象数据进行分析,建立了基于随机森林算法的PM2.5浓度实时预报模型。实验证明,该模型能够对72h内PM2.5浓度进行较高精度的实时预报,通过使用Spark分布式计算框架,能够有效降低算法耗时,文章基于此模型与Spark分布式计算框架建立了PM2.5实时预报系统。 展开更多
关键词 PM2.5实时预报 分布式计算 随机森林 空气质量 spark
原文传递
基于Spark Streaming的实时数据分析系统及其应用 被引量:30
14
作者 韩德志 陈旭光 +2 位作者 雷雨馨 戴永涛 张肖 《计算机应用》 CSCD 北大核心 2017年第5期1263-1269,共7页
为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一... 为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一种动态采样的K-Means并行算法,与DRDAS结合能实时有效地检测大数据环境下的各种分布式拒绝服务(DDo S)攻击。实验结果显示:DRDAS具有好的可扩展性、容错性和实时处理能力,与动态采样的K-Means并行算法结合能实时地检测各种DDo S攻击,缩短了攻击的检测时间。 展开更多
关键词 spark Streaming框架 分布式流处理 网络数据分析 分布式拒绝服务攻击
下载PDF
大数据分析平台建设与应用综述 被引量:31
15
作者 王强 李俊杰 +2 位作者 陈小军 黄哲学 陈国良 《集成技术》 2016年第2期2-18,共17页
大数据分析平台是开展大数据处理与分析应用所必需的基础设施。文章基于课题组开展大数据分析平台建设的科研成果与实践经验,结合大型企业实施行业应用项目的切身感受,从大数据分析平台设计、主流热点技术、行业应用案例三个方面进行介... 大数据分析平台是开展大数据处理与分析应用所必需的基础设施。文章基于课题组开展大数据分析平台建设的科研成果与实践经验,结合大型企业实施行业应用项目的切身感受,从大数据分析平台设计、主流热点技术、行业应用案例三个方面进行介绍。文章首先分析了大数据分析平台的主要功能和体系架构,然后介绍了大数据分析平台的关键技术,重点介绍了Spark技术的体系架构及核心组件,最后介绍了大数据技术在大规模制造业、零售业和智能电网三个领域的应用案例。 展开更多
关键词 大数据平台 大数据分析 大数据应用 内存计算
下载PDF
基于Spark的并行关联规则挖掘算法研究综述 被引量:29
16
作者 刘莉萍 章新友 +2 位作者 牛晓录 郭永坤 丁亮 《计算机工程与应用》 CSCD 北大核心 2019年第9期1-9,共9页
关联规则挖掘是数据挖掘的一个重要分支,但随着数据的快速增长,传统关联规则挖掘算法不能很好地适应大数据的要求,需要在分布式、并行计算的平台上寻找突破。Spark是专门为大数据处理而设计的一个适合迭代运算的并行计算模型,相比MapRed... 关联规则挖掘是数据挖掘的一个重要分支,但随着数据的快速增长,传统关联规则挖掘算法不能很好地适应大数据的要求,需要在分布式、并行计算的平台上寻找突破。Spark是专门为大数据处理而设计的一个适合迭代运算的并行计算模型,相比MapReduce具有更高效、充分利用内存、更适合迭代计算和交互式处理的优点。对已有的基于Spark的并行关联规则挖掘算法进行了分类和综述,并总结了各自的优缺点和适用范围,为下一步的研究提供参考。 展开更多
关键词 spark 并行 关联规则挖掘 APRIORI FP-GROWTH
下载PDF
基于云计算的数据挖掘系统设计 被引量:28
17
作者 蓝机满 《电子科技》 2019年第8期70-74,共5页
为了高效、快速地解决呈指数增长的数据处理问题,提高数据储存、运算能力,文中提出了基于云计算的数据挖掘系统的设计。该系统首先分析了主流云计算平台Spark的组件构成和运行机制,深入研究其计算架构的编程原理。同时利用Spark进行了C... 为了高效、快速地解决呈指数增长的数据处理问题,提高数据储存、运算能力,文中提出了基于云计算的数据挖掘系统的设计。该系统首先分析了主流云计算平台Spark的组件构成和运行机制,深入研究其计算架构的编程原理。同时利用Spark进行了C4.5算法和K-medoids聚类算法的并行化设计,有效提高算法的运行速度、收敛速度和结果的稳定性。测试表明,在进行海量数据的分析处理时,文中提出的云计算平台在分类误差内,可有效提高整体系统的运算速度,分类效率也大幅提高。 展开更多
关键词 云计算 数据挖掘 spark C4.5算法 K-medoids聚类算法
下载PDF
基于Spark的电力设备在线监测数据可视化方法 被引量:27
18
作者 曲朝阳 熊泽宇 +2 位作者 颜佳 辛鹏 曲楠 《电工电能新技术》 CSCD 北大核心 2016年第11期72-80,共9页
大数据可视化可以实现海量电力设备在线监测数据中各种属性、运行状态等电力特征信息的图形、图像化直观呈现,为设备运行状态的及时有效监控分析提供有力保障。因此,本文提出一种基于Spark的电力设备在线监测数据可视化方法,为实现大数... 大数据可视化可以实现海量电力设备在线监测数据中各种属性、运行状态等电力特征信息的图形、图像化直观呈现,为设备运行状态的及时有效监控分析提供有力保障。因此,本文提出一种基于Spark的电力设备在线监测数据可视化方法,为实现大数据环境下的电力设备在线监测数据的状态信息快速提取,在Spark大数据计算平台上,建立了基于设备状态评估指标体系与模糊C均值聚类(FCM)的电力设备状态信息提取算法。针对数据的多维、时序特性,构建三维平行散点图的数据可视化展现形式,实现电力设备在线监测数据信息全貌的可视化展现。将该方法运用于吉林省某风电场的风电机组在线监测数据集,实验结果证明了该方法的有效性。 展开更多
关键词 spark 电力大数据 信息可视化 在线监测
下载PDF
基于Spark的并行化组合测试用例集生成方法 被引量:24
19
作者 戚荣志 王志坚 +1 位作者 黄宜华 李水艳 《计算机学报》 EI CSCD 北大核心 2018年第6期1284-1299,共16页
软件系统的正常运行受很多因素影响,各种因素及其相互作用可能引发软件故障,需要设计测试用例检测这些故障.如果因素数量较多且取值情况较复杂,则所需测试用例的数量将非常庞大.如何设计规模较小的用例集是测试用例生成研究的一个关键问... 软件系统的正常运行受很多因素影响,各种因素及其相互作用可能引发软件故障,需要设计测试用例检测这些故障.如果因素数量较多且取值情况较复杂,则所需测试用例的数量将非常庞大.如何设计规模较小的用例集是测试用例生成研究的一个关键问题.组合测试能够从待测软件的大规模组合空间中,生成小规模的用例集,实现对各因素取值组合的充分覆盖.已有研究表明,组合测试的最小测试用例集生成问题是一个NP完全问题.目前已有一些研究尝试使用启发式搜索算法生成尽可能小的用例集.启发式搜索算法将组合测试用例集生成问题转化为搜索问题,并使用元启发式算法生成用例集.启发式搜索算法通常能够生成较小规模的用例集,但需要较长的计算时间.为了解决这个问题,文中提出了一种基于Spark的岛模型并行化遗传算法,利用Hadoop分布式文件系统实现了Spark运行节点间交换信息的方法,进而实现个体在子种群间的迁移.该算法首先从初始种群创建Spark的弹性分布式数据集;然后,将该数据集划分为多个子种群分布到集群的多个节点中;接着,各个子种群在各自的节点上计算适应度函数值和独立进化,并每隔一定的进化代数选择一些个体在各个子种群间迁移,提高了种群的多样性以及搜索最优解的有效性和性能;最后,算法返回满足覆盖准则的最优测试用例集.这种基于Spark的并行化遗传算法是大规模并行化在组合测试用例集生成方面的一个有效尝试.在实验部分,首先对文中提出的并行化算法进行系统的参数调整,给出适合组合测试用例集生成的推荐参数配置;接着将文中所提算法与串行遗传算法和独立运行遗传算法进行比较.实验结果表明,文中所提算法在生成用例集规模和消耗时间上均显著优于这两个算法.在运行所选实例时,该算法比串行算法加速约4至30倍,� 展开更多
关键词 组合测试 测试用例集生成 并行化遗传算法 岛模型 spark
下载PDF
基于Spark的大数据聚类研究及系统实现 被引量:24
20
作者 王磊 邹恩岑 +2 位作者 曾诚 奚雪峰 陆悠 《数据采集与处理》 CSCD 北大核心 2018年第6期1077-1085,共9页
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不... 传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。 展开更多
关键词 spark 聚类 大数据
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部