期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
大数据处理技术在风电机组齿轮箱故障诊断与预警中的应用 被引量:64
1
作者 张少敏 毛冬 王保义 《电力系统自动化》 EI CSCD 北大核心 2016年第14期129-134,共6页
风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障... 风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障诊断与预警模型。以齿轮箱故障诊断与预警为例阐释该模型,引入了Storm处理状态监测数据流,设计了流数据处理的Topology结构;引入Spark,利用弹性分布式数据集(RDD)编程模型实现了朴素贝叶斯(NB)算法和反向传播(BP)算法对设备状态信息进行故障诊断与预测。实验结果显示,该故障诊断与预测方法在保证精度的前提下具有较好的加速比,也证明了该故障诊断与预警模型的有效性和可行性。 展开更多
关键词 风电机组 故障诊断 故障预警 弹性分布式数据 内存批处理 数据处理
下载PDF
Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark 被引量:21
2
作者 LIU Peng ZHAO Hui-han +3 位作者 TENG Jia-yu YANG Yan-yan LIU Ya-feng ZHU Zong-wei 《Journal of Central South University》 SCIE EI CAS CSCD 2019年第1期1-12,共12页
The sharp increase of the amount of Internet Chinese text data has significantly prolonged the processing time of classification on these data.In order to solve this problem,this paper proposes and implements a parall... The sharp increase of the amount of Internet Chinese text data has significantly prolonged the processing time of classification on these data.In order to solve this problem,this paper proposes and implements a parallel naive Bayes algorithm(PNBA)for Chinese text classification based on Spark,a parallel memory computing platform for big data.This algorithm has implemented parallel operation throughout the entire training and prediction process of naive Bayes classifier mainly by adopting the programming model of resilient distributed datasets(RDD).For comparison,a PNBA based on Hadoop is also implemented.The test results show that in the same computing environment and for the same text sets,the Spark PNBA is obviously superior to the Hadoop PNBA in terms of key indicators such as speedup ratio and scalability.Therefore,Spark-based parallel algorithms can better meet the requirement of large-scale Chinese text data mining. 展开更多
关键词 Chinese text classification naive Bayes SPARK HADOOP resilient distributed dataset PARALLELIZATION
下载PDF
并行计算框架Spark的自适应缓存管理策略 被引量:18
3
作者 卞琛 于炯 +1 位作者 英昌甜 修位蓉 《电子学报》 EI CAS CSCD 北大核心 2017年第2期278-284,共7页
并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选... 并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG(Directed Acyclic Graph)结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用. 展开更多
关键词 并行计算 缓存管理策略 SPARK 弹性分布式数据
下载PDF
大数据处理技术在风电机组状态监测中的应用 被引量:12
4
作者 梁涛 许琰 +1 位作者 李燕超 杨改文 《水力发电》 北大核心 2019年第8期107-110,125,共5页
随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。... 随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。根据状态监测数据的特点,引入了大数据处理技术中的Spark和Storm。实验结果显示,该状态监测模型有着较好的数据吞吐能力和加速比,也证明了该模型的有效性和可行性。 展开更多
关键词 内存批处理 数据处理 风电机组 状态监测 弹性分布式数据
下载PDF
Spark框架中RDD缓存替换策略优化 被引量:9
5
作者 陈天宇 张龙信 +1 位作者 李肯立 周立前 《小型微型计算机系统》 CSCD 北大核心 2019年第6期1248-1253,共6页
Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使... Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使用RDD分片而忽略其它因素.基于RDD权重值改进后的WR缓存替换策略侧重于RDD的权值替换,在此研究基础上,本文提出了缓存权重替换(CWS)策略,优化选择策略,并在替换阶段考虑了历史访问次数与计算成本.本文的实验使用斯坦福大学提供的公开网络分析项目进行测试,实验结果表明CWS策略在充足内存条件下处理较小数据的平均执行时间高于WR算法2. 4%,内存占用率相比降低36%. 展开更多
关键词 缓存策略 SPARK 弹性分布式数据 内存计算
下载PDF
大数据处理平台比较与分析 被引量:8
6
作者 何海林 皮建勇 《微型机与应用》 2015年第11期7-9,17,共4页
虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念... 虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念与设计思想,然后介绍了Spark的基本概念与思想,并且着重介绍了弹性分布式数据集RDD,并通过实验证明和分析对比了Hadoop与Spark。 展开更多
关键词 HADOOP MAP REDUCE HDFS SPARK 弹性分布式数据
下载PDF
并行计算框架Spark中一种新的RDD分区权重缓存替换算法 被引量:8
7
作者 刘恒 谭良 《小型微型计算机系统》 CSCD 北大核心 2018年第10期2279-2284,共6页
并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重... 并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重值计算不准确,考虑因素不全面,度量方法不够细致,影响了缓存的命中率和作业执行的效率.提出一种新的RDD分区的权重缓存替换算法——WCSRP.为了使RDD分区权重值的计算更加准确,WCSRP不仅综合考虑RDD的计算代价、使用次数、分区的大小和生命周期四大因素对权重的影响,而且还增加考虑了Task执行时Locality Level这个因素,并对以上五个因素进行了量化计算.实验结果表明WCSRP算法让RDD分区权重值的计算更准确,提高了内存资源利用率和作业执行效率. 展开更多
关键词 SPARK 弹性分布式数据 缓存替换策略 并行计算 RDD缓存
下载PDF
一种基于内存计算的电力用户聚类分析方法 被引量:7
8
作者 王德文 孙志伟 《智能系统学报》 CSCD 北大核心 2015年第4期569-576,共8页
随着智能电表与采集终端采集的用电数据迅猛增长,传统数据分析方法已经不能满足大数据环境下智能用电行为分析的需要。鉴于K-means算法具有计算效率高、容易并行化等特点,采用弹性分布式数据集与并行内存计算框架对其进行改进与并行化,... 随着智能电表与采集终端采集的用电数据迅猛增长,传统数据分析方法已经不能满足大数据环境下智能用电行为分析的需要。鉴于K-means算法具有计算效率高、容易并行化等特点,采用弹性分布式数据集与并行内存计算框架对其进行改进与并行化,减少作业的运行与输入输出操作时间,提高聚类分析的处理能力。对用电测量数据进行预处理构建实验数据集,实验结果表明本方法对电力用户聚类分析的准确率高于单机K-means方法,其处理速度和能力明显优于单机和基于Map Reduce并行计算框架的聚类方法,并对数据的增长具有较好的适应性。 展开更多
关键词 数据 智能用电 弹性分布式数据 内存计算 聚类分析
下载PDF
基于Spark的近地表速度模型快速层析反演 被引量:5
9
作者 陈金焕 《石油物探》 CSCD 北大核心 2022年第1期146-155,共10页
近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近... 近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近地表速度模型层析反演方法,采用分布式内存管理技术将迭代中重复计算的数据持久化至内存中,提高程序运行效率。同时,为了解决共享存储中随着节点规模扩大而产生网络I/O堵塞的瓶颈问题,在分布式存储环境下组织弹性分布式数据集(RDD),设计基本规约单位为深度方向的一维反演数据,基于Spark Shuffle在规约过程中分布并行规约,利用Spark调度器在各个进程中分配任务,实现并行计算。实际数据计算结果表明:在反演结果精度不变的情况下,相对于常规MPI并行技术,该实现方法能够大幅度降低迭代过程中产生的网络I/O;当计算节点较多时,计算效率能够提高4倍以上;并行加速比呈现类线性增长趋势。 展开更多
关键词 近地表层析反演 迭代计算 Spark并行 弹性分布式数据 规约基本单元
下载PDF
基于弹性分布数据集的海量空间数据密度聚类 被引量:5
10
作者 李璐明 蒋新华 廖律超 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第8期116-124,共9页
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并... 为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能. 展开更多
关键词 空间数据 聚类算法 弹性分布式数据 SPARK
下载PDF
基于RDD的分布式粒子群优化算法 被引量:4
11
作者 程磊生 吴志健 +3 位作者 彭虎 吴双可 邓长寿 王则林 《小型微型计算机系统》 CSCD 北大核心 2016年第11期2542-2546,共5页
在演化计算领域,粒子群优化算法具有易实现、收敛快、调参少等优点.但是随着问题规模的增大,粒子群优化算法易陷入求解精度不高、耗时过长的窘态,因此本文提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的分布式粒... 在演化计算领域,粒子群优化算法具有易实现、收敛快、调参少等优点.但是随着问题规模的增大,粒子群优化算法易陷入求解精度不高、耗时过长的窘态,因此本文提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的分布式粒子群优化算法.该算法采用岛模型将种群分解为若干个岛屿,即子种群,然后使用RDD并行数据结构将整个种群并行化,使得每个岛屿对应RDD中的一个分区,借助RDD的分区并行,实现了粒子群优化算法在分布式平台上的并行.最后,对包括单峰函数和多峰函数在内的11个标准测试函数,将该算法与多种改进的PSO算法进行了比较实验与分析,结果表明该算法求解精度高且加速效果明显. 展开更多
关键词 粒子群优化 弹性分布式数据 岛模型 并行计算
下载PDF
SparkDE:一种基于RDD云计算模型的并行差分进化算法 被引量:4
12
作者 谭旭杰 邓长寿 +3 位作者 董小刚 袁斯昊 吴志健 彭虎 《计算机科学》 CSCD 北大核心 2016年第9期116-119,139,共5页
云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集... 云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集(RDD)是一种基于内存的集群计算模型,有效地支持迭代运算,能够克服负载过大的问题。因此提出基于RDD模型的并行差分进化算法SparkDE。SparkDE首先将整个种群划分为若干个独立岛,然后将一个岛对应RDD中的一个分区,每个岛在RDD的一个分区中独立进化指定代数后,利用迁移算子在岛之间交换信息。利用标准测试问题对SparkDE、基于MapReduce模型的MRDE和基本DE进行对比实验研究。实验结果表明SparkDE求解精度高,计算速度快,加速效果明显,可以作为云计算平台的下一代优化器。 展开更多
关键词 并行差分进化算法 岛模型 弹性分布式数据 转换操作 控制操作
下载PDF
Spark中一种高效RDD自主缓存替换策略研究 被引量:4
13
作者 魏赟 丁宇琛 《计算机应用研究》 CSCD 北大核心 2020年第10期3043-3047,共5页
由于并行计算框架Spark缓存替换算法的粗糙性,LRU(least recently used)算法并未考虑RDD的重复使用导致易把高重用数据块替换出内存且作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(effic... 由于并行计算框架Spark缓存替换算法的粗糙性,LRU(least recently used)算法并未考虑RDD的重复使用导致易把高重用数据块替换出内存且作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(efficient RDD automatic cache,ERAC),包括高重用自主缓存算法和缓存替换分级算法,可实现高效RDD的自主缓存和缓存目标的分级替换。最后利用SNAP(Stanford Network Analysis Project)提供的标准数据集将ERAC和LRU、RA(register allocation)等算法进行了对比实验,结果显示ERAC算法能够有效提高Spark的内存利用率和任务执行效率。 展开更多
关键词 SPARK 弹性分布式数据 缓存替换 内存资源利用
下载PDF
Apache Spark技术研究与应用前景分析 被引量:3
14
作者 李玮 《电信技术》 2016年第9期67-68,71,共3页
介绍Spark的关键技术——弹性分布式数据集及其主要的体系架构,总结Spark的应用场景,简要分析Spark未来发展以及它与Hadoop之间的关系。
关键词 分布式计算 MAPREDUCE SPARK 弹性分布式数据
下载PDF
Spark大数据计算平台 被引量:3
15
作者 姜学军 武枫 黄海新 《电子世界》 2018年第15期82-82,84,共2页
随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程... 随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程模型不仅操作单一,抽象层次较低难以上手,而且延时高,难以支持交互式数据处理和实时数据处理,加之其中间结果需存入HDFS对于迭代数据处理性能较差。Spark作为一个新兴的大数据梳理的引擎,除了提供了包括Map Reduce在内的几十个算子,还提供了一个集群的分布式内存抽象,避免频繁使用IO操作并大大提高迭代速度。同时在现实世界大数据应用复杂多样的背景下,Spark丰富的生态圈使得Spark可以轻易的适用于各种场景。 展开更多
关键词 数据 SPARK 弹性分布式数据 Spark生态圈
下载PDF
基于Spark的CVFDT分类算法并行化研究 被引量:3
16
作者 庄荣 李玲娟 《计算机技术与发展》 2018年第6期35-38,共4页
以提升流数据的分类挖掘效率为目标,研究将概念适应快速决策树算法(CVFDT)部署到流数据计算平台Spark上进行并行化的方案。设计了CVFDT基于Spark的并行化实现方案,首先对CVFDT算法进行属性间并行化改造,即分割点计算过程中的并行化;然... 以提升流数据的分类挖掘效率为目标,研究将概念适应快速决策树算法(CVFDT)部署到流数据计算平台Spark上进行并行化的方案。设计了CVFDT基于Spark的并行化实现方案,首先对CVFDT算法进行属性间并行化改造,即分割点计算过程中的并行化;然后基于Spark在CVFDT的建树过程中将节点的所有属性列表转化为Spark特有的弹性分布式数据集RDD,通过计算由每个RDD生成的并行化任务,汇总并且比较每个最佳分割点,再计算Hoeffding边界作为节点分裂条件找到最佳分割点,从而递归创建决策树。实验结果表明,在Spark集群环境下,CVFDT算法的分类效率相对于单机环境有显著提高,改进后的并行化CVFDT算法对大规模流数据处理有良好的适应能力,而且合理设定RDD过滤可使分类效率进一步提高。 展开更多
关键词 数据 CVFDT 并行化 SPARK 弹性分布式数据
下载PDF
基于Spark的通用后缀树并行构造算法 被引量:3
17
作者 高可攀 周经亚 《福建电脑》 2018年第5期4-7,共4页
通用后缀树因其优良的结构特征被广泛应用于序列匹配、最长公共子序列查找等场合。在大数据时代,待处理序列的规模往往十分庞大,这给通用后缀树的构造带来巨大挑战。为应对这一挑战,本文提出一种并行分布式的通用后缀树构造算法。该算... 通用后缀树因其优良的结构特征被广泛应用于序列匹配、最长公共子序列查找等场合。在大数据时代,待处理序列的规模往往十分庞大,这给通用后缀树的构造带来巨大挑战。为应对这一挑战,本文提出一种并行分布式的通用后缀树构造算法。该算法采用子树划分与合并的思想,将构造过程分解为多个子任务并行执行,算法基于Spark平台设计实现,字符序列以弹性分布式数据集(RDD)形式存储,任务在RDD上分布式执行。基于真实数据集的实验表明,对数十亿字符序列构造通用后缀树,其构造过程可在7分钟内完成,由此可见,本文所提算法可高效解决大规模通用后缀树构造问题。 展开更多
关键词 通用后缀树 SPARK 弹性分布式数据 子树划分 子树合并 构造算法
下载PDF
基于Spark的动作识别特征提取 被引量:3
18
作者 荆于勤 夏书银 《西南师范大学学报(自然科学版)》 CAS 2021年第7期135-139,共5页
针对大规模动作识别时间长、识别精度低等问题,本文提出基于Spark框架的特征提取并行解决方法,利用Spark的内存计算能力,将视频数据分割成视频或帧,并将其放置到弹性分布式数据集(Resilient Distributed Datasets Sets,RDDS)中进行后续... 针对大规模动作识别时间长、识别精度低等问题,本文提出基于Spark框架的特征提取并行解决方法,利用Spark的内存计算能力,将视频数据分割成视频或帧,并将其放置到弹性分布式数据集(Resilient Distributed Datasets Sets,RDDS)中进行后续处理,针对主流的深度学习特征提取方法:轨迹池深度卷积描述符(Trajectory-Pooled Deep-Convolutional Descriptors,TDD)、潜在概念描述符(Latent Concept Descriptor,LCD)和改进密集轨迹(Improved Dense Trajectories,IDT),给出分布式并行算法,并设计了局部特征聚合描述符(Vector Of Locally Aggregated Descriptors,VLAD)分布式编码算法,将提取的特征聚合到全局表示中,然后输入到深度学习模型分类器中识别视频中的动作.实验结果表明:本文方法提高了人类动作识别的实时性,且LCD在识别精度和处理时间之间的权衡优于其他几种方法. 展开更多
关键词 SPARK 弹性分布式数据 特征提取 深度学习 动作识别
下载PDF
基于RDDs的分布式聚类集成算法 被引量:2
19
作者 王韬 杨燕 +1 位作者 滕飞 冯晨菲 《小型微型计算机系统》 CSCD 北大核心 2016年第7期1434-1439,共6页
在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resil... 在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDDs)的分布式聚类集成算法(Dis CE).该算法首先设计一个基于RDDs的分布式邻接表,解决关联数据在分布式环境中的表示和存储;其次利用分布式的共识函数模型,综合几个海量基聚类结果并用分布式邻接表表示;最后运用改进的分布式近邻传播算法(MDAP),划分分布式邻;接表为最终的聚类结果.实验结果表明,新提出的算法对数据规模有很好的适应性,在有效提高聚类结果质量的同时可大幅减少运行时间. 展开更多
关键词 聚类 分布式计算 弹性分布式数据
下载PDF
基于Spark Streaming的快速视频转码方法 被引量:2
20
作者 付眸 杨贺昆 +3 位作者 吴唐美 何润 冯朝胜 康胜 《计算机应用》 CSCD 北大核心 2018年第12期3500-3508,共9页
针对单机视频转码方法转码速度较慢和面向批处理的并行转码方法效率提升有限的问题,基于Spark Streaming分布式流处理框架,提出了一种面向流处理的快速视频转码方法。首先,使用开源多媒体处理工具FFmpeg,构建了自动化的视频切片模型,提... 针对单机视频转码方法转码速度较慢和面向批处理的并行转码方法效率提升有限的问题,基于Spark Streaming分布式流处理框架,提出了一种面向流处理的快速视频转码方法。首先,使用开源多媒体处理工具FFmpeg,构建了自动化的视频切片模型,提出编程算法;然后,针对并行视频转码的特点,对弹性分布式数据集(RDD)进行研究,构建了视频转码的流处理模型;最后,设计视频合并方案,将合并后的视频文件进行有效储存。根据所提出的快速视频转码方法设计与实现了基于Spark Streaming的快速视频转码系统。实验结果表明,与面向批处理Hadoop视频转码方法相比,所提方法转码效率提升了26. 7%;与基于Hadoop平台的视频并行转码方法相比,该方法转码效率提升了20. 1%。 展开更多
关键词 视频转码 SparkStreaming 分布式流处理 FFMPEG 弹性分布式数据
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部