期刊文献+
共找到96篇文章
< 1 2 5 >
每页显示 20 50 100
基于Spark框架的能源互联网电力能源大数据清洗模型 被引量:25
1
作者 曲朝阳 张艺竞 +1 位作者 王永文 赵莹 《电测与仪表》 北大核心 2018年第2期39-44,共6页
对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于... 对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正。通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性。 展开更多
关键词 能源大数据 数据清洗 异常识别 异常修正 spark框架
下载PDF
基于Spark框架的电网运行异常数据辨识与修正方法 被引量:23
2
作者 曲朝阳 朱润泽 +3 位作者 曲楠 曹令军 吕洪波 胡可为 《科学技术与工程》 北大核心 2019年第25期211-219,共9页
由于电网运行数据具有多源、异构、高维等典型大数据特征,使得传统检测方法已无法实现异常数据高效辨识;因此提出一种基于Spark框架的电网运行异常数据辨识与修正新方法。首先,提出了并行化最小生成树方法对待检测数据进行初始聚类;在... 由于电网运行数据具有多源、异构、高维等典型大数据特征,使得传统检测方法已无法实现异常数据高效辨识;因此提出一种基于Spark框架的电网运行异常数据辨识与修正新方法。首先,提出了并行化最小生成树方法对待检测数据进行初始聚类;在此基础上结合并行K-means算法对数据进行二次聚类实现异常数据辨识;然后,在Spark框架下设计了基于径向基函数(RBF)神经网络的异常数据修正模型,实现对异常数据修正。最后,利用某省调度中心SCADA数据对方法的有效性进行了验证,结果表明所提方法能够有效处理电网运行异常数据,具有实际应用价值。 展开更多
关键词 电网运行异常数据 spark框架 最小生成树 K-MEANS RBF神经网络
下载PDF
基于Spark框架的FP-Growth大数据频繁项集挖掘算法 被引量:12
3
作者 邵梁 何星舟 尚俊娜 《计算机应用研究》 CSCD 北大核心 2018年第10期2932-2935,共4页
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集... 针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集;接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸;最后,通过迭代过程来生成频繁k-项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。 展开更多
关键词 大数据 频繁项集挖掘 spark框架 FP-GROWTH算法 垂直布局
下载PDF
大数据技术及其行业应用:基于铁路领域的概念框架研究 被引量:12
4
作者 马丽梅 史丹 +1 位作者 高志远 李华杰 《北京交通大学学报(社会科学版)》 CSSCI 2019年第3期58-67,共10页
在对大数据关键技术架构进行总结,对数据获取、数据处理、数据分析模型和数据应用进行描述的基础上,利用大数据关键技术平台,构建铁路大数据应用的体系架构,该体系框架包括铁路数据获取层、平台层和应用层,并刻画铁路大数据的处理流程... 在对大数据关键技术架构进行总结,对数据获取、数据处理、数据分析模型和数据应用进行描述的基础上,利用大数据关键技术平台,构建铁路大数据应用的体系架构,该体系框架包括铁路数据获取层、平台层和应用层,并刻画铁路大数据的处理流程。铁路大数据体系结构的建立将促进大数据技术在我国铁路行业的落地生效,全面提升铁路数据资源的经营开发水平,为铁路提高运输安全水平、实现客货运精准营销、提高运输效率提供参考。应结合铁路发展的需求,强化顶层设计,充分借鉴其他行业大数据应用经验,分阶段分步骤实施铁路大数据策略。 展开更多
关键词 工业大数据 spark框架 大数据产业 铁路大数据
下载PDF
基于Spark框架的电力大数据清洗模型 被引量:10
5
作者 王冲 邹潇 《电测与仪表》 北大核心 2017年第14期33-38,共6页
针对电力大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的电力大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基... 针对电力大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的电力大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正。通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性。 展开更多
关键词 电力大数据 数据清洗 异常识别 异常修正 spark框架
下载PDF
面向大数据处理的基于Spark的异质内存编程框架 被引量:9
6
作者 王晨曦 吕方 +4 位作者 崔慧敏 曹婷 John Zigman 庄良吉 冯晓兵 《计算机研究与发展》 EI CSCD 北大核心 2018年第2期246-264,共19页
随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量... 随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory,NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如何合理布局数据到异质内存是一个关键的研究问题.系统分析了Spark应用的访存特征,并结合OpenJDK的内存使用特点,提出了一套管理数据在DRAM和NVM之间布局的编程框架.应用开发者通过对本文提供接口的简单调用,便可将数据合理布局在异质内存之中.仅需20%~25%的DRAM和大量的NVM,便可以达到使用等量的DRAM时90%左右的性能.该框架可以通过有效利用异质内存来满足内存计算不断增长的计算规模.同时,"性能/价格"比仅用DRAM时提高了数倍. 展开更多
关键词 内存计算 spark 异质内存 非易失性内存 编程框架
下载PDF
基于分布式数据集的并行计算框架内存优化方法 被引量:4
7
作者 夏立斌 刘晓宇 +1 位作者 姜晓巍 孙功星 《计算机工程》 CAS CSCD 北大核心 2023年第4期43-51,共9页
随着科学计算和人工智能技术的快速发展,分布式环境下的并行计算已成为解决大规模理论计算和数据处理问题的重要手段。内存容量的提高以及迭代算法的广泛应用,使得以Spark为代表的内存计算技术愈发成熟。但是,当前主流的分布式内存模型... 随着科学计算和人工智能技术的快速发展,分布式环境下的并行计算已成为解决大规模理论计算和数据处理问题的重要手段。内存容量的提高以及迭代算法的广泛应用,使得以Spark为代表的内存计算技术愈发成熟。但是,当前主流的分布式内存模型和计算框架难以兼顾易用性和计算性能,并且在数据格式定义、内存分配、内存使用效率等方面存在不足。提出一种基于分布式数据集的并行计算方法,分别从模型理论和系统开销两个角度对内存计算进行优化。在理论上,通过对计算过程进行建模分析,以解决Spark在科学计算环境下表达能力不足的问题,同时给出计算框架的开销模型,为后续性能优化提供支持。在系统上,提出一种框架级的内存优化方法,该方法主要包括对跨语言分布式内存数据集的重构、分布式共享内存的管理、消息传递过程的优化等模块。实验结果表明,基于该优化方法实现的并行计算框架可以显著提升数据集的内存分配效率,减少序列化/反序列化开销,缓解内存占用压力,应用测试的执行时间相比Spark减少了69%~92%。 展开更多
关键词 内存计算 并行计算 内存优化 spark框架 消息传递接口
下载PDF
基于Spark的并行FP-Growth算法优化与实现 被引量:8
8
作者 陆可 桂伟 +1 位作者 江雨燕 杜萍萍 《计算机应用与软件》 2017年第9期273-278,共6页
频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集... 频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集下频繁模式挖掘展开研究,基于Spark框架,通过对支持度计数和分组过程的优化改进了FP-Growth算法,并实现了算法的分布式计算和计算资源的动态分配。运算过程中产生的中间结果均保存在内存中,因此有效减少数据的I/O消耗,提高算法的运行效率。实验结果表明,经优化后的算法在面向大规模数据时要优于传统的FP-Growth算法。 展开更多
关键词 频繁模式挖掘 FP-GROWTH算法 分布式计算 spark框架
下载PDF
分布式环境下时态大数据的连接操作研究 被引量:7
9
作者 张伟 王志杰 《计算机工程》 CAS CSCD 北大核心 2019年第3期20-25,31,共7页
目前处理时态大数据连接操作多数运用分布式系统,但现有的分布式系统尚不能支持原生的时态连接查询,无法满足时态大数据低延迟和高吞吐量的处理需求。为此,提出一个基于Spark的二级索引内存解决方案。运用全局索引进行分布式分区的剪枝... 目前处理时态大数据连接操作多数运用分布式系统,但现有的分布式系统尚不能支持原生的时态连接查询,无法满足时态大数据低延迟和高吞吐量的处理需求。为此,提出一个基于Spark的二级索引内存解决方案。运用全局索引进行分布式分区的剪枝,使用局部时态索引进行分区内查询,提高数据检索效率。针对时态数据设计分区方法,以对全局剪枝进行优化。基于真实和合成数据集的实验结果表明,与基准方案相比,该方案可明显提高时态连接操作的处理效率。 展开更多
关键词 时态大数据 分布式内存计算 时态连接 二级索引 分区方法 spark框架
下载PDF
基于互信息和融合加权的并行深度森林算法 被引量:1
10
作者 毛伊敏 李文豪 《计算机应用研究》 CSCD 北大核心 2024年第2期473-481,共9页
针对大数据环境下并行深度森林算法中存在不相关及冗余特征过多、多粒度扫描不平衡、分类性能不足以及并行化效率低等问题,提出了基于互信息和融合加权的并行深度森林算法(parallel deep forest algorithm based on mutual information ... 针对大数据环境下并行深度森林算法中存在不相关及冗余特征过多、多粒度扫描不平衡、分类性能不足以及并行化效率低等问题,提出了基于互信息和融合加权的并行深度森林算法(parallel deep forest algorithm based on mutual information and mixed weighting,PDF-MIMW)。首先,在特征降维阶段提出了基于互信息的特征提取策略(feature extraction strategy based on mutual information,FE-MI),结合特征重要性、交互性和冗余性度量过滤原始特征,剔除过多的不相关和冗余特征;接着,在多粒度扫描阶段提出了基于填充的改进多粒度扫描策略(improved multi-granularity scanning strategy based on padding,IMGS-P),对精简后的特征进行填充并对窗口扫描后的子序列进行随机采样,保证多粒度扫描的平衡;其次,在级联森林构建阶段提出了并行子森林构建策略(sub-forest construction strategy based on mixed weighting,SFC-MW),结合Spark框架并行构建加权子森林,提升模型的分类性能;最后,在类向量合并阶段提出基于混合粒子群算法的负载均衡策略(load balancing strategy based on hybrid particle swarm optimization algorithm,LB-HPSO),优化Spark框架中任务节点的负载分配,降低类向量合并时的等待时长,提高模型的并行化效率。实验表明,PDF-MIMW算法的分类效果更佳,同时在大数据环境下的训练效率更高。 展开更多
关键词 spark框架 并行深度森林 互信息 负载均衡
下载PDF
基于Spark平台的分类算法性能比较分析
11
作者 赵蕾 夏吉安 +1 位作者 吴洋 崔辉 《计算机与数字工程》 2024年第3期688-691,704,共5页
针对目前大数据与机器学习技术的快速发展,使用基于Spark平台的MLlib机器学习库实现前馈神经网络(Feedforward Artificial Neural Network)、支持向量机(Support Vector Machine)与随机森林(Random Forest)三种机器学习算法,并分析与评... 针对目前大数据与机器学习技术的快速发展,使用基于Spark平台的MLlib机器学习库实现前馈神经网络(Feedforward Artificial Neural Network)、支持向量机(Support Vector Machine)与随机森林(Random Forest)三种机器学习算法,并分析与评估三种算法在大数据平台下的运行与分类性能。实验结果表明,随着节点数的增加,三种算法在大数据平台上消耗的时间都逐步变少。当数据集小于100MB时神经网络与支持向量机算法加速比较高,数据集大于1GB时随机森林算法加速比优于其他两种算法。神经网络算法在数据集100MB时可扩展性最小,支持向量机算法在数据集500MB时可扩展性最小。随机森林算法在数据集大于1GB时规模增长性优于其他两种算法。通过对于三种分类算法的时间效率与准确性比较,支持向量机算法消耗的时间最少,但是分类准确性最低。神经网络算法消耗的时间最长,分类准确性低于随机森林算法。随机森林算法的分类准确性最高,但是算法运行时间高于支持向量机算法。集成分类算法在大数据平台上表现出较好的时间性能与分类准确性。 展开更多
关键词 大数据 Hadoop框架 spark框架 机器学习 性能评估
下载PDF
基于Spark和NRSCA策略的并行深度森林算法
12
作者 毛伊敏 刘绍芬 《计算机应用研究》 CSCD 北大核心 2024年第1期126-133,共8页
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher ... 针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。 展开更多
关键词 并行深度森林算法 spark框架 邻域粗糙集 正弦余弦算法 多粒度扫描
下载PDF
基于Spark框架和ASPSO的并行划分聚类算法 被引量:5
13
作者 毛伊敏 甘德瑾 +1 位作者 廖列法 陈志刚 《通信学报》 EI CSCD 北大核心 2022年第3期148-163,共16页
针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法... 针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法。首先,提出了基于皮尔逊相关系数和方差的网格划分策略获取数据离散系数较小的网格单元并进行离群点过滤,解决了数据离散系数较大与抗干扰性差的问题;其次,提出了基于势函数与高斯函数的网格划分策略,获取局部聚类的簇数,解决了局部簇簇数难以确定的问题;再次,提出了ASPSO获取局部簇质心,解决了局部簇质心的随机性问题;最后,提出了基于簇半径与邻居节点的合并策略对相似度大的簇进行并行化合并,提高了局部簇并行化合并的效率。实验结果表明,PDC-SFASPSO算法在大数据环境下进行数据的划分聚类具有较好的性能表现,适用于对大规模的数据集进行并行化聚类。 展开更多
关键词 spark框架 并行划分聚类 网格划分 粒子群优化自适应策略 并行化合并
下载PDF
基于Spark的主动重叠K-means聚类算法 被引量:6
14
作者 柴变芳 李有熠 《微电子学与计算机》 2021年第1期70-76,共7页
别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换,导致算法运行效率低;对初始聚类中心敏感,导致聚类结果不稳定且收敛速度慢.为提高算法运行效率和结果稳定性,提出了一种主动重叠K-means聚类算法.其在... 别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换,导致算法运行效率低;对初始聚类中心敏感,导致聚类结果不稳定且收敛速度慢.为提高算法运行效率和结果稳定性,提出了一种主动重叠K-means聚类算法.其在各个分区上执行重叠K-means算法获得局部聚类中心,将结果汇总回收到Master节点,在Master节点运行重叠K-means算法聚合所有聚类中心,作为最终聚类中心;同时采用并行化主动选择策略获得更优的初始簇中心,提高算法准确性、收敛速度.实验结果表明,改进后的主动重叠聚类算法提高了算法准确性,降低了算法运行时间. 展开更多
关键词 spark框架 主动学习 重叠聚类 并行计算
下载PDF
基于Spark的并行频繁项集挖掘算法 被引量:2
15
作者 毛伊敏 吴斌 +1 位作者 许春冬 张茂省 《计算机集成制造系统》 EI CSCD 北大核心 2023年第4期1267-1283,共17页
针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(... 针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(SNMF),通过提供支持度计数查询和分解储存支持度计数的矩阵,解决了创建条件FP-tree的时空效率低的问题;其次,提出基于遗传算法的分组策略(GS-GA),均衡分配频繁1项集至各节点,解决了节点间的通信开销大的问题;最后,提出高效缩减树结构策略(ERTSS),缩减FP-tree树结构,解决了冗余搜索的问题。实验结果验证了PAFMFI-Spark算法的可行性以及相较于其他挖掘算法的性能优势,所提算法能有效适应各种数据的频繁项集挖掘。 展开更多
关键词 大数据 spark框架 并行频繁项集挖掘 频繁模式增长算法 非负矩阵分解
下载PDF
基于种群混合迁移策略的并行量子遗传算法
16
作者 陆涛 管荑 +2 位作者 贾鹏 曲志坚 王子灵 《计算机工程与设计》 北大核心 2024年第8期2386-2392,共7页
针对量子遗传算法求解大规模优化问题存在收敛速度慢、易于陷入局部最优等问题,改进量子遗传算法。设计一种种群混合迁移机制促进算法的种群多样性,采用仿TriBA种群结构、双精英种群、重生种群、自适应迁移算子、个体竞争排挤算子以及... 针对量子遗传算法求解大规模优化问题存在收敛速度慢、易于陷入局部最优等问题,改进量子遗传算法。设计一种种群混合迁移机制促进算法的种群多样性,采用仿TriBA种群结构、双精英种群、重生种群、自适应迁移算子、个体竞争排挤算子以及随机失活机制,提高算法的局部勘测能力和全局寻优能力。利用Spark框架实现算法在分布式集群环境下的运算。改进2-opt&R优化算法,通过引入高斯变异提高算法的局部搜索能力,缩小算法的搜索空间。实验结果表明,改进后的算法在全局优化能力、收敛速度、运行速度和求解稳定性等方面均有大幅度提升。 展开更多
关键词 量子遗传算法 种群迁移 spark框架 并行计算 收敛速度 全局优化 搜索空间
下载PDF
Spark框架下利用分布式NBC的大数据文本分类方法 被引量:6
17
作者 臧艳辉 赵雪章 席运江 《计算机应用研究》 CSCD 北大核心 2019年第12期3705-3708,3712,共5页
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有... 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。 展开更多
关键词 文本分类 MAPREDUCE spark框架 分布式 朴素贝叶斯分类器 机器学习
下载PDF
基于Spark和三路交互信息的并行深度森林算法 被引量:2
18
作者 毛伊敏 周展 陈志刚 《通信学报》 EI CSCD 北大核心 2023年第8期228-240,共13页
针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始... 针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始特征,剔除无关及冗余特征;其次,提出多粒度向量消除(MGVE)策略,融合相似类向量,缩短类向量长度;再次,提出级联森林特征增强(CFFE)策略提高信息利用率,加快模型收敛速度;最后,结合Spark框架提出多级负载均衡(MLB)策略,通过自适应子森林划分和异构倾斜数据划分,提高并行化训练效率。实验结果表明,所提算法能显著提升模型分类效果,缩短并行化训练时间。 展开更多
关键词 spark框架 并行深度森林算法 特征选择 多级负载均衡
下载PDF
基于并行化K-means的综合能源服务客户识别 被引量:6
19
作者 沈子垚 袁晓玲 《电力工程技术》 北大核心 2021年第2期107-113,共7页
随着电力体制改革的不断深入以及大数据技术的发展,传统的供电公司和综合能源服务企业急需改善现有的粗放型营销模式,实现不同用户需求的快速响应。针对综合能源服务潜在客户的精准识别问题,文中通过对综合能源服务潜在客户的标签进行分... 随着电力体制改革的不断深入以及大数据技术的发展,传统的供电公司和综合能源服务企业急需改善现有的粗放型营销模式,实现不同用户需求的快速响应。针对综合能源服务潜在客户的精准识别问题,文中通过对综合能源服务潜在客户的标签进行分析,基于Spark内存计算平台提出了一种改进的并行化K-means聚类算法。首先,对聚类过程中初始聚类中心的选取和样本影响因素的权值进行改进;其次,基于优化后的权值对客户数据集进行聚类分析,对综合能源服务潜在客户进行识别;最后,采集综合能源服务企业的近期交易数据,在多节点的物理机上进行实验与分析。结果表明改进后的聚类算法更准确。在执行效率上,并发度高的算法执行效率优于单线程的算法具有较好的并行能力。 展开更多
关键词 潜在客户识别 大数据 spark框架 K-MEANS聚类 并行计算
下载PDF
基于Spark框架的大数据局部频繁项集挖掘算法设计 被引量:6
20
作者 王黎 吕殿基 《微型电脑应用》 2021年第4期130-132,136,共4页
目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一种新式大数据局部频繁项集挖掘算法设计。筛选大数据局部频繁项集挖掘算法,结合框架结构分析方式处理挖掘... 目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一种新式大数据局部频繁项集挖掘算法设计。筛选大数据局部频繁项集挖掘算法,结合框架结构分析方式处理挖掘信息,根据筛选的算法分析数据挖掘的深层内容,并不断调节数据挖掘与挖掘空间之间的矛盾,缓解挖掘算法的挖掘压力,结合先前研究,调整挖掘状态,完成大数据局部频繁项集挖掘算法设计。实验结果表明,基于Spark框架的大数据局部频繁项集挖掘算法设计能够更迅速地提高数据挖掘效率,在降低成本投入的情况下具备更高的挖掘效率。 展开更多
关键词 spark框架 大数据局部频繁项集 项集挖掘算法 算法设计
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部