期刊文献+
共找到126篇文章
< 1 2 7 >
每页显示 20 50 100
基于Spark和梯度提升树模型的短期负荷预测 被引量:39
1
作者 许贤泽 刘静 +1 位作者 施元 谭盛煌 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第5期84-89,共6页
利用Spark平台对电力用户侧的大数据进行分析,提出基于梯度提升树的并行负荷预测方法.首先对历史负荷和天气数据集进行并行化分割处理,并采用特征提取与转换方法获取到预测模型所需的特征向量;然后合理设定Spark集群节点数以及调节Hadoo... 利用Spark平台对电力用户侧的大数据进行分析,提出基于梯度提升树的并行负荷预测方法.首先对历史负荷和天气数据集进行并行化分割处理,并采用特征提取与转换方法获取到预测模型所需的特征向量;然后合理设定Spark集群节点数以及调节Hadoop分布式文件系统(HDFS)分块大小;最后将参数调优后的梯度提升树模型部署到Spark分布式平台上进行训练与预测,并将该模型预测结果与其他预测模型进行精度比较.研究结果表明:通过合理划分HDFS中存储块的大小能有效提高集群对于大数据处理的效率,分布式梯度提升树算法在快速性与准确性上均有比较大的优势,能够满足电力负荷预测的要求. 展开更多
关键词 负荷预测 分布式计算 大数据 梯度提升树 spark平台
原文传递
适用于海量负荷数据分类的高性能反向传播神经网络算法 被引量:37
2
作者 刘洋 刘洋1 许立雄 《电力系统自动化》 EI CSCD 北大核心 2018年第21期96-103,共8页
负荷分类对于指导电网发用电规划与保证电网可靠运行具有重要意义。面向负荷数据海量化与复杂化趋势,传统负荷分类方法已无法满足用电大数据分析要求。首先,针对用户侧数据体量大、类型多、速度快等特点,在Spark平台上将反向传播神经网... 负荷分类对于指导电网发用电规划与保证电网可靠运行具有重要意义。面向负荷数据海量化与复杂化趋势,传统负荷分类方法已无法满足用电大数据分析要求。首先,针对用户侧数据体量大、类型多、速度快等特点,在Spark平台上将反向传播神经网络(BPNN)算法并行化,实现对海量负荷数据的高效分类。然后,通过对训练样本抽样分块以降低各网络学习时间,针对分布式后BPNN基分类器由于学习样本缺失潜在的准确度下降问题,采用集成学习予以改善。并通过BPNN学习不同训练样本块构建差异化基分类器,对基分类结果多数投票得到最终分类结果。另外,提供了一种基于K-means和K-medoids聚类的负荷数据训练样本选取方法。算例表明所提方法既能对负荷曲线有效分类,又能大幅提高海量数据的处理效率。 展开更多
关键词 负荷分类 spark平台 反向传播神经网络 集成学习 聚类算法
下载PDF
基于Spark平台和多变量L_2-Boosting回归模型的分布式能源系统短期负荷预测 被引量:34
3
作者 马天男 牛东晓 +1 位作者 黄雅莉 杜振东 《电网技术》 EI CSCD 北大核心 2016年第6期1642-1649,共8页
分布式能源系统负荷预测是系统规划与经济运行的可靠前提和依据,在当前海量高维数据的背景下,有效的在线数据处理平台与精确的负荷预测方法是当前的研究重点。基于分布式能源系统负荷数据特点,在缺失数据处理、坏数据分类以及特征选择... 分布式能源系统负荷预测是系统规划与经济运行的可靠前提和依据,在当前海量高维数据的背景下,有效的在线数据处理平台与精确的负荷预测方法是当前的研究重点。基于分布式能源系统负荷数据特点,在缺失数据处理、坏数据分类以及特征选择的基础上,建立了基于Spark平台与多变量L_2-Boosting回归模型的分布式能源系统短期负荷预测方法。首先,利用Spark平台分割全部数据得到多个子数据模型,通过并行计算提高数据处理效率,采用特征提取方法得出模型需要的输入向量;其次,将得出的有效数据信息输入到多变量L_2-Boosting回归模型进行训练学习,得到训练后的多变量L_2-Boosting回归模型;最后,利用测试数据测试模型。算例结果验证了所提模型的有效性。 展开更多
关键词 短期负荷预测 多变量L2-Boosting回归模型 分布式能源系统 spark平台
下载PDF
基于Spark平台和并行随机森林回归算法的短期电力负荷预测 被引量:30
4
作者 刘琪琛 雷景生 +3 位作者 郝珈玮 黄燕刚 李强 罗海波 《电力建设》 北大核心 2017年第10期84-92,共9页
随着智能电网、全球能源互联网的建设与相关技术的发展,现代电力系统中电力大数据的格局已经形成,如何对高维海量数据进行深度挖掘以实现数据的充分利用,成为当前电力工作者们关心的问题。该文针对电力大数据环境下高精度和实时性的负... 随着智能电网、全球能源互联网的建设与相关技术的发展,现代电力系统中电力大数据的格局已经形成,如何对高维海量数据进行深度挖掘以实现数据的充分利用,成为当前电力工作者们关心的问题。该文针对电力大数据环境下高精度和实时性的负荷预测展开了研究,提出了基于Spark平台和并行随机森林回归算法(Spark platform and parallel random forest regression,SP-RFR)的短期电力负荷预测方法,通过3次弹性分布式数据集(resilient distributed datasets,RDD)转换实现单机随机森林算法的并行化改进,并在Spark分布式集群环境下实现部署。结合某区域实际电力负荷数据设计试验,进行模型训练和回归预测,通过试验证明,对同等的数据集,基于Spark平台的并行随机森林回归算法预测精度高于单机负荷预测算法;并行随机森林算法受离群数据干扰较小,且随着数据集的增大,并行随机森林算法表现出良好的鲁棒性;与单机算法在运行时间上相比,随着数据集的增大,基于分布式集群的方法优势明显。该文提出的方法能够有效地在分布式环境中进行电力负荷预测,为负荷预测提供了一种新思路。 展开更多
关键词 电力大数据 分布式计算 并行随机森林回归算法 spark平台 短期电力负荷预测
原文传递
计及需求响应和深度结构多任务学习的电力系统短期负荷预测 被引量:29
5
作者 马天男 王超 +2 位作者 彭丽霖 郭小帆 付明 《电测与仪表》 北大核心 2019年第16期50-60,共11页
随着需求响应技术的快速发展,使得电力系统负荷数据呈现出规模庞大、结构复杂的非线性特征,基于深度机器学习和高效数据处理平台的负荷预测方法是当前的研究重点。为实现计及需求响应的电力系统短期负荷预测,建立了基于Spark平台和时钟... 随着需求响应技术的快速发展,使得电力系统负荷数据呈现出规模庞大、结构复杂的非线性特征,基于深度机器学习和高效数据处理平台的负荷预测方法是当前的研究重点。为实现计及需求响应的电力系统短期负荷预测,建立了基于Spark平台和时钟频率驱动循环神经网络(CW-RNNs)的短期负荷预测方法。在Spark平台上设置不同工作组将全部数据分割为多个子数据模块,通过并行化计算提高数据处理效率,进而基于需求响应技术对负荷曲线做出调整,计算得到用户预期收益和用户舒适度影响指标值;采用离散小波变换将调整后的负荷曲线分解,得到一组高、低频信号;并采用偏最小二乘回归模型和CW-RNNs回归模型分别对低、高频信号进行训练学习;将训练好的PLS模型和CW-RNNs模型通过加权平均得到最终组合预测模型(Spark-CW-RNNs)。通过实例计算验证算法的准确性和有效性,结果表明:Spark-CW-RNNs模型比其他单一模型的预测误差更小、预测精度更高,模型具有有效性和可行性。 展开更多
关键词 需求响应 电力负荷预测 深度学习 spark平台
下载PDF
大数据下基于Spark的电商实时推荐系统的设计与实现 被引量:22
6
作者 岑凯伦 于红岩 杨腾霄 《现代计算机》 2016年第16期61-69,共9页
大数据下基于Hadoop平台构建的电商推荐系统存在着计算缓慢、无法根据用户实时行为作出推荐的问题。针对以上问题,设计和实现基于Spark平台的电商实时推荐系统。与Hadoop平台构建的推荐系统相比,系统首先基于Spark平台构建了分布式日志... 大数据下基于Hadoop平台构建的电商推荐系统存在着计算缓慢、无法根据用户实时行为作出推荐的问题。针对以上问题,设计和实现基于Spark平台的电商实时推荐系统。与Hadoop平台构建的推荐系统相比,系统首先基于Spark平台构建了分布式日志采集模块和分布式日志数据传输模块,用于采集和传输用户隐式行为日志,解决电子商务跨系统数据源收集问题;其次在统一数据源的基础上,采用基于Spark的矩阵分解推荐模型进行离线训练,提升离线推荐训练的效率;进而在离线推荐的基础上,提出一种使用Spark Streaming实时流技术对电商日志数据做实时过滤,获取用户当前所需商品,并将离线推荐结果与实时推荐结果通过统一介质融合的方案,实现对用户隐式行为进行实时推荐反馈的功能。最后经实验证明,基于Spark平台的电商实时推荐系统相对于Hadoop平台的电商推荐系统具有更高的可靠性和稳定性,能够承载大规模数据量,离线推荐训练速度相对于Hadoop平台提高10倍,并且对用户的实时行为也能够作出实时推荐反馈,提升5%的交易转化率,增强电商网站的用户体验。 展开更多
关键词 大数据 spark平台 HADOOP平台 实时推荐 用户隐式行为
下载PDF
海量监测数据下分布式BP神经网络区域滑坡空间预测方法 被引量:20
7
作者 赵久彬 刘元雪 +1 位作者 刘娜 胡明 《岩土力学》 EI CAS CSCD 北大核心 2019年第7期2866-2872,共7页
提出BP神经网络的分布式区域滑坡预测方法,算法设计在大数据分布式处理平台Spark下实现,通过构造包含均方误差和L2正则化的代价函数,提高运算实时性和算法泛化能力。统计影响滑坡评价因子的量化指标和定义监测剖面危险级别评价值,并进... 提出BP神经网络的分布式区域滑坡预测方法,算法设计在大数据分布式处理平台Spark下实现,通过构造包含均方误差和L2正则化的代价函数,提高运算实时性和算法泛化能力。统计影响滑坡评价因子的量化指标和定义监测剖面危险级别评价值,并进行评价因子特征选取,用于三峡库区忠县区域9个滑坡11年月监测海量数据挖掘,对研究区所有滑坡监测剖面每月进行危险级别评价,实现以月为周期的区域滑坡危险程度空间预测。试验表明,采用所述方法得到的拟合精度、准确度、效率均比梯度提升决策树、随机森林算法好,预测的滑坡危险级别准确,该方法可作为区域滑坡空间预测的一种新思路。 展开更多
关键词 BP神经网络 分布式spark平台 区域滑坡空间预测 监测剖面
下载PDF
异构Spark集群下自适应任务调度策略 被引量:19
8
作者 杨志伟 郑烇 +2 位作者 王嵩 杨坚 周乐乐 《计算机工程》 CAS CSCD 北大核心 2016年第1期31-35,40,共6页
Spark是一种基于内存的类Hadoop MapReduce高效大数据处理平台,但其默认的任务调度策略在异构Spark集群下未考虑到节点的能力差异,降低了系统性能。为此,提出一种基于异构Spark集群的自适应任务调度策略。该策略通过监测节点的负载及资... Spark是一种基于内存的类Hadoop MapReduce高效大数据处理平台,但其默认的任务调度策略在异构Spark集群下未考虑到节点的能力差异,降低了系统性能。为此,提出一种基于异构Spark集群的自适应任务调度策略。该策略通过监测节点的负载及资源利用率,分析监测得到的参数,自适应动态调整节点任务分配权值。实验结果表明,在异构节点情况下,该策略在作业完成时间、节点工作状态及资源利用率方面的性能均优于默认的任务调度策略。 展开更多
关键词 spark平台 异构集群 自适应 任务调度 监测 权值
下载PDF
基于Spark的分布式交通流数据预测系统 被引量:19
9
作者 黄廷辉 王玉良 +1 位作者 汪振 崔更申 《计算机应用研究》 CSCD 北大核心 2018年第2期405-409,416,共6页
在大数据时代,在城市复杂交通环境中,实现实时、准确的交通流预测,是实现智能交通系统的必要前提。提出了一种在Spark平台上基于梯度优化决策树的分布式城市交通流预测模型(distributed urban traffic prediction with GBDT,DUTP-GBDT)... 在大数据时代,在城市复杂交通环境中,实现实时、准确的交通流预测,是实现智能交通系统的必要前提。提出了一种在Spark平台上基于梯度优化决策树的分布式城市交通流预测模型(distributed urban traffic prediction with GBDT,DUTP-GBDT);并提出了分布式情况下梯度优化决策树模型实现的优化方法,包括切分点抽样、特征装箱和逐层训练三种,提高了分布式情况下梯度优化决策树训练效率。基于Spark分布式计算平台高效、可靠、弹性可扩展的优势,以及梯度优化决策树模型准确率较高和时间复杂度较低的优点,利用时间特征、道路状况特征以及天气特征等特征参数,建立了DUTP-GBDT模型,实现了实时、准确的交通流预测。通过与GABP、GA-KNN、MSTAR等模型的对比,证明了利用Spark平台,DUTP-GBDT模型在分布式环境下准确率和训练速度方面均有所提高,符合城市交通流预测系统的各项要求。 展开更多
关键词 交通流预测 分布式计算 spark平台 梯度优化决策树模型
下载PDF
News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark 被引量:16
10
作者 Zhuo Zhou Jiaohua Qin +3 位作者 Xuyu Xiang Yun Tan Qiang Liu Neal N.Xiong 《Computers, Materials & Continua》 SCIE EI 2020年第1期217-231,共15页
Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm... Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm based on Spark big data platform.Since the TF-IDF(term frequency-inverse document frequency)algorithm under Spark is irreversible to word mapping,the mapped words indexes cannot be traced back to the original words.In this paper,an optimized method is proposed that TF-IDF under Spark to ensure the text words can be restored.Firstly,the text feature is extracted by the TF-IDF algorithm combined CountVectorizer proposed in this paper,and then the features are inputted to the LDA(Latent Dirichlet Allocation)topic model for training.Finally,the text topic clustering is obtained.Experimental results show that for large data samples,the processing speed of LDA topic model clustering has been improved based Spark.At the same time,compared with the LDA topic model based on word frequency input,the model proposed in this paper has a reduction of perplexity. 展开更多
关键词 News text topic clustering spark platform countvectorizer algorithm TF-IDF algorithm latent dirichlet allocation model
下载PDF
融合物品热门因子的协同过滤改进算法 被引量:15
11
作者 孙红 韩震 《小型微型计算机系统》 CSCD 北大核心 2018年第4期638-643,共6页
协同过滤算法是推荐系统中比较古老的算法,原理是根据近邻用户或者相似物品对目标进行推荐,因此相似度计算方法是关键部分.由于互联网的高传播性,物品热门周期变短,影响了用户之间相似性度量,传统的协同过滤算法已经不能达到很好的推荐... 协同过滤算法是推荐系统中比较古老的算法,原理是根据近邻用户或者相似物品对目标进行推荐,因此相似度计算方法是关键部分.由于互联网的高传播性,物品热门周期变短,影响了用户之间相似性度量,传统的协同过滤算法已经不能达到很好的推荐效果.针对相似度改进,在皮尔逊相似度原理上添加物品热门因子,优化皮尔逊相似度计算,提高推荐效果.采用大数据技术并搭建spark分布式平台.在spark大数据平台上使用Movie Lens电影推荐数据集上验证改进后的算法,采用准确率、召回率和平均绝对误差(MAE)等指标来评价改进算法.实验结果表明改进算法在准确率和召回率上都比传统算法有很大的提高,在平均绝对误差上也有所下降. 展开更多
关键词 协同过滤 皮尔逊相似度 MovieLens数据集 spark平台 热门因子
下载PDF
基于Spark的协同过滤算法并行化研究 被引量:12
12
作者 陆俊尧 李玲娟 《计算机技术与发展》 2019年第1期85-89,共5页
协同过滤算法在推荐系统中应用广泛。但是随着数据量的爆炸式增长,协同过滤算法所需的计算量也随之增长。针对传统的单机集中式计算已无法满足推荐系统的实时性和扩展性要求的问题,基于主流的大数据平台Spark在迭代计算以及内存计算方... 协同过滤算法在推荐系统中应用广泛。但是随着数据量的爆炸式增长,协同过滤算法所需的计算量也随之增长。针对传统的单机集中式计算已无法满足推荐系统的实时性和扩展性要求的问题,基于主流的大数据平台Spark在迭代计算以及内存计算方面的优势,设计了一种基于项目的协同过滤算法在Spark上的并行化方案。该方案利用RDD并行化计算的特点,通过合理设计RDD算子来实现对物品间相似度计算过程和评分计算过程的并行化,同时采用了RDD的缓存机制以及Spark中的广播变量来对一些重要的计算资源进行缓存与分发,从而提高计算速度。用MovieLens公开数据集对基于Spark平台的并行化Item-Based协同过滤算法的性能进行测试,结果表明该并行化协同过滤算法在准确性以及时效性方面均有较好的表现。 展开更多
关键词 协同过滤 spark平台 并行化 基于项目
下载PDF
基于Spark技术的网络大数据分析平台搭建与应用 被引量:12
13
作者 詹义 方媛 《互联网天地》 2016年第2期75-78,共4页
搭建基于Spark技术的网络大数据分析平台,对信令进行分析和处理,提升了分析效率。通过现网实际数据验证,该平台具有高效和可扩展性强的特点,未来可适用范围较广。
关键词 信令平台 HADOOP MAPREDUCE spark
原文传递
改进的协同过滤算法及其并行化实现 被引量:12
14
作者 李嵩 李书琴 刘斌 《计算机工程与设计》 北大核心 2018年第12期3853-3859,共7页
为解决海量数据背景下推荐系统的可扩展性问题和评分空间上的数据稀疏性问题,研究Spark平台下基于格拉斯曼秩1更新子空间估计法(GROUSE)和用户聚类的改进协同过滤推荐算法(CF-GUC)。通过改造GROUSE算法对评分矩阵进行填充;构造用户项目... 为解决海量数据背景下推荐系统的可扩展性问题和评分空间上的数据稀疏性问题,研究Spark平台下基于格拉斯曼秩1更新子空间估计法(GROUSE)和用户聚类的改进协同过滤推荐算法(CF-GUC)。通过改造GROUSE算法对评分矩阵进行填充;构造用户项目类别矩阵,对用户进行模糊聚类;引入类别加权度,对评分进行加权修正,在此基础上应用协同过滤算法进行预测评分;将改进算法在Spark计算平台上做并行化实现。实验结果表明,当最近邻居数k取30到40时,CF-GUC算法相比于CF-mean算法、CF-UC算法、Pearson-CF算法, MAE值分别降低了约3.31%、3.02%、6.48%,在3种不同规模的数据集下基于Spark平台的CF-GUC算法运算效率比单节点提高了约40%到60%。 展开更多
关键词 协同过滤 类别加权度 用户聚类 spark平台 并行化
下载PDF
基于Spark平台的K均值聚类算法的人力资源推荐 被引量:11
15
作者 李宇翔 李帅 +2 位作者 宋艳琼 张福泉 周湘贞 《济南大学学报(自然科学版)》 CAS 北大核心 2020年第5期430-435,共6页
为了提高人力资源推荐系统的效率,提出一种基于Spark平台的K均值聚类算法来完成人力资源推荐;Spark平台在分布式系统所有节点的内存弹性分布式数据集中完成聚类迭代运算,以加快聚类速度;将K均值聚类算法与聚类簇思想相结合,以提高大规... 为了提高人力资源推荐系统的效率,提出一种基于Spark平台的K均值聚类算法来完成人力资源推荐;Spark平台在分布式系统所有节点的内存弹性分布式数据集中完成聚类迭代运算,以加快聚类速度;将K均值聚类算法与聚类簇思想相结合,以提高大规模数据样本聚类的效率,得到聚类结果后,采用动态推荐算法实现人力资源实时推荐。结果表明,Spark平台相比于单机在聚类计算效率方面更有优势,且所提出的算法比单机的K均值聚类算法的聚类速度和准确率均更优,在动态推荐性能方面也优于常用推荐算法。 展开更多
关键词 spark平台 人力资源推荐 K均值聚类 聚类簇 动态推荐
下载PDF
FRPFP模型滑坡监测预警关联规则挖掘分析——以三峡库区江津到奉节段为例 被引量:10
16
作者 赵久彬 刘元雪 +1 位作者 刘娜 胡明 《岩土工程学报》 EI CAS CSCD 北大核心 2019年第3期492-500,共9页
采用传统的关联规则用于岩土工程监测预警领域的知识发现,在数据庞大情形下单机机器学习实时性差,无法获得多因素综合作用的规则。由于未对前后部项进行约束,得到的关联规则冗余度高,含有大量不符因果逻辑的规则。基于此,提出一种前后... 采用传统的关联规则用于岩土工程监测预警领域的知识发现,在数据庞大情形下单机机器学习实时性差,无法获得多因素综合作用的规则。由于未对前后部项进行约束,得到的关联规则冗余度高,含有大量不符因果逻辑的规则。基于此,提出一种前后部项约束关联规则并行化FRPFP (fore-part and rear-part parallel FP-growth)算法,并在大数据分布式处理平台Spark下进行实现。通过对三峡库区奉节至江津库段滑坡的孕灾因子统计分类,采用7个滑坡发育基础因子和4个滑坡诱导因子作为前部集合,滑坡前缘、中部、后缘监测点位移参数为后部集合,采集研究区25个滑坡11年监测数据。以FRPFP算法为模型架构基于关联规则的滑坡监测预警大数据系统,设计区域滑坡危险性规则挖掘、典型滑坡危险性规则挖掘、滑坡发生原因分析挖掘3个功能,用于库岸滑坡稳定性预测和分析,为认清库岸滑坡的破坏机制和提升其预报水平提供新的思路。 展开更多
关键词 FRPFP模型 关联规则 spark平台 滑坡监测预警 三峡库区
下载PDF
Spark平台下的短文本特征扩展与分类研究 被引量:9
17
作者 王雯 赵衎衎 +2 位作者 李翠平 陈红 孙辉 《计算机科学与探索》 CSCD 北大核心 2017年第5期732-741,共10页
短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上... 短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法。该方法首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充;其次针对分类过程,提出基于距离选择的层叠支持向量机(support vector machine,SVM)算法;最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率。实验结果显示,采用提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均得到约15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%。 展开更多
关键词 短文本分类 特征扩展 关联规则 spark平台
下载PDF
Spark并行化基于物品协同过滤算法 被引量:9
18
作者 许明杰 蔚承建 沈航 《计算机工程与设计》 北大核心 2017年第7期1817-1822,共6页
针对传统的基于物品(Item-Based)协同过滤算法处理海量数据时耗时过长和效率低下问题,提出基于Hadoop分布式平台以及Spark并行计算模型的Item-Based协同过滤算法。综合考虑推荐系统的执行效率和推荐质量,通过对ItemBased协同过滤算法的... 针对传统的基于物品(Item-Based)协同过滤算法处理海量数据时耗时过长和效率低下问题,提出基于Hadoop分布式平台以及Spark并行计算模型的Item-Based协同过滤算法。综合考虑推荐系统的执行效率和推荐质量,通过对ItemBased协同过滤算法的改进,实现一个Spark并行化的音乐推荐系统。选取部分KDD Cup比赛数据集在推荐系统中进行测试,为目标用户生成音乐推荐结果和评定推荐误差,实验结果表明,改进后的算法在执行效率和推荐质量方面有了显著提高。 展开更多
关键词 协同过滤 推荐算法 分布式平台 spark模型 并行化
下载PDF
基于Spark的电力调度数据整合模型 被引量:9
19
作者 曲朝阳 陈贺新 +2 位作者 胡可为 刘耀伟 独健鸿 《计算机工程与应用》 CSCD 北大核心 2017年第19期65-70,共6页
随着大数据理念在电力行业的应用,构建电力调度数据仓库是支撑电力调度中心统一数据平台的基础,针对电力调度中心的数据仓库将多源数据整合时面临的重复冗余和不一致问题,提出一种基于Spark的电力调度数据整合模型。设计并行化正向最大... 随着大数据理念在电力行业的应用,构建电力调度数据仓库是支撑电力调度中心统一数据平台的基础,针对电力调度中心的数据仓库将多源数据整合时面临的重复冗余和不一致问题,提出一种基于Spark的电力调度数据整合模型。设计并行化正向最大匹配去冗算法,对多个系统内冗余数据进行过滤操作;给出面向关联度的数据一致性处理方法,依据特征向量的夹角余弦值判断数据间的联系,进而对不一致数据修复。通过对某电力调度中心的数据进行整合实验,验证了该数据整合模型的可行性。 展开更多
关键词 电力调度中心 关联度 特征向量 数据整合 spark平台
下载PDF
基于Spark平台的岩石图像聚类分析 被引量:9
20
作者 杨艳梅 柳娜 +2 位作者 程国建 强新建 王叙乔 《西安石油大学学报(自然科学版)》 CAS 北大核心 2016年第6期114-118,共5页
提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,... 提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,使得岩石图像易于区分,解决了传统的聚类算法无法确定初始中心、聚类数目K的选取不当可能导致聚类失败、算法容易受到噪声和孤立点影响等问题。 展开更多
关键词 岩石图像 聚类分析 spark平台 K-MEANS
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部