期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
Spark MLlib中决策树算法不同特征选择标准比较 被引量:5
1
作者 杜小芳 陈毅红 《太原师范学院学报(自然科学版)》 2020年第4期37-39,51,共4页
Spark-MLlib中决策树算法根据其目标特征值是否连续分为分类树和回归树.其中分类决策树算法又根据其特征选择标准不同,分为ID3算法和CART算法.实验时分别使用信息熵和基尼系数作为分裂准则来划分训练数据集,并比较了两者在不同规模数据... Spark-MLlib中决策树算法根据其目标特征值是否连续分为分类树和回归树.其中分类决策树算法又根据其特征选择标准不同,分为ID3算法和CART算法.实验时分别使用信息熵和基尼系数作为分裂准则来划分训练数据集,并比较了两者在不同规模数据集上的性能表现.实验结果表明,在保持训练效率的情况下,随着数据集规模增大,使用信息熵训练的树模型其分类精度高于使用基尼系数训练的模型精度. 展开更多
关键词 决策树 spark mllib 信息熵 基尼系数
下载PDF
基于Spark MLlib协同过滤算法的美食推荐系统研究 被引量:4
2
作者 徐林 《吉林大学学报(信息科学版)》 CAS 2019年第2期181-185,共5页
针对交替最小二乘法中矩阵稀疏度较大时推荐结果的准确性下降问题,提出了一种改进的协同过滤算法。该算法根据用户对各种潮州美食的评分,结合其他用户的兴趣相似度,并利用潮州美食属性特征的相似度作为权重因子进行矩阵补全。实验结果表... 针对交替最小二乘法中矩阵稀疏度较大时推荐结果的准确性下降问题,提出了一种改进的协同过滤算法。该算法根据用户对各种潮州美食的评分,结合其他用户的兴趣相似度,并利用潮州美食属性特征的相似度作为权重因子进行矩阵补全。实验结果表明,改进算法的平均MAE(Mean Absolute Error)值为0.583,有效地提高了推荐精度。 展开更多
关键词 spark mllib算法库 美食推荐系统 协同过滤算法 交替最小二乘法 矩阵补全
下载PDF
基于融合NCG法的协同过滤系统的实现
3
作者 胡晶 《佳木斯大学学报(自然科学版)》 CAS 2024年第3期138-140,177,共4页
Spark是高速高效高准确率的基于内存的计算引擎,MLlib是内置机器学习算法库,该库在集群环境下实现并行计算,将数据以RDD形式表示,然后在分布式集群内调用机器学习算法,主要核心功能有特征提取、回归分类、聚类、统计分析和模型评估等,... Spark是高速高效高准确率的基于内存的计算引擎,MLlib是内置机器学习算法库,该库在集群环境下实现并行计算,将数据以RDD形式表示,然后在分布式集群内调用机器学习算法,主要核心功能有特征提取、回归分类、聚类、统计分析和模型评估等,本文将引用Spark MLlib进行电影数据分析的经典算法案例,融合非线性共轭梯度(NCG)法改进了ALS协同过滤推荐算法,减少了迭代次数、提高了推荐系统的效率,在对海量大数据进行实时分类、查询的场景中具有指导意义[1]。 展开更多
关键词 spark mllib NCG算法 ALS协同过滤算法
下载PDF
基于Spark MLlib中决策树算法对阿尔及利亚森林火灾的预测研究
4
作者 高丰伟 田睿 +1 位作者 周浩 胡洁 《四川林业科技》 2023年第5期24-31,共8页
应用阿尔及利亚森林火灾数据,通过Spark MLlib中的决策树算法,提出过滤相关性高的特征参数提升模型性能,对森林火灾进行预测研究。对温度、风速、雨及加拿大森林火险气候指数(FWI)系统中主要指标等特征参数,结合森林火灾的分类情况,使... 应用阿尔及利亚森林火灾数据,通过Spark MLlib中的决策树算法,提出过滤相关性高的特征参数提升模型性能,对森林火灾进行预测研究。对温度、风速、雨及加拿大森林火险气候指数(FWI)系统中主要指标等特征参数,结合森林火灾的分类情况,使用信息增益标准为Gini的二叉决策树,建立基于决策树的火灾预测模型,对样本数据进行分类预测;提出分析不同特征参数之间的相关性,剔除相关性高的特征参数,利用大数据计算框架Spark建立机器学习工作流,将计算相关性的皮尔森系数与决策树分类算法结合了起来,从而优化模型,提高预测分类精度。预测模型改进前,即未进行相关性分析的森林火灾预测分类总精度为94.94%;预测模型改进后,即进行相关性分析,剔除了相关性较高的特征参数数据,森林火灾预测分类总精度为97.17%,准确率提高了近3%。使用Spark MLlib中的机器学习算法在森林火灾预测分类方面准确率总体较高,尤其在将多种数据挖掘算法结合后,模型性能得到提高,预测分类精度更高。 展开更多
关键词 森林火灾 spark mllib 决策树 相关性分析 FWI系统
下载PDF
大数据环境下的分布式机器学习框架比较研究
5
作者 马威 李振亚 《计算机应用文摘》 2024年第12期108-110,共3页
在大数据环境下,处理庞大的数据集与实现复杂的机器学习算法愈发关键。为解决这一挑战,分布式机器学习框架应运而生。通过分布式计算资源的协同工作,可以提高机器学习模型的训练效率和性能。
关键词 大数据环境 机器学习 Apache spark mllib TensorFlow PyTorch
下载PDF
基于Spark分布式支持向量机的TMS数据纠错方法研究
6
作者 王松 周学广 陈瑞 《计算机科学与应用》 2020年第4期710-720,共11页
在智能电网通信管理系统(TMS)中产生的大量数据信息有待分析总结,这些数据信息存在账务和实物不一致、数据录入错误以及缺失数据等问题。本文基于Hadoop分布式集群基础框架和Spark通用并行计算平台的分布式支持向量机训练算法,提出一种... 在智能电网通信管理系统(TMS)中产生的大量数据信息有待分析总结,这些数据信息存在账务和实物不一致、数据录入错误以及缺失数据等问题。本文基于Hadoop分布式集群基础框架和Spark通用并行计算平台的分布式支持向量机训练算法,提出一种针对TMS系统数据站点检修次数中的异常数据纠察分析的解决方法。该方法以站点类型为代表的一系列数据为特征属性,使用支持向量机算法建立的模型,对各个站点进行预测和评级,纠察出异常站点,以供相关人员进行排查。最后该方法通过实验进行了验证。 展开更多
关键词 支持向量机 TMS spark-mllib SVM 数据纠错
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部