期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Spark的大数据聚类研究及系统实现
被引量:
24
1
作者
王磊
邹恩岑
+2 位作者
曾诚
奚雪峰
陆悠
《数据采集与处理》
CSCD
北大核心
2018年第6期1077-1085,共9页
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不...
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。
展开更多
关键词
SPARK
聚类
大数据
下载PDF
职称材料
题名
基于Spark的大数据聚类研究及系统实现
被引量:
24
1
作者
王磊
邹恩岑
曾诚
奚雪峰
陆悠
机构
苏州
科技
大学
电子与信息工程学院
苏州
市虚拟现实智能交互及应用技术
重点
实验室
苏州
科技
大学
普
开
大数据
重点
实验室
昆山市公安局指挥中心
出处
《数据采集与处理》
CSCD
北大核心
2018年第6期1077-1085,共9页
基金
国家自然科学基金(61673290
61750110534
+2 种基金
61728205)资助项目
苏州市科技发展计划(SYG201707
SYG201817)资助项目
文摘
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。
关键词
SPARK
聚类
大数据
Keywords
Spark
clustering
big data
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Spark的大数据聚类研究及系统实现
王磊
邹恩岑
曾诚
奚雪峰
陆悠
《数据采集与处理》
CSCD
北大核心
2018
24
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部