期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
大数据环境下基于SVM-WNB的网络舆情分类研究 被引量:17
1
作者 张宸 韩夏 《统计与决策》 CSSCI 北大核心 2017年第14期45-48,共4页
当前网络舆情信息存在数据量大、流动快及数据非结构化等特点,难以实现对其快速、准确的分类。SVM算法和朴素贝叶斯算法都是性能优秀的传统分类算法,但无法满足快速处理海量数据。文章利用Ha-doop平台可并行处理分布式数据存储的优良特... 当前网络舆情信息存在数据量大、流动快及数据非结构化等特点,难以实现对其快速、准确的分类。SVM算法和朴素贝叶斯算法都是性能优秀的传统分类算法,但无法满足快速处理海量数据。文章利用Ha-doop平台可并行处理分布式数据存储的优良特性,提出了HSVM_WNB分类算法,将采集的舆情文档依照HDFS架构进行本地化存储,并通过MapReduce进程完成并行分类处理。最后利用实验验证,本算法能够有效提升网络舆情分类能力与分类效率。 展开更多
关键词 大数据 网络舆情 hadoop平台 SVM-WNB算法 并行处理
下载PDF
基于Hadoop云平台的空间属性数据挖掘技术研究 被引量:11
2
作者 李娟 《南京理工大学学报》 CAS CSCD 北大核心 2022年第4期419-426,共8页
为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用... 为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用户交互;其中数据挖掘层利用归一化变换将空间数据与属性数据调整为正态分布并统一量纲后,采用快速独立成分分析算法去噪处理变换后数据;依据贝叶斯分类理论以及极大后验和似然假设构建朴素贝叶斯分类器,将去噪处理后的数据作为分类器输入,完成空间属性数据挖掘。试验结果表明该技术应用在农业生产中,可以增加经济效益,数据经去噪后峰值信噪比与结构相似性较高,可有效挖掘城市空间属性数据,且具有较高数据挖掘速度。 展开更多
关键词 hadoop平台 空间属性 数据挖掘技术 hadoop分布式文件系统 用户交互 分布式计算
下载PDF
基于Hadoop的社交网络服务推荐算法 被引量:7
3
作者 李玲 任青 +2 位作者 付园 陈鹤 梅圣民 《吉林大学学报(信息科学版)》 CAS 2013年第4期359-364,共6页
为高效处理社交网络产生的海量数据,并保证社交网的可扩展性,将TF-IDF(Term Frequency-InverseDocument Frequency)算法进行MapReduce化设计,并在Hadoop云平台上实现分布式的TF-IDF算法。利用该算法提取用户微博中的关键词,再根据关键... 为高效处理社交网络产生的海量数据,并保证社交网的可扩展性,将TF-IDF(Term Frequency-InverseDocument Frequency)算法进行MapReduce化设计,并在Hadoop云平台上实现分布式的TF-IDF算法。利用该算法提取用户微博中的关键词,再根据关键词发现用户的兴趣,并对用户做相应的推荐。为验证分布式TF-IDF算法的有效性和可扩展性,与TextRank算法的结果做对比。实验结果表明,分布式TF-IDF算法提取的关键词能更准确地描述用户的特性,同时具有良好的可扩展性。 展开更多
关键词 hadoop平台 分布式TF-IDF算法 MAPREDUCE模型 TextRank算法
下载PDF
Hadoop云平台MapReduce下数字档案信息资源共享平台的优化 被引量:5
4
作者 范雨欣 《兰台世界》 2022年第5期107-110,共4页
大数据时代下,数字档案信息资源海量数据的不断增加以及用户需求的不断提高,对数字档案信息资源共享平台提出了新的要求,即在满足大数据环境下技术应用所需之时,亦为用户提供精准服务。在介绍Hadoop云平台MapReduce模型的基础上,探讨数... 大数据时代下,数字档案信息资源海量数据的不断增加以及用户需求的不断提高,对数字档案信息资源共享平台提出了新的要求,即在满足大数据环境下技术应用所需之时,亦为用户提供精准服务。在介绍Hadoop云平台MapReduce模型的基础上,探讨数字档案信息资源共享平台的技术所需,提出采用MapReduce技术模型对数字档案信息资源共享平台进行优化的办法,以满足在大数据时代下高性能、高稳定的数据挖掘。 展开更多
关键词 hadoop平台 大数据 MAPREDUCE 数字档案信息资源
原文传递
Hadoop云平台下医疗档案共享体系的构建 被引量:6
5
作者 赵保 任慧朋 《中国病案》 2016年第11期47-50,共4页
目的利用Hadoop云平台的集群管理优势,解决医疗档案资源数量大、类型多、共享难的现状。方法综合分析Hadoop云平台的技术特点,结合云计算的特性,利用元数据实现对医院各类档案资源的存储、读写和查询等一系列操作。结果 Hadoop云平台提... 目的利用Hadoop云平台的集群管理优势,解决医疗档案资源数量大、类型多、共享难的现状。方法综合分析Hadoop云平台的技术特点,结合云计算的特性,利用元数据实现对医院各类档案资源的存储、读写和查询等一系列操作。结果 Hadoop云平台提供了海量档案资源共享的新方法,构建了多种类档案资源的云管理框架。结论利用Hadoop云平台实现了医疗档案综合管理的有效解决方案。 展开更多
关键词 hadoop平台 档案资源 共享体系
原文传递
基于Hadoop平台的SVM_WNB分类算法的研究 被引量:5
6
作者 黄刚 李正杰 《计算机应用研究》 CSCD 北大核心 2016年第11期3215-3218,共4页
SVM算法和朴素贝叶斯分类算法是对大量复杂数据分类中性能优秀的算法。然而它们的缺点使得分类效果受到了影响,而且传统的数据挖掘分类算法也无法满足对于海量数据的处理。针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提... SVM算法和朴素贝叶斯分类算法是对大量复杂数据分类中性能优秀的算法。然而它们的缺点使得分类效果受到了影响,而且传统的数据挖掘分类算法也无法满足对于海量数据的处理。针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提出了SVM_WNB分类算法,并且在Hadoop云平台上对算法实现并行化处理,使其能够对大数据进行处理。实验验证,改进后的算法在准确性和效率等方面有明显提升,在大数据的分类上将会起到显著的效果。 展开更多
关键词 大数据 数据挖掘 SVM_WNB算法 hadoop平台 并行化
下载PDF
基于Hadoop云平台的分布式支持向量机 被引量:4
7
作者 张小琴 胡景 肖炜 《山西师范大学学报(自然科学版)》 2015年第4期19-23,共5页
支持向量机(Support Vector Machine,SVM)在解决小样本、非线性以及高维模式识别问题中都表现出了良好的性能.然而,在实际问题中随着数据集规模的增大,该算法寻找全局最优支持向量的过程变得十分缓慢,甚至无法在有效的时间和实际环境允... 支持向量机(Support Vector Machine,SVM)在解决小样本、非线性以及高维模式识别问题中都表现出了良好的性能.然而,在实际问题中随着数据集规模的增大,该算法寻找全局最优支持向量的过程变得十分缓慢,甚至无法在有效的时间和实际环境允许的条件下得到训练模型.本文结合当前流行的分布式解决方案——Hadoop云平台,设计并实现了一种并行化SVM算法.通过在UCI标准数据集上的实验进行分析,结果表明,与传统的单机SVM算法相比,在不显著降低预测精度的前提下,训练时间复杂度得到了比较明显的降低. 展开更多
关键词 hadoop平台 数据挖掘 支持向量机 计算
下载PDF
Hadoop云平台下基于P-WAP的大数据聚类挖掘算法 被引量:3
8
作者 顾东虎 《长春师范大学学报》 2020年第10期29-35,共7页
传统AP聚类算法性能会随着数据规模扩大和结构复杂化而快速衰减,为此在Hadoop云平台下提出基于P-WAP的聚类挖掘算法。用邻域相似度指标替代传统AP算法中欧式距离相似度,提高聚类算法应对大规模数据的能力,将样本集合中的数据集分配给Had... 传统AP聚类算法性能会随着数据规模扩大和结构复杂化而快速衰减,为此在Hadoop云平台下提出基于P-WAP的聚类挖掘算法。用邻域相似度指标替代传统AP算法中欧式距离相似度,提高聚类算法应对大规模数据的能力,将样本集合中的数据集分配给Hadoop云平台中的数据处理节点,利用平台并行计算能力对待处理数据集进行加权聚类,优化算法性能。实验结果表明,所提算法在海量数据规模下拥有更高的聚类效率,在聚类准确率和时间复杂度控制方面效果更好。 展开更多
关键词 hadoop平台 P-WAP 并行计算 聚类挖掘
下载PDF
分布式MVC-Kmeans算法设计与实现 被引量:3
9
作者 汪晶 邹学玉 +1 位作者 喻维明 孙咏 《长江大学学报(自然科学版)》 CAS 2019年第6期113-119,共7页
针对K-means算法聚类质量和收敛速度取决于初始聚类中心选取的问题,提出了一种利用最小方差获取Canopy最优全局中心作为K-means聚类中心初值的算法,并利用Hadoop平台MapReduce编程模型进行了分布式MVC-Kmeans算法的设计与实现。标准UCI... 针对K-means算法聚类质量和收敛速度取决于初始聚类中心选取的问题,提出了一种利用最小方差获取Canopy最优全局中心作为K-means聚类中心初值的算法,并利用Hadoop平台MapReduce编程模型进行了分布式MVC-Kmeans算法的设计与实现。标准UCI数据集测试结果表明,与传统K-means聚类算法相比,该算法可以得到更好的聚类质量,且收敛速度更快,适于大规模数据的聚类分析。 展开更多
关键词 hadoop平台 K-MEANS聚类 Canopy算法 最小方差 大规模数据
下载PDF
基于Hadoop云平台的海量数字图像数据挖掘的分析 被引量:3
10
作者 刘润虎 张宁 +1 位作者 黄璜 邬学东 《科技创新导报》 2017年第32期113-113,115,共2页
Hadoop云平台在各个领域当中都有着极其广泛的应用,结合云计算技术等,对相关数据管理水平的提升具有重要价值。因此,本文就基于Hadoop云平台的海量数字图像数据挖掘进行有效分析,简要介绍了数字图像处理流程中的预处理与特征空间构建两... Hadoop云平台在各个领域当中都有着极其广泛的应用,结合云计算技术等,对相关数据管理水平的提升具有重要价值。因此,本文就基于Hadoop云平台的海量数字图像数据挖掘进行有效分析,简要介绍了数字图像处理流程中的预处理与特征空间构建两个环节;然后,对海量数字图像数据挖掘系统构建的硬件设备、软件环境、继承开发平台等构建进行了细致分析。 展开更多
关键词 hadoop平台 数字图像 数据挖掘
下载PDF
基于关联关系和MapReduce的僵尸网络检测 被引量:2
11
作者 邵秀丽 蒋鸿玲 +1 位作者 耿梅洁 李耀芳 《计算机工程》 CAS CSCD 2014年第5期115-119,共5页
现有僵尸网络检测方法的计算量较大,导致检测效率低,而云计算的强大数据处理和分析能力为僵尸网络的检测提供了新的思路和解决方案。为此,设计并实现一种基于MapReduce模型的并行僵尸网络检测算法,基于云协同和流间关联关系对僵尸网络... 现有僵尸网络检测方法的计算量较大,导致检测效率低,而云计算的强大数据处理和分析能力为僵尸网络的检测提供了新的思路和解决方案。为此,设计并实现一种基于MapReduce模型的并行僵尸网络检测算法,基于云协同和流间关联关系对僵尸网络进行检测。提取流间关联关系,将具有关联关系的流聚集到同一个集合中,计算主机的分数,若分数大于阈值则判断为可疑的僵尸主机。实验结果表明,该算法对P2P僵尸网络的检测率能够达到90%以上,误报率控制在4%以下,并且随着云服务器端计算节点的增多,其处理云客户端上传数据及检测僵尸网络的效率更高。 展开更多
关键词 僵尸网络 计算 关联关系 MAPREDUCE模型 hadoop平台
下载PDF
云计算在舰船远程实时监控系统中的应用 被引量:2
12
作者 库波 《舰船科学技术》 北大核心 2016年第2X期157-159,共3页
随着现代信息技术发展,舰船监控系统也朝着智能化及信息化发展,同时随着监控数据的急速增长,如何实时从海量监控数据中挖掘出有效信息是现代船舶远程实时监控系统的瓶颈所在。云计算平台利用分布式架构﹑云存储及并行计算技术,在大数据... 随着现代信息技术发展,舰船监控系统也朝着智能化及信息化发展,同时随着监控数据的急速增长,如何实时从海量监控数据中挖掘出有效信息是现代船舶远程实时监控系统的瓶颈所在。云计算平台利用分布式架构﹑云存储及并行计算技术,在大数据信息处理效率方面具有很大的优势。本文将现有的开源云平台Hadoop引入船舶远程实时监控系统,在研究基于云平台的监控系统架构基础上,改进监控系统中的并行数据查询算法,最后给出仿真结果。 展开更多
关键词 监控系统 分布式体系结构 hadoop平台
下载PDF
基于最大熵功率谱估计的Hadoop高速数据访问 被引量:2
13
作者 李昌 陈金花 《科技通报》 北大核心 2014年第8期59-61,共3页
提出一种基于最大熵功率谱估计的Hadoop云平台下网络音视频数据特征挖掘方法,实现对数据信息的高速访问。构建数据挖掘Hadoop云平台和数据挖掘访问模型,设计最大熵功率谱特征提取算法,采用分段思想将同一时间段的视音频数据进行群体分割... 提出一种基于最大熵功率谱估计的Hadoop云平台下网络音视频数据特征挖掘方法,实现对数据信息的高速访问。构建数据挖掘Hadoop云平台和数据挖掘访问模型,设计最大熵功率谱特征提取算法,采用分段思想将同一时间段的视音频数据进行群体分割,分段提取最大熵功率谱特征。将提取的特征信息进行维度匹配分箱和溯源处理,实现信息恢复,最终完成高速数据访问。仿真测试表明,该算法能有效地实现对网络音视频数据的特征挖掘,提高访问效率,访问响应时间较当前方法缩短明显。 展开更多
关键词 hadoop平台 最大熵 功率谱估计 数据访问
下载PDF
基于Hadoop的电子健康档案云平台设计和实现 被引量:1
14
作者 黄海平 《医学信息学杂志》 CAS 2016年第1期19-23,共5页
阐述基于Hadoop的电子健康档案云平台架构设计,包括服务对象及需求、逻辑架构、软件架构等方面,介绍基于HBase的电子健康档案云平台数据预处理模型,进行实验环境的搭建和配置,通过实验完成Hadoop集群的启动。
关键词 电子健康档案 hadoop平台 HBASE 数据预处理
下载PDF
基于Hadoop云平台的并行谱聚类算法的设计与实现 被引量:1
15
作者 牛科 贾郭军 《山西师范大学学报(自然科学版)》 2014年第1期43-46,共4页
谱聚类(Spectral Clustering)是建立在谱图理论基础上的一种聚类算法.与传统的聚类算法相比,谱聚类能够在任意形状的样本空间上进行聚类且收敛于全局最优解.然而,实际问题中大规模数据集普遍存在,在使用谱聚类对大规模数据集进行聚类时... 谱聚类(Spectral Clustering)是建立在谱图理论基础上的一种聚类算法.与传统的聚类算法相比,谱聚类能够在任意形状的样本空间上进行聚类且收敛于全局最优解.然而,实际问题中大规模数据集普遍存在,在使用谱聚类对大规模数据集进行聚类时,收敛速度变得十分缓慢,甚至无法在有效的时间内得到聚类结果.并行算法是针对大规模数据集进行处理的一种有效方法.基于Hadoop云计算平台实现大规模数据集的存储和处理是目前实现并行计算的一种高效解决方案. 展开更多
关键词 谱聚类 计算 hadoop平台
下载PDF
基于Hadoop云平台下档案共享体系的构建 被引量:1
16
作者 云雅 《办公室业务》 2018年第18期177-177,189,共2页
Hadoop系统在我国当前数字化档案共享平台体系构建中发挥着重要作用。本文结合Hadoop系统在云平台共享体系中的主要功能,开展了体系构建中的功能设置研究。这一研究的开展对于提高我国档案云平台共享体系,以及Hadoop云平台技术发展都起... Hadoop系统在我国当前数字化档案共享平台体系构建中发挥着重要作用。本文结合Hadoop系统在云平台共享体系中的主要功能,开展了体系构建中的功能设置研究。这一研究的开展对于提高我国档案云平台共享体系,以及Hadoop云平台技术发展都起到了不可忽视的作用。 展开更多
关键词 hadoop平台 档案共享体系 构建
下载PDF
Hadoop下面元加权Voronoi图并行算法及应用
17
作者 徐明 曹菡 唐多余 《计算机工程与应用》 CSCD 北大核心 2015年第13期59-62,共4页
面元加权Voronoi图是生成元为面元的加权Voronoi图。针对大规模数据情况下面元加权Voronoi图存在的计算效率不高问题,结合面元边界点提取方法,提出一种基于Hadoop云平台的面元加权Voronoi图的并行生成算法,进行了单机和集群实验。实验... 面元加权Voronoi图是生成元为面元的加权Voronoi图。针对大规模数据情况下面元加权Voronoi图存在的计算效率不高问题,结合面元边界点提取方法,提出一种基于Hadoop云平台的面元加权Voronoi图的并行生成算法,进行了单机和集群实验。实验结果表明,算法能有效处理大规模栅格数据,明显提高面元加权Voronoi图的生成速度。还可应用于城市绿地设计规划,为绿地设计提供决策依据。 展开更多
关键词 VORONOI图 hadoop平台 面元加权Voronoi图 城市绿地设计
下载PDF
从传统架构IOE到Hadoop云平台的应用迁移的实现探讨
18
作者 张建业 《网络安全技术与应用》 2017年第3期38-39,共2页
随着企业数据信息量的增加,大数据时代的到来为企业数据信息处理提供多种新型的技术。以往企业数据处理所用的传统框架IOE是集IBM小型机、Oracle数据库以及EMC存储所组成的大型商用数据库系统。在当今该种系统架构早已不能满足企业数据... 随着企业数据信息量的增加,大数据时代的到来为企业数据信息处理提供多种新型的技术。以往企业数据处理所用的传统框架IOE是集IBM小型机、Oracle数据库以及EMC存储所组成的大型商用数据库系统。在当今该种系统架构早已不能满足企业数据处理需求,存在着较大的数据计算、处理、带宽等方面的问题。Hadoop云平台的出现,为企业数据信息处理提供更好的平台,能够实现信息高效应用。基于此,本文从传统架构IOE到Hadoop云平台的应用迁移实现角度进行分析。 展开更多
关键词 传统架构IOE hadoop平台 应用迁移 实现探索
原文传递
Hadoop云平台优化策略研究
19
作者 刘毅 《科技尚品》 2015年第11期27-28,共2页
随着Hadoop平台的日益完善,其应用范围越来越普及,但仍然存在诸多影响性能的问题,比如调度算法中Hadoop配置对象开销大、Map Reduce阶段中排序对象的序列化及反序列的高开销问题。本文针对以上问题,提出解决方案。
关键词 hadoop平台 优化策略
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部