期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
一种网格化聚类算法的MapReduce并行化研究 被引量:3
1
作者 张磊 张公让 张金广 《计算机技术与发展》 2013年第2期60-64,共5页
面对增量式增长的聚类数据,受云计算并行化处理模式的启发,文中对一种网格化聚类算法进行了MapReduce并行化研究。该算法首先利用网格处理技术对数据进行预处理,用网格预处理后所得单元的重心点取代该单元中保存的所有点,然后在MapReduc... 面对增量式增长的聚类数据,受云计算并行化处理模式的启发,文中对一种网格化聚类算法进行了MapReduce并行化研究。该算法首先利用网格处理技术对数据进行预处理,用网格预处理后所得单元的重心点取代该单元中保存的所有点,然后在MapReduce框架下将各个单元的重心点作为聚类分析的基本数据单元,进行聚类分析。实验结果表明,该算法MapReduce并行化后部署在Hadoop集群上运行,具有与原来相同的聚类效果,并能节省聚类分析的时间和降低计算的复杂度,适合用于高纬度、增量式的海量数据的分析和挖掘。 展开更多
关键词 网格 聚类 数据挖掘 mapreduce并行化
下载PDF
基于MAPREDUCE并行化处理的用户地址数据规范化存储与管理系统设计 被引量:1
2
作者 陈孝文 陈宁 +4 位作者 李蕊 张应斌 董卫魏 许家伟 林树鸿 《电子测试》 2019年第2期87-88,共2页
电网用户规模庞大,由于历史原因,对其地址数据进行存储和管理难度较大,目前用户地址数据规范化程度较低。针对这一问题,本次研究将基于MAPREDUCE并行处理机制,探讨用户地质数据规范化存储方法,解决其中的关键技术问题,并给出用户地质数... 电网用户规模庞大,由于历史原因,对其地址数据进行存储和管理难度较大,目前用户地址数据规范化程度较低。针对这一问题,本次研究将基于MAPREDUCE并行处理机制,探讨用户地质数据规范化存储方法,解决其中的关键技术问题,并给出用户地质数据规范化存储管理系统的设计方案。 展开更多
关键词 mapreduce并行化处理 用户地址数据 规范化存储 管理系统设计
下载PDF
大数据下基于MapReduce的Dirichlet朴素贝叶斯文本分类算法
3
作者 胡晓东 高嘉伟 《科技通报》 北大核心 2017年第9期124-129,共6页
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,本文提出了一种基于MapReduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调... 针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,本文提出了一种基于MapReduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入了统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用MapReduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,本文算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和大数据处理能力。 展开更多
关键词 朴素贝叶斯 文本分类 TF-IDF修正 Dirichlet数据平滑 mapreduce并行化
下载PDF
非负矩阵MapReduce梯度下降半监督社区发现算法
4
作者 赵霞 魏霖静 肖君 《计算机应用与软件》 北大核心 2018年第4期137-142,198,共7页
为提高社区发现算法性能和计算效率,提出一种非负矩阵MapReduce梯度下降半监督社区发现算法。两个矩阵间存在的Frobenius平方范数差异以及Kullback-leibleer(KL)散度,构建社区发现的矩阵迹优化规则;利用梯度下降法对社区非负矩阵进行求... 为提高社区发现算法性能和计算效率,提出一种非负矩阵MapReduce梯度下降半监督社区发现算法。两个矩阵间存在的Frobenius平方范数差异以及Kullback-leibleer(KL)散度,构建社区发现的矩阵迹优化规则;利用梯度下降法对社区非负矩阵进行求解,并构建基于MapReduce的并行计算方式,同时给出算法的计算复杂度分析。该方法在社区发现过程中无需全程人工参与,是一种半监督社区发现方式。通过仿真实验显示,该算法在社区发现精度、计算效率、模块度、模块密度等指标上要优于选取的对比方法,验证了算法有效性。 展开更多
关键词 非负矩阵 mapreduce并行 梯度下降 半监督 社区发现
下载PDF
基于并行技术的大数据量统计分析探讨 被引量:8
5
作者 王桂强 陆朝俊 《计算机应用与软件》 CSCD 2011年第3期162-165,共4页
当前,企业有着对海量信息数据进行统计分析的迫切需求。面对海量的数据,如何高效地得到统计结果,是分析过程中一个很重要的环节。在分析了当前出现的大数据量处理方法的基础上,进行了比较。得到了并行计算架构的数据库是解决此问题的最... 当前,企业有着对海量信息数据进行统计分析的迫切需求。面对海量的数据,如何高效地得到统计结果,是分析过程中一个很重要的环节。在分析了当前出现的大数据量处理方法的基础上,进行了比较。得到了并行计算架构的数据库是解决此问题的最佳手段,并且进行了性能测试,得到了对比结果。相信对从事相关研究的同行有着一定的参考价值。 展开更多
关键词 mapreduce 并行数据库 SQL Greenplum
下载PDF
云计算下MapReduce多组容错机制架构的分析与研究 被引量:6
6
作者 张治斌 李燕歌 《微电子学与计算机》 CSCD 北大核心 2014年第1期52-55,59,共5页
提出了MapReduce多组容错机制,在传统的Hadoop MapReduce架构上进行改进,即在同机柜中的TaskTracker节点之间增加了多组关系,这样可以缩短发现失效节点的时间,同时减轻JobTracker节点的负荷,减低了带宽使用率,减少网络拥塞.通过实验证明... 提出了MapReduce多组容错机制,在传统的Hadoop MapReduce架构上进行改进,即在同机柜中的TaskTracker节点之间增加了多组关系,这样可以缩短发现失效节点的时间,同时减轻JobTracker节点的负荷,减低了带宽使用率,减少网络拥塞.通过实验证明,MapReduce多组容错机制提高了MapReduce的工作效率. 展开更多
关键词 云计算 mapreduce并行编程模型 多组容错机制
下载PDF
并行Adaboost-BP算法及其在海量图像分类中的应用 被引量:5
7
作者 曹建芳 史昊 赵青杉 《新疆大学学报(自然科学版)》 CAS 北大核心 2017年第1期70-77,共8页
为解决基于单节点架构的传统分类算法存在的时间效率差、分类准确率低等问题,提出了一种基于并行Adaboost-BP神经网络的海量图像分类方法.将BP神经网络作为弱分类器,由Adaboost算法组合15个BP神经网络的输出,构建了强分类器;充分利用了H... 为解决基于单节点架构的传统分类算法存在的时间效率差、分类准确率低等问题,提出了一种基于并行Adaboost-BP神经网络的海量图像分类方法.将BP神经网络作为弱分类器,由Adaboost算法组合15个BP神经网络的输出,构建了强分类器;充分利用了Hadoop平台下Map Reduce并行编程模型,提出了海量图像的自动分类模型,设计了并行Adaboost-BP神经网络算法的Map和Reduce任务.多组实验表明,相对于传统的AdaboostBP神经网络算法,提出的算法在Pascal VOC2007数据集和Caltech256数据集上的平均分类准确率分别提高了14.5%和26.0%,而且算法运行耗时少,系统加速比随集群节点个数增加而增加,在图像规模增加到20 000时,加速比几乎呈线性增长趋势.实验结果充分证明,提出的方法适合海量图像的自动分类和预测. 展开更多
关键词 Adaboost-BP神经网络 图像分类 特征提取 mapreduce并行编程模型
下载PDF
云计算网络数据库中的加密优化模型仿真分析 被引量:4
8
作者 熊婷 汪滢 梅毅 《科学技术与工程》 北大核心 2016年第21期299-302,312,共5页
针对云计算网络数据库中大数据加密耗时长的弊端,提出一种新的并行同态加密(DGHV)方案。在云计算网络环境下,采用DGHV同态加密算法进行初步数据加密,并对加密过程产生的噪声进行去噪处理。引入MapReduce计算框架的并行特性,使用分块算... 针对云计算网络数据库中大数据加密耗时长的弊端,提出一种新的并行同态加密(DGHV)方案。在云计算网络环境下,采用DGHV同态加密算法进行初步数据加密,并对加密过程产生的噪声进行去噪处理。引入MapReduce计算框架的并行特性,使用分块算法对云环境中的大数据进行分割,并采用同态算法进行加密,最后将加密后的密文块汇总,得到整个数据库中的密文。实验结果表明,通过相同的实验平台对云环境网络数据进行加密优化。相比较其他方法针对大数据的处理的加速比较高,能够有效地减少加密时间。 展开更多
关键词 同态加密算法 mapreduce 并行框架 加速比 密钥
下载PDF
基于Hadoop MapReduce并行近似谱聚类算法研究与实现 被引量:4
9
作者 杨煜 赵成贵 《计算机应用与软件》 CSCD 2015年第8期17-21,63,共6页
随着信息时代的来临,互联网产生的大规模高维数据呈现几何级数增长,对其进行谱聚类在计算时间和内存使用上都存在瓶颈问题,尤其是求Laplacian矩阵特征向量分解。鉴于Hadoop MapReduce并行编程模型对密集型数据处理的优势,基于t最近邻稀... 随着信息时代的来临,互联网产生的大规模高维数据呈现几何级数增长,对其进行谱聚类在计算时间和内存使用上都存在瓶颈问题,尤其是求Laplacian矩阵特征向量分解。鉴于Hadoop MapReduce并行编程模型对密集型数据处理的优势,基于t最近邻稀疏化近似相似Laplacian矩阵,设计Hadoop MapReduce并行近似谱聚类算法,以期解决上述瓶颈问题。实验使用UCI Bag of Words数据集验证所设计算法的正确性和有效性,结果显示该并行设计在谱聚类质量和性能方面达到了一定的预期效果。 展开更多
关键词 Hadoop分布式系统 mapreduce并行计算 近似谱聚类算法 稀疏近似相似矩阵 大规模高维数据
下载PDF
融合混合优化组合的大规模场景图像分类算法 被引量:3
10
作者 王燕 曹建芳 李艳飞 《计算机技术与发展》 2019年第9期86-91,共6页
图像获取设备的普及和网络技术的发展导致数字图像迅速增长,面对海量图像,传统的单节点架构的分类算法性能急剧下降。针对上述问题,以场景图像为研究对象,提出了一种集群环境下的融合混合优化和组合技术的大规模图像分类方法。将ABC算法... 图像获取设备的普及和网络技术的发展导致数字图像迅速增长,面对海量图像,传统的单节点架构的分类算法性能急剧下降。针对上述问题,以场景图像为研究对象,提出了一种集群环境下的融合混合优化和组合技术的大规模图像分类方法。将ABC算法和PSO算法优化后的SVM作为弱分类器,由Adaboost算法组合弱分类器输出构建强分类器;利用Hadoop平台下的MapReduce并行编程模型对算法进行并行化设计,提出P-Adaboost-(ABC-PSO-SVM)算法,构造了大规模场景图像的自动分类模型。多组对比实验表明,相对于传统的单机平台下的分类算法,当图像数量达到50000时,该算法在SUN Database场景图像库上的平均分类准确率达87.6%,训练耗时仅为98s。实验结果充分说明,该算法适合大规模场景图像的自动分类预测。 展开更多
关键词 混合优化 ADABOOST算法 集群环境 mapreduce并行编程模型 分类模型
下载PDF
基于并行Adaboost-BP网络的大规模在线学习行为评价 被引量:4
11
作者 曹建芳 郝耀军 《计算机应用与软件》 2017年第7期267-272,共6页
针对传统的在线学习行为评价方法在处理大规模数据集时面临的问题,提出一种基于并行AdaboostBP神经网络的在线学习行为评价方法。将BP神经网络作为弱预测器,由Adaboost算法组合15个BP神经网络的输出,构建了强预测器;充分利用了Hadoop平... 针对传统的在线学习行为评价方法在处理大规模数据集时面临的问题,提出一种基于并行AdaboostBP神经网络的在线学习行为评价方法。将BP神经网络作为弱预测器,由Adaboost算法组合15个BP神经网络的输出,构建了强预测器;充分利用了Hadoop平台下Map Reduce并行编程模型,提出了大规模在线学习行为的自动评价模型,设计了并行Adaboost-BP神经网络算法的Map和Reduce任务。多组实验表明,提出的算法准确率高、运行耗时少,取得了良好的加速比,效率大于0.5,适合大规模在线学习行为的自动评价。 展开更多
关键词 Adaboost-BP 神经网络 在线学习行为 特征提取 Map REDUCE 并行编程模型
下载PDF
大数据环境下最小单调约束闭包Hadoop并行关联规则 被引量:2
12
作者 李春青 李海生 +1 位作者 梁婷婷 赵凯 《中国科技论文》 CAS 北大核心 2015年第20期2356-2361,共6页
针对传统关联规则算法存在较大规则冗余问题,提出基于最小单调约束闭包Hadoop并行化关联规则。首先,基于闭包算子约束规则等价关系集,给出了满足最小单调约束规则集,可有效地将约束规则集划分为不相交的等价规则类,降低冗余规则比率;其... 针对传统关联规则算法存在较大规则冗余问题,提出基于最小单调约束闭包Hadoop并行化关联规则。首先,基于闭包算子约束规则等价关系集,给出了满足最小单调约束规则集,可有效地将约束规则集划分为不相交的等价规则类,降低冗余规则比率;其次针对大数据问题,采用Hadoop框架下Mapreduce并行计算模型,实现最小单调约束闭包关联规则的并行化计算,有效地提升算法对于大数据处理的可拓展性;最后通过在标准测试集上的实验对比,显示了所提算法的有效性。 展开更多
关键词 大数据 闭包算子 最小单调约束 Hadoop框架 关联规则 mapreduce并行计算
下载PDF
基于Hadoop的煤矿图像PCA-SIFT特征提取算法研究 被引量:1
13
作者 米向荣 曹建芳 史昊 《软件导刊》 2018年第12期81-86,共6页
大数据技术已经成为当下热点问题,Hadoop技术在煤矿领域运用也引起了广泛关注。针对传统监控模式下煤矿视频监控系统图像采集点多、历史留存数据量大、不利于后续查找特征图像等问题,提出一种Hadoop平台下PCA-SIFT算子的图像特征提取算... 大数据技术已经成为当下热点问题,Hadoop技术在煤矿领域运用也引起了广泛关注。针对传统监控模式下煤矿视频监控系统图像采集点多、历史留存数据量大、不利于后续查找特征图像等问题,提出一种Hadoop平台下PCA-SIFT算子的图像特征提取算法,研究并改进了MapReduce并行编程模型的任务设计,对传统尺度不变特征转换算法进行了并行化设计,在Hadoop集群下实现了海量煤矿图像的PCA-SIFT并行特征提取。使用汾西矿务局煤矿图像井下数据集进行实验,算法SIFT特征点检测效果好,运行耗时少。在图像数量庞大时,系统加速比几乎呈线性增长趋势,验证了算法处理大规模煤矿图像数据的有效性。 展开更多
关键词 SIFT算子 尺度不变特征 HADOOP平台 mapreduce并行编程模型
下载PDF
基于并行编程计算模型的索贝尔滤波技术 被引量:1
14
作者 徐昌荣 王聪颖 袁秀华 《测绘科学》 CSCD 北大核心 2014年第10期85-88,共4页
随着遥感影像数据量的骤增,单机环境下完成索贝尔边缘滤波运算所需的计算时间也剧增。根据遥感数据的分幅特征,结合MapReduce并行分布式计算模型,本文提出了一种将该运算迁徙到Hadoop集群环境中的方法,以完成海量影像数据的索贝尔滤波... 随着遥感影像数据量的骤增,单机环境下完成索贝尔边缘滤波运算所需的计算时间也剧增。根据遥感数据的分幅特征,结合MapReduce并行分布式计算模型,本文提出了一种将该运算迁徙到Hadoop集群环境中的方法,以完成海量影像数据的索贝尔滤波运算。实验结果表明集群运算能够显著缩短计算时间,并且该计算时间会随着集群节点数目的增加而趋于减少。 展开更多
关键词 索贝尔滤波 集群 HADOOP mapreduce并行分布式计算模型 遥感影像
原文传递
基于项目属性相似和MapReduce并行化的Slope One算法 被引量:2
15
作者 胡旭 鲁汉榕 +1 位作者 陈新 周国安 《空军预警学院学报》 2015年第1期54-58,67,共6页
针对Slope One算法存在预测精度依赖于用户对待预测项目的评分数量的缺陷,提出了一种基于项目属性相似度和Map Reduce并行化的Slope One算法.首先计算项目间的属性相似度,并将其与Slope One算法相融合以提高预测精度,然后在Hadoop平台... 针对Slope One算法存在预测精度依赖于用户对待预测项目的评分数量的缺陷,提出了一种基于项目属性相似度和Map Reduce并行化的Slope One算法.首先计算项目间的属性相似度,并将其与Slope One算法相融合以提高预测精度,然后在Hadoop平台上对改进算法基于Map Reduce进行并行化实现.在Movie Lens数据集上的实验结果表明,相对于Slope One算法和加权Slope One算法,本文提出的改进Slope One算法具有更高的预测精度,并更适用于大规模数据集. 展开更多
关键词 SLOPE One算法 属性相似度 mapreduce并行化
下载PDF
MapReduce计算模型在MODIS数据并行处理系统中的应用研究
16
作者 李红林 周纯喜 +2 位作者 胡磊 张春华 饶若愚 《计算机应用与软件》 CSCD 北大核心 2013年第7期262-264,289,共4页
讨论了传统MODIS数据处理方法中的局限性,提出使用MapReduce计算模型来进行MODIS数据的多节点并行处理的方法,并基于Hadoop系统进行具体实现。该方法把数据处理逻辑和数据存储作为统一的整体部署在各个计算节点上,减少了存储节点到运算... 讨论了传统MODIS数据处理方法中的局限性,提出使用MapReduce计算模型来进行MODIS数据的多节点并行处理的方法,并基于Hadoop系统进行具体实现。该方法把数据处理逻辑和数据存储作为统一的整体部署在各个计算节点上,减少了存储节点到运算节点的数据同步时间,提高了处理效率。对基于时间序列和地理空间分布的方式划分的MODIS数据,有着普遍的适用性。 展开更多
关键词 mapreduce MODIS HADOOP 并行处理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部