期刊文献+
共找到390篇文章
< 1 2 20 >
每页显示 20 50 100
大数据——正在发生的深刻变革 被引量:31
1
作者 刘鹏 吴兆峰 胡谷雨 《中兴通讯技术》 2013年第4期2-7,共6页
介绍和比较了大数据在存储、管理、处理及挖掘方面全球主要的技术。大数据技术总的趋势是通过分布式计算来解决"瓶颈"问题。由于不能完全依赖提高单个节点性能的方式提升系统整体性能,因此需要通过增加系统内节点数目的方式... 介绍和比较了大数据在存储、管理、处理及挖掘方面全球主要的技术。大数据技术总的趋势是通过分布式计算来解决"瓶颈"问题。由于不能完全依赖提高单个节点性能的方式提升系统整体性能,因此需要通过增加系统内节点数目的方式来达到目的。可以将存储、处理和分析的任务通过分布式的方式分散到系统中各个节点上来加快数据的存储、处理和分析的速度。 展开更多
关键词 大数据 新摩尔定律 云计算 数据挖掘 hadoop平台
下载PDF
基于私有云和物理机的混合型大数据平台设计及实现 被引量:31
2
作者 王永坤 罗萱 金耀辉 《计算机工程与科学》 CSCD 北大核心 2018年第2期191-199,共9页
大数据分析技术的广泛应用离不开大数据平台的支撑,构建大数据平台已经是很多企业和机构的重要需求。构建大数据平台需要复杂的系统性的技术,特别是需要考虑系统性能和可扩展性两方面需求。随着数据体量不断增大、用户需求不断增多,规... 大数据分析技术的广泛应用离不开大数据平台的支撑,构建大数据平台已经是很多企业和机构的重要需求。构建大数据平台需要复杂的系统性的技术,特别是需要考虑系统性能和可扩展性两方面需求。随着数据体量不断增大、用户需求不断增多,规划时的数据平台规模很可能不能满足不断变化的需求。因此,设计了一种混合的大数据平台架构:混合使用物理服务器和私有云云主机的大数据平台。这样就兼顾了性能和可扩展性:由于物理服务器性能一般要高于云上的虚拟机,所以构建在物理服务器上的大数据平台,性能一般要好于构建在私有云上大数据平台;从私有云上启动云服务器非常方便、快捷,所以大数据平台的计算和存储结点可以动态弹性地扩容到私有云上,从而保证高峰期的时候大数据平台仍然可以有充足的处理能力。在生产环境实现了这种混合型设计,在生产环境中的测试也表明了这种设计的有效性。 展开更多
关键词 大数据 私有云 大数据分析 大数据处理 数据平台 hadoop OPENSTACK
下载PDF
基于并行计算的大数据挖掘技术及其在电站锅炉性能优化中的应用 被引量:28
3
作者 刘炳含 付忠广 +2 位作者 王永智 王鹏凯 高学伟 《动力工程学报》 CAS CSCD 北大核心 2018年第6期431-439,共9页
针对传统数据挖掘方法无法胜任与日俱增的海量数据挖掘工作的问题,引入大数据挖掘技术,以粗糙集属性约简方法为基础,对经典K-means聚类算法进行改进,实现其在Hadoop平台的MapReduce框架上的并行化计算,形成满足海量数据挖掘工作的新算... 针对传统数据挖掘方法无法胜任与日俱增的海量数据挖掘工作的问题,引入大数据挖掘技术,以粗糙集属性约简方法为基础,对经典K-means聚类算法进行改进,实现其在Hadoop平台的MapReduce框架上的并行化计算,形成满足海量数据挖掘工作的新算法。以某600 MW燃煤发电机组海量运行数据为挖掘对象,采用新算法对典型负荷工况下影响锅炉效率的运行参数进行挖掘,挖掘出可调控机组运行参数的最优目标值。结果表明:新算法可用于锅炉海量运行数据优化目标值的确定,节能减排效果良好,其挖掘出的优化目标值代表了历史最优可达值,可指导锅炉优化运行。 展开更多
关键词 锅炉优化 粗糙集 K-MEANS聚类算法 hadoop平台
下载PDF
基于大数据的全业务统一数据中心数据分析域建设研究 被引量:28
4
作者 朱碧钦 吴飞 罗富财 《电力信息与通信技术》 2017年第2期91-96,共6页
随着各业务信息系统建设和应用的不断深入,国网福建电力已积累了大量结构化、非结构化、电网GIS、海量历史和海量准实时等业务数据资源,且目前构建的数据中心大多采用传统技术,扩展性不强,建设成本极高,计算处理及分析挖掘能力有限。文... 随着各业务信息系统建设和应用的不断深入,国网福建电力已积累了大量结构化、非结构化、电网GIS、海量历史和海量准实时等业务数据资源,且目前构建的数据中心大多采用传统技术,扩展性不强,建设成本极高,计算处理及分析挖掘能力有限。文章提出采用大数据技术构建国网福建电力全业务统一数据中心数据分析域,实现统一分析服务应用,加快分析决策类应用与数据分析域的融合改造,为公司分析型应用提供高效的分析计算能力及统一的运行环境,以有效推进数据管理与应用,支撑企业级数据分析应用的全面开展。 展开更多
关键词 大数据 hadoop 数据挖掘 分布式平台
下载PDF
大数据下基于Spark的电商实时推荐系统的设计与实现 被引量:22
5
作者 岑凯伦 于红岩 杨腾霄 《现代计算机》 2016年第16期61-69,共9页
大数据下基于Hadoop平台构建的电商推荐系统存在着计算缓慢、无法根据用户实时行为作出推荐的问题。针对以上问题,设计和实现基于Spark平台的电商实时推荐系统。与Hadoop平台构建的推荐系统相比,系统首先基于Spark平台构建了分布式日志... 大数据下基于Hadoop平台构建的电商推荐系统存在着计算缓慢、无法根据用户实时行为作出推荐的问题。针对以上问题,设计和实现基于Spark平台的电商实时推荐系统。与Hadoop平台构建的推荐系统相比,系统首先基于Spark平台构建了分布式日志采集模块和分布式日志数据传输模块,用于采集和传输用户隐式行为日志,解决电子商务跨系统数据源收集问题;其次在统一数据源的基础上,采用基于Spark的矩阵分解推荐模型进行离线训练,提升离线推荐训练的效率;进而在离线推荐的基础上,提出一种使用Spark Streaming实时流技术对电商日志数据做实时过滤,获取用户当前所需商品,并将离线推荐结果与实时推荐结果通过统一介质融合的方案,实现对用户隐式行为进行实时推荐反馈的功能。最后经实验证明,基于Spark平台的电商实时推荐系统相对于Hadoop平台的电商推荐系统具有更高的可靠性和稳定性,能够承载大规模数据量,离线推荐训练速度相对于Hadoop平台提高10倍,并且对用户的实时行为也能够作出实时推荐反馈,提升5%的交易转化率,增强电商网站的用户体验。 展开更多
关键词 大数据 Spark平台 hadoop平台 实时推荐 用户隐式行为
下载PDF
基于MapReduce模型的并行遗传k-means聚类算法 被引量:22
6
作者 贾瑞玉 管玉勇 李亚龙 《计算机工程与设计》 CSCD 北大核心 2014年第2期657-660,共4页
为了提高遗传k-means算法时间效率和聚类结果的正确率,利用遗传算法的粗粒度并行化设计思想,提出了在Hadoop平台下将遗传k-means算法进行并行化设计。将各个子种群编号作为个体区分,个体所包含的各个聚类中心和其适应度作为值共同作为... 为了提高遗传k-means算法时间效率和聚类结果的正确率,利用遗传算法的粗粒度并行化设计思想,提出了在Hadoop平台下将遗传k-means算法进行并行化设计。将各个子种群编号作为个体区分,个体所包含的各个聚类中心和其适应度作为值共同作为个体的输入;在并行化过程中,设计了较优的种群迁移策略来避免早熟现象的发生。实验对不同的数据集进行处理,实验结果表明,并行化的遗传k-means算法在处理较大数据集时比传统的串行算法在时间上和最后的结果上都具有明显的优越性。 展开更多
关键词 遗传算法 K-MEANS算法 MAPREDUCE模型 hadoop平台 并行化
下载PDF
基于大数据分析技术的光纤通信系统安全态势预测 被引量:20
7
作者 何卫华 王宏 《现代电子技术》 北大核心 2020年第7期6-9,共4页
为了获得理想的光纤通信系统安全态势预测效果,针对光纤通信系统安全态势预测建模过程中存在的一些问题,设计基于大数据分析技术的光纤通信系统安全态势预测方法。首先,搭建光纤通信系统安全态势预测的Hadoop分布式数据处理平台;然后,... 为了获得理想的光纤通信系统安全态势预测效果,针对光纤通信系统安全态势预测建模过程中存在的一些问题,设计基于大数据分析技术的光纤通信系统安全态势预测方法。首先,搭建光纤通信系统安全态势预测的Hadoop分布式数据处理平台;然后,收集光纤通信系统安全态势变化的历史样本,并采用多个极限学习机并行对光纤通信系统安全态势数据进行训练,构建光纤通信系统安全态势预测模型;最后,采用Matlab 2017编程实现光纤通信系统安全态势预测仿真对照测试。结果表明,大数据分析技术的光纤通信系统安全态势预测精度超过95%,预测误差远远小于对照方法,降低了预测建模的时间复杂度,光纤通信系统安全态势预测效率得到了明显提升,具有更优的实际应用价值。 展开更多
关键词 光纤通信系统 安全态势 分布式数据处理技术 hadoop平台 预测模型 仿真测试
下载PDF
基于云计算的水文数据共享平台的应用研究 被引量:18
8
作者 尹炜靖 万定生 关兴中 《信息技术》 2013年第8期68-72,共5页
水文数据是研究水问题重要的基础信息,是我国重要的基础性科学数据资源之一。研究云计算现有的特点,结合水文数据规模庞大、分布地域广泛等特点,分析开源性云平台Ha-doop中分布式文件系统HDFS、计算模型Map/Reduce、数据仓库Hive技术,... 水文数据是研究水问题重要的基础信息,是我国重要的基础性科学数据资源之一。研究云计算现有的特点,结合水文数据规模庞大、分布地域广泛等特点,分析开源性云平台Ha-doop中分布式文件系统HDFS、计算模型Map/Reduce、数据仓库Hive技术,设计基于Hadoop的水文云平台,并解决平台实现过程中服务器虚拟化、大规模异构水文数据存储以及元数据管理等关键性问题。最终使得平台具有安全可靠、易维护和良好的可扩展性的特点。 展开更多
关键词 云计算 水文数据 共享平台 hadoop
下载PDF
基于大数据与LDA融合的微博信息推荐方法研究 被引量:17
9
作者 崔金栋 杜文强 关杨 《情报科学》 CSSCI 北大核心 2018年第9期27-31,76,共6页
【目的/意义】由于信息总量的巨大和用户矩阵的稀疏,LDA模型在微博信息推荐过程中短文本处理能力差的缺点被放大。【方法/过程】本文利用大数据技术处理海量信息的优势,探讨大数据与LDA主题模型融合的可行性,构建出了大数据技术与LDA融... 【目的/意义】由于信息总量的巨大和用户矩阵的稀疏,LDA模型在微博信息推荐过程中短文本处理能力差的缺点被放大。【方法/过程】本文利用大数据技术处理海量信息的优势,探讨大数据与LDA主题模型融合的可行性,构建出了大数据技术与LDA融合的推荐模型,实现在利用大数据技术对海量文本预处理的基础上基于LDA模型的微博信息推荐,解决微博信息推荐查全率和查准率差的问题。【结果/结论】通过Hadoop平台上的实证分析表明,融合模型可有效的降低混淆度和提升微博信息推荐精度,有利于实现信息的个性化和定制化推荐。 展开更多
关键词 大数据 LDA模型 微博信息推荐 hadoop平台
原文传递
基于Hadoop的电信BSS大数据平台建设研究 被引量:16
10
作者 陈娜 徐歆壹 +1 位作者 宋红兵 何毅 《电信科学》 北大核心 2013年第3期36-40,47,共6页
当前电信运营商从传统的"话音+短信+增值业务"的业务模式转变为"话音+应用+流量"的业务模式,电信的核心战略转向流量经营。在该背景下,大数据是电信IT支撑面临的首要技术课题。本文主要研究使用Hadoop平台搭建流量... 当前电信运营商从传统的"话音+短信+增值业务"的业务模式转变为"话音+应用+流量"的业务模式,电信的核心战略转向流量经营。在该背景下,大数据是电信IT支撑面临的首要技术课题。本文主要研究使用Hadoop平台搭建流量经营大数据管理和大数据服务的一种分布式平台,同时通过实验数据,论证该平台与传统IT架构对比的优势。 展开更多
关键词 大数据 平台 hadoop HBASE 高可用
下载PDF
基于Hadoop平台的改进关联规则挖掘算法 被引量:15
11
作者 王英博 马菁 +1 位作者 柴佳佳 赵彬 《计算机工程》 CAS CSCD 北大核心 2016年第10期69-74,79,共7页
数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调... 数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调度完成频繁项集挖掘,在强关联挖掘中通过Sqoop组件将外部表Hive中的数据迁移到Redis,实现数据的高速读取。实验结果表明,该方法可有效提高挖掘效率,提高幅度随数据集规模同步增大,并且具有较好的加速比和扩展性。 展开更多
关键词 hadoop平台 MapReduce编程 关联规则 大数据 数据挖掘
下载PDF
融合遗传算法和关联规则的数据挖掘方法改进 被引量:15
12
作者 孙红 李存进 《数据采集与处理》 CSCD 北大核心 2019年第5期863-871,共9页
提出了一种融合改进遗传算法(Genetic algorithm,GA)和关联规则的数据挖掘方法,首先将GA交叉算子和变异算子进行自适应改进,使其在迭代过程中能够根据函数适应度值自适应调节;然后将改进后的自适应GA融入到关联规则中,充分利用GA良好的... 提出了一种融合改进遗传算法(Genetic algorithm,GA)和关联规则的数据挖掘方法,首先将GA交叉算子和变异算子进行自适应改进,使其在迭代过程中能够根据函数适应度值自适应调节;然后将改进后的自适应GA融入到关联规则中,充分利用GA良好的全局搜索能力,提高处理海量数据关联规则的挖掘效率。为了避免无用规则,减少不相关性的存在,在此基础上融入亲密度以提高关联规则的可靠性。在Hadoop大数据平台上通过分析交通数据验证优化后的算法,与传统方法相比,该方法提高了算法的收敛速度和鲁棒性。 展开更多
关键词 大数据 关联规则 自适应 遗传算法(GA) 亲密度 hadoop平台
下载PDF
面向MapReduce的数据处理流程开发方法 被引量:14
13
作者 易小华 刘杰 叶丹 《计算机科学与探索》 CSCD 2011年第2期161-169,共9页
数据处理流程在信息爆炸的今天被广泛应用并呈现出海量和并行的特点,MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理,但是MapReduce不支持多数据源的数据处理,不能直接应用于具有多个处理操作、多个数据流分支的... 数据处理流程在信息爆炸的今天被广泛应用并呈现出海量和并行的特点,MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理,但是MapReduce不支持多数据源的数据处理,不能直接应用于具有多个处理操作、多个数据流分支的数据处理流程。提出一种模型驱动的面向MapReduce计算模型的数据处理流程快速开发方法,定义数据处理流程的逻辑模型、物理模型和组件模型,使用模型转换算法和代码生成算法将逻辑模型转化为物理模型,再转换为能直接在Hadoop平台上运行的MapReduce程序,基于该方法实现了一个开发工具CloudDataFlow。实验表明该方法可以有效提高数据流程的处理效率。 展开更多
关键词 MAPREDUCE 数据处理流程 模型驱动 hadoop平台
下载PDF
基于MapReduce的Web日志挖掘 被引量:15
14
作者 李彬 刘莉莉 《计算机工程与应用》 CSCD 2012年第22期95-98,共4页
针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Ha... 针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Hadoop平台,利用该算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,充分利用了集群系统的分布式计算能力处理大量的Web日志文件,可以大大地提高Web数据挖掘的效率。 展开更多
关键词 云计算 MAP/REDUCE hadoop平台 WEB日志挖掘 蚁群算法
下载PDF
基于Hadoop平台的日志分析模型 被引量:14
15
作者 于兆良 张文涛 +2 位作者 葛慧 艾伟 孙运乾 《计算机工程与设计》 北大核心 2016年第2期338-344,428,共8页
为提高企业网络内海量日志数据的分析效率,构建基于Hadoop平台的日志分析模型。对模型框架进行总体设计,提出一种MapReduce编程模式的Apriori并行化算法,基于该算法对历史日志进行数据挖掘分析,计算用户行为的频繁模式,建立用户正常行... 为提高企业网络内海量日志数据的分析效率,构建基于Hadoop平台的日志分析模型。对模型框架进行总体设计,提出一种MapReduce编程模式的Apriori并行化算法,基于该算法对历史日志进行数据挖掘分析,计算用户行为的频繁模式,建立用户正常行为规则库,将实时日志与规则库中的规则进行模式匹配,实现对用户异常行为的检测。实验结果表明,该模型算法明显提高了日志分析效率。 展开更多
关键词 hadoop平台 日志分析 MapReduce编程模式 APRIORI算法 数据挖掘 并行化
下载PDF
一种基于MongoDB和Hadoop的海量非结构化物联网数据处理方案 被引量:13
16
作者 杨鹏 林俊晖 《微电子学与计算机》 CSCD 北大核心 2018年第4期68-72,78,共6页
随着物联网数据种类的增多和数据规模的增大,对物联网数据的存储和计算提出了新的挑战,为了应对海量非结构化物联网数据的存储和计算要求,提出了一种NoSQL数据库技术与MapReduce编程框架相结合的方案.使用典型的NoSQL数据库MongoDB作为... 随着物联网数据种类的增多和数据规模的增大,对物联网数据的存储和计算提出了新的挑战,为了应对海量非结构化物联网数据的存储和计算要求,提出了一种NoSQL数据库技术与MapReduce编程框架相结合的方案.使用典型的NoSQL数据库MongoDB作为主数据库来存储海量非结构化的物联网数据,使用Hadoop MapReduce作为对物联网数据分析处理的计算框架.通过对MongoDB集群和Hadoop集群的重叠部署,降低了计算时数据传输的开销,构建了一套高可用、高性能的物联网大数据处理平台.通过使用该方案对海量非结构化物联网数据的处理分析实验验证了该方案的高可用性及高效性. 展开更多
关键词 物联网 大数据 NOSQL hadoop平台 MongoDB数据库
下载PDF
基于大数据的输变电设备缺陷评估示范平台设计 被引量:13
17
作者 夏拥 王奇 +2 位作者 张晗 张厚荣 宋云海 《电网与清洁能源》 2019年第12期15-19,共5页
针对当前电网可靠性问题,结合输变电运行特点,在输变电设备缺陷分析平台需求基础上,提出一种基于Hadoop的输变电设备缺陷分析平台。首先分析该平台的需求,并给出系统整体架构;其次从数据存储和查询效率入手,采用Hadoop架构对数据进行存... 针对当前电网可靠性问题,结合输变电运行特点,在输变电设备缺陷分析平台需求基础上,提出一种基于Hadoop的输变电设备缺陷分析平台。首先分析该平台的需求,并给出系统整体架构;其次从数据存储和查询效率入手,采用Hadoop架构对数据进行存储,采用CMCH算法提高数据查询效率。再次构建设备缺陷评估模块,通过加权分值计算方式,实现设备缺陷等级的划分;最后通过搭建Hadoop平台对该方案进行验证,结果表明,该方案可有效提高数据查询能力,实现对输变电设备缺陷数据的处理。 展开更多
关键词 hadoop平台 CMCH算法 输变电设备 缺陷评估
下载PDF
基于Hadoop平台的数据挖掘算法应用研究 被引量:12
18
作者 陈娥祥 《渤海大学学报(自然科学版)》 CAS 2018年第3期274-280,共7页
Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖... Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率. 展开更多
关键词 hadoop平台 数据挖掘 聚类算法 贝叶斯算法
下载PDF
大数据算法库教学实验平台设计与实现 被引量:12
19
作者 赵亮 陈志奎 《实验技术与管理》 CAS 北大核心 2020年第6期197-201,206,共6页
为使学生能够亲身体验大数据研究及实践流程,并改进传统数据分析课程相对陈旧的实验内容,文章以该校大数据研究所的研究成果为基础,为学生构建了基于Hadoop的大数据算法库教学实验平台。该平台适用于数据高并发场景,能够适应复杂大数据... 为使学生能够亲身体验大数据研究及实践流程,并改进传统数据分析课程相对陈旧的实验内容,文章以该校大数据研究所的研究成果为基础,为学生构建了基于Hadoop的大数据算法库教学实验平台。该平台适用于数据高并发场景,能够适应复杂大数据处理及计算需求。并在平台基础上实现了土地大数据教学案例,通过友好的界面化操作,为学生提供了一套全生命周期的大数据处理解决方案。 展开更多
关键词 算法库 大数据 hadoop 实验平台
下载PDF
基于云平台的医院大数据中心构建研究 被引量:12
20
作者 刘晶 左秀然 杨国良 《中国数字医学》 2016年第7期14-16,共3页
为深度挖掘现有信息系统数据资源,满足医院业务发展需要,提出构建基于云平台的医院大数据中心,主要从各系统数据关联情况、平台架构、应用服务体系等方面进行阐述,建立临床诊疗、业务运营等五大数据主题库,完善了基于大数据的应用服务... 为深度挖掘现有信息系统数据资源,满足医院业务发展需要,提出构建基于云平台的医院大数据中心,主要从各系统数据关联情况、平台架构、应用服务体系等方面进行阐述,建立临床诊疗、业务运营等五大数据主题库,完善了基于大数据的应用服务体系。实践表明,大数据中心的应用能有效提高临床工作效率,提升医院服务能力。 展开更多
关键词 医院信息化 hadoop 云平台 大数据
下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部