期刊文献+
共找到833篇文章
< 1 2 42 >
每页显示 20 50 100
基于云计算的海量数据挖掘研究 被引量:97
1
作者 贺瑶 王文庆 薛飞 《计算机技术与发展》 2013年第2期69-72,共4页
为了实现高效率低成本的海量数据挖掘,为企业决策提供参考,提出了基于云计算的海量数据挖掘模型。该模型中海量数据的处理和存储都是在云计算环境中进行的,首先对海量的数据进行一定的预处理,形成结构一致的数据后,应用云计算平台上的Ma... 为了实现高效率低成本的海量数据挖掘,为企业决策提供参考,提出了基于云计算的海量数据挖掘模型。该模型中海量数据的处理和存储都是在云计算环境中进行的,首先对海量的数据进行一定的预处理,形成结构一致的数据后,应用云计算平台上的MapReduce模型进行高效的并行数据处理,最后得到所需的数据挖掘结果。基于云计算的海量数据挖掘的效率明显高于传统的数据挖掘,并且数据挖掘结果的准确性有了一定的提高,而且随着数据量的增多,该模型的优势会愈发明显。 展开更多
关键词 云计算 数据挖掘 海量数据 MAPREDUCE 数据预处理
下载PDF
基于大数据平台的电网线损与窃电预警分析关键技术 被引量:92
2
作者 李端超 王松 +3 位作者 黄太贵 程栩 许小龙 窦万春 《电力系统保护与控制》 EI CSCD 北大核心 2018年第5期143-151,共9页
提出了一种基于营配调贯通的海量数据分析技术,采用电力大数据平台关键技术构建电网线损与窃电预警分析系统,实现线损的一体化计算、分析与展示。在线损计算结果的基础上,综合利用电网企业现有海量数据,通过采用Hadoop离线分布式计算、S... 提出了一种基于营配调贯通的海量数据分析技术,采用电力大数据平台关键技术构建电网线损与窃电预警分析系统,实现线损的一体化计算、分析与展示。在线损计算结果的基础上,综合利用电网企业现有海量数据,通过采用Hadoop离线分布式计算、Spark内存计算等大数据技术对线损率异常线路或台区进行深度挖掘,识别出可能存在的窃电行为,为供电企业反窃电稽查提供窃电预警和数据支持服务,进一步提升供电企业的经营效益。本系统的构建为大数据技术在电力行业的应用进行了验证和实践。 展开更多
关键词 海量数据 大数据平台 电网线损 窃电预警 一体化计算
下载PDF
基于云计算的数据挖掘平台架构及其关键技术研究 被引量:76
3
作者 丁岩 杨庆平 钱煜明 《中兴通讯技术》 2013年第1期53-56,60,共5页
随着云计算时代的到来,传统数据挖掘系统在海量数据的分析挖掘方面存在性能瓶颈。文章提出了基于云计算的数据挖掘平台,该平台与传统的数据挖掘系统架构相比有高可扩展性、海量数据处理能力、面向服务、硬件成本低廉等优越性,可以支持... 随着云计算时代的到来,传统数据挖掘系统在海量数据的分析挖掘方面存在性能瓶颈。文章提出了基于云计算的数据挖掘平台,该平台与传统的数据挖掘系统架构相比有高可扩展性、海量数据处理能力、面向服务、硬件成本低廉等优越性,可以支持大范围分布式数据挖掘的设计和应用。该平台能极大减少运营商、企业在数据挖掘技术上的投入并能加快其挖掘业务的推出,缩短研发周期,进一步提高产品收益。 展开更多
关键词 数据挖掘平台 云计算 数据挖掘云 海量数据
下载PDF
智能配用电大数据存储架构设计 被引量:67
4
作者 葛磊蛟 王守相 瞿海妮 《电力自动化设备》 EI CSCD 北大核心 2016年第6期194-202,共9页
针对智能配用电数据海量、高维度、多源异构等特点,提出一种大数据存储的三层管理框架设计方案。首先,对智能配用电数据组成进行分类划分。然后,提出智能配用电数据存储的资源层、元数据层和实际数据层的三层管理框架,在资源管理层,应... 针对智能配用电数据海量、高维度、多源异构等特点,提出一种大数据存储的三层管理框架设计方案。首先,对智能配用电数据组成进行分类划分。然后,提出智能配用电数据存储的资源层、元数据层和实际数据层的三层管理框架,在资源管理层,应用虚拟化技术、负载均衡和资源调度完成对物理资源的管理;在元数据管理层,使用数据预处理技术对智能配用电的元数据进行分类,采用中间件技术完成XML元数据仓库管理;在实际数据管理层,利用NoSQL技术,通过Map和Reduce的有效结合,完成海量数据的分层分区快速存储。最后,在实验室环境下对该设计方案进行初步的应用,验证了所设计方案能够对结构化、半结构化和非结构化数据进行统一存储,可为智能配用电大数据技术的应用提供基础支撑作用。 展开更多
关键词 大数据 海量数据 框架设计 智能配用电 数据处理 存储
下载PDF
基于云计算的海量数据存储模型 被引量:63
5
作者 侯建 帅仁俊 侯文 《通信技术》 2011年第5期163-165,共3页
针对目前网络产生的数据越来越多以及随之而来的海量数据的存储问题,在云计算技术上,依据Hadoop及虚拟化技术,提出了基于云计算的海量数据存储模型。将医院信息化的海量数据部署在Hadoop平台上,根据云计算的核心算法MapReduce来处理数据... 针对目前网络产生的数据越来越多以及随之而来的海量数据的存储问题,在云计算技术上,依据Hadoop及虚拟化技术,提出了基于云计算的海量数据存储模型。将医院信息化的海量数据部署在Hadoop平台上,根据云计算的核心算法MapReduce来处理数据,最后将数据存储在虚拟资源池中。通过实际的应用,该模型可以很好地克服现行的存储方式存在的不足,解决海量数据在存储当中存在的问题,并且能够很好地提高存储的效率。 展开更多
关键词 云计算 海量数据 存储模型 HADOOP MAPREDUCE
原文传递
一种基于数据分块的海量地形快速漫游方法 被引量:30
6
作者 马照亭 潘懋 +2 位作者 胡金星 吴焕萍 王占刚 《北京大学学报(自然科学版)》 CAS CSCD 北大核心 2004年第4期619-625,共7页
大范围、海量地形数据的快速漫游是GIS、虚拟现实、游戏、仿真等领域的关键技术与难点之一。在目前地形数据简化算法的基础上 ,结合计算机硬件技术的发展 ,采用基于数据分块、部分数据常驻内存以及与视点相关的静态LOD模型实现了对任意... 大范围、海量地形数据的快速漫游是GIS、虚拟现实、游戏、仿真等领域的关键技术与难点之一。在目前地形数据简化算法的基础上 ,结合计算机硬件技术的发展 ,采用基于数据分块、部分数据常驻内存以及与视点相关的静态LOD模型实现了对任意格网大小海量地形数据的快速漫游。基于块节点的视景体裁剪、三角形条带组织以及边界裂缝消除、视觉光滑处理等手段的运用 。 展开更多
关键词 海量数据 地形漫游 数据分块 视景体裁剪 静态层次细节
下载PDF
基于任务合并的并行大数据清洗过程优化 被引量:47
7
作者 杨东华 李宁宁 +2 位作者 王宏志 李建中 高宏 《计算机学报》 EI CSCD 北大核心 2016年第1期97-108,共12页
数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导... 数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能降低.因此文中的目的是对并行数据清洗过程进行优化从而提高效率.通过研究,作者发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现文中提出了一种新的优化技术——基于任务合并的优化技术.针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标.文中针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化.实验结果表明,文中提出的策略可以有效提高数据清洗的效率. 展开更多
关键词 大数据 多任务优化 海量数据 数据清洗 HADOOP MAPREDUCE
下载PDF
大数据背景下的高校学生网格化管理模式构建 被引量:47
8
作者 洪雷 张佩 《现代教育管理》 CSSCI 北大核心 2017年第12期96-101,共6页
随着高等教育大众化时代的来临,高校办学规模不断扩大,学生人数急剧扩张的同时也带来了学生结构的重大变化。在大数据背景下,推进学生网格化管理是促进高校创建和谐平安校园,提升校园治理体系与治理能力现代化的一种有效途径。需要对学... 随着高等教育大众化时代的来临,高校办学规模不断扩大,学生人数急剧扩张的同时也带来了学生结构的重大变化。在大数据背景下,推进学生网格化管理是促进高校创建和谐平安校园,提升校园治理体系与治理能力现代化的一种有效途径。需要对学生宿舍区进行网格划分,将学生编入基本单元网格中,利用现代信息技术,整合高校各类学生信息数据平台,实现学生管理信息化及生活服务社区化目标。 展开更多
关键词 大数据 网格化 高校学生管理
下载PDF
基于Map-Reduce的海量数据高效Skyline查询处理 被引量:44
9
作者 丁琳琳 信俊昌 +1 位作者 王国仁 黄山 《计算机学报》 EI CSCD 北大核心 2011年第10期1785-1796,共12页
Skyline查询已成为现今数据库和信息检索领域的研究热点之一,伴随着人类可以采集和利用的数据信息的急剧增长,使得如何处理海量数据的Skyline查询成为急需解决的问题.近年来兴起的Map-Reduce编程框架能够有效地处理基于海量数据的应用,... Skyline查询已成为现今数据库和信息检索领域的研究热点之一,伴随着人类可以采集和利用的数据信息的急剧增长,使得如何处理海量数据的Skyline查询成为急需解决的问题.近年来兴起的Map-Reduce编程框架能够有效地处理基于海量数据的应用,该文既是研究如何运用Map-Reduce编程框架解决海量数据的Skyline查询问题.在Map-Reduce框架下处理Skyline查询的直接方法是扫描整个数据集进而得到查询结果,但是在海量数据Skyline查询问题中,查询结果的数量远小于原始数据集的数据量,对此该文提出了一系列的Skyline查询算法及优化,有效地过滤掉部分不能成为Skyline查询结果的数据对象,大幅度提高了在Map-Reduce框架下处理Skyline查询的效率.大量运行在Hadoop平台上的实验验证了该文所提出的Skyline查询处理算法具有良好的有效性、准确性和可用性. 展开更多
关键词 云计算 SKYLINE查询 MAP-REDUCE 海量数据 HADOOP
下载PDF
基于分布式文件系统的海量电能质量监测数据管理方案 被引量:42
10
作者 张逸 杨洪耕 叶茂清 《电力系统自动化》 EI CSCD 北大核心 2014年第2期102-108,共7页
目前,电能质量监测数据已经呈现海量化的趋势,如果仅用关系数据库存储,将带来存储占用空间大、存取速度慢、可扩展性差等问题。文中通过分析现有电能质量监测系统中的数据存取特征和硬件环境,提出了一种基于分布式文件系统的海量电能质... 目前,电能质量监测数据已经呈现海量化的趋势,如果仅用关系数据库存储,将带来存储占用空间大、存取速度慢、可扩展性差等问题。文中通过分析现有电能质量监测系统中的数据存取特征和硬件环境,提出了一种基于分布式文件系统的海量电能质量监测数据管理方案。此方案将不同电能质量指标的历史监测数据分别压缩后存储在文件中;利用现有监测子站以及相关系统的分布式异构服务器作为文件服务器以存储数据文件;利用监测主站服务器作为主服务器,保存数据特征值和文件索引,并对文件资源进行统一管理。此方案充分利用了各服务器的存储空间和网络带宽,节约了存储空间,提高了存取效率,具有较高的可靠性和可扩展性。以存储100个监测点180 d数据为例,此方案存储空间占用仅为传统关系数据库方案的2.28%;以检索某个监测点180 d的5次谐波三相电压幅值数据为例,此方案加速比约为16.49倍。在四川电能质量一体化数据平台中的成功应用证明了此方案的可靠性和实用性。 展开更多
关键词 电能质量 海量数据 分布式文件系统 文件分块机制 容错机制
下载PDF
城市三维地理信息系统中海量数据的数据库组织与管理 被引量:38
11
作者 朱国敏 马照亭 +1 位作者 孙隆祥 李成名 《测绘科学》 CSCD 北大核心 2008年第1期238-240,共3页
如何有效地组织和管理城市三维地理信息系统中海量级的三维数据是目前研究的一个核心问题。针对传统文件管理方式在安全性和并发性方面的不足,基于客户端对数据浏览、查询、管理的需求,作者提出了一种四层数据表结构来组织海量的三维数... 如何有效地组织和管理城市三维地理信息系统中海量级的三维数据是目前研究的一个核心问题。针对传统文件管理方式在安全性和并发性方面的不足,基于客户端对数据浏览、查询、管理的需求,作者提出了一种四层数据表结构来组织海量的三维数据。结合模型管理、场景裁切和场景可视化三种常见的数据应用模式,验证了该数据库组织方式的有效性。 展开更多
关键词 城市三维地理信息系统 海量数据 数据库管理
下载PDF
大型供电企业电能计量自动化系统设计与应用 被引量:41
12
作者 王勇 杨劲锋 申妍华 《电测与仪表》 北大核心 2011年第11期63-66,71,共5页
由于供电企业,特别是大型供电企业管辖的计量点数量庞大,如何构建架构合理、技术先进的电能计量自动化系统,以实时、高效地存储和处理海量用电数据,是供电企业在系统建设过程中面临的颇具挑战性的工作。本文采用分层设计的思想,构建了... 由于供电企业,特别是大型供电企业管辖的计量点数量庞大,如何构建架构合理、技术先进的电能计量自动化系统,以实时、高效地存储和处理海量用电数据,是供电企业在系统建设过程中面临的颇具挑战性的工作。本文采用分层设计的思想,构建了合理的电能计量自动化系统总体架构,并采用集群技术,有效解决了大数据量、高并发情况下系统数据采集的实时性和可扩展性问题,同时,利用分布式计算的思想解决了海量数据存储和处理问题。本文提出的设计思想及方案成功应用于广东电网公司东莞供电局电能计量自动化系统建设,取得了良好的效果。 展开更多
关键词 电能计量自动化系统 海量数据 集群 分布式计算
下载PDF
基于Hadoop平台的海量文本分类的并行化 被引量:35
13
作者 向小军 高阳 +1 位作者 商琳 杨育彬 《计算机科学》 CSCD 北大核心 2011年第10期184-188,共5页
文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-doop分布式平台下实现了一简单... 文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-doop分布式平台下实现了一简单有效的文本分类算法——TFIDF分类算法,即一种基于向量空间模型的分类算法,它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用。 展开更多
关键词 文本分类 并行化 海量数据 HADOOP
下载PDF
海量数据挖掘过程相关技术研究进展 被引量:36
14
作者 米允龙 米春桥 刘文奇 《计算机科学与探索》 CSCD 北大核心 2015年第6期641-659,共19页
随着信息技术的发展,复杂、多样的海量数据给数据挖掘带来了新的挑战。为了更加深入全面地了解大数据环境下的数据挖掘技术的研究进展和应用,从海量数据挖掘过程的技术框架、算法、理论及模式方面进行了详细的阐述。概述了大数据的基本... 随着信息技术的发展,复杂、多样的海量数据给数据挖掘带来了新的挑战。为了更加深入全面地了解大数据环境下的数据挖掘技术的研究进展和应用,从海量数据挖掘过程的技术框架、算法、理论及模式方面进行了详细的阐述。概述了大数据的基本概念、处理流程及面临的问题,简述了数据挖掘的基本过程及相关算法,详细评述了海量数据挖掘过程的研究现状及面临的挑战,并从博弈论的角度、粒计算模型及大数据处理思维方面探讨了海量数据挖掘过程中的处理模式。 展开更多
关键词 海量数据 数据挖掘 博弈论 粒计算 认知计算
下载PDF
“互联网+煤炭”与煤矿信息化 被引量:34
15
作者 孙继平 《煤炭经济研究》 2015年第10期16-19,共4页
"互联网+煤炭"就是将互联网、物联网、移动通信网、大数据、云计算、人工智能等与煤炭行业和企业深度融合,全面提升煤炭勘探、设计、生产、安全、运销、洗选、环保、管理、监管等技术水平和管理水平,促进煤炭行业科技进步和... "互联网+煤炭"就是将互联网、物联网、移动通信网、大数据、云计算、人工智能等与煤炭行业和企业深度融合,全面提升煤炭勘探、设计、生产、安全、运销、洗选、环保、管理、监管等技术水平和管理水平,促进煤炭行业科技进步和产业升级,加快安全、绿色、高效、智能煤矿建设。矿用安全标志准用产品管控、矿用重大关键设备管控与远程维护、持证上岗与专人操作管控、防碰撞、煤与瓦斯突出预警、冲击地压预警、煤炭自燃预警、水害预警、煤矿重大关键设备故障诊断、煤炭需求和价格预测、煤炭智能开采与运输等是"互联网+煤炭"主要研究方向。 展开更多
关键词 “互联网+煤炭” 物联网 大数据 云计算 智能化
原文传递
海量STL文件的快速读取与显示 被引量:26
16
作者 卫炜 周来水 张丽艳 《机械科学与技术》 CSCD 北大核心 2006年第8期935-938,975,共5页
STL文件作为一种通用的三维数据文件格式,广泛应用于快速成型及其他领域。如何快速读取海量数据的STL文件并显示,是模型后续操作的一个首要环节。本文针对海量数据的特点,采用内存映射手段、基于哈希表结构的冗余顶点删除和OpenGL中... STL文件作为一种通用的三维数据文件格式,广泛应用于快速成型及其他领域。如何快速读取海量数据的STL文件并显示,是模型后续操作的一个首要环节。本文针对海量数据的特点,采用内存映射手段、基于哈希表结构的冗余顶点删除和OpenGL中显示列表技术等,对海量STL文件的快速读取和显示进行了研究,并和国外先进软件进行了比较,实验数据表明本文方法较Surfacer软件和RapidForm软件提高效率25%~40%左右。 展开更多
关键词 STL文件 海量数据 图形显示
下载PDF
面向海量数据的并行KMeans算法 被引量:32
17
作者 周丽娟 王慧 +1 位作者 王文伯 张宁 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第S1期150-152,共3页
针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样... 针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘. 展开更多
关键词 并行KMeans 海量数据 云计算 数据挖掘
原文传递
基于Hadoop的海量电信数据云计算平台研究 被引量:29
18
作者 黎宏剑 刘恒 +1 位作者 黄广文 卜立 《电信科学》 北大核心 2012年第8期80-85,共6页
传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对... 传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法 ,建立了基于Hadoop的海量电信数据云计算平台。实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据分析的速度和效率。 展开更多
关键词 云计算平台 HADOOP MAPREDUCE 海量数据 电信运营商
下载PDF
基于Storm的海量数据实时聚类 被引量:30
19
作者 王铭坤 袁少光 +1 位作者 朱永利 王德文 《计算机应用》 CSCD 北大核心 2014年第11期3078-3081,共4页
针对现有平台处理海量数据实时响应能力普遍较差的问题,引入Storm分布式实时计算平台进行大规模数据的聚类分析,设计了基于Storm框架的DBSCAN算法。该算法将整个过程分为数据接入、聚类分析、结果输出等阶段,在框架预定义的组件中分别... 针对现有平台处理海量数据实时响应能力普遍较差的问题,引入Storm分布式实时计算平台进行大规模数据的聚类分析,设计了基于Storm框架的DBSCAN算法。该算法将整个过程分为数据接入、聚类分析、结果输出等阶段,在框架预定义的组件中分别编程实现,各组件通过数据流连通形成任务实体,提交到集群运行完成。通过对比分析和性能监测,验证了所提方案具有低延迟和高吞吐量的优势,集群运行状况良好,负载均衡。实验结果表明Storm平台处理海量数据实时性较高,能够胜任大数据背景下的数据挖掘任务。 展开更多
关键词 STORM 海量数据 聚类 实时分析
下载PDF
图像分块分层结构在海量数据处理中的应用 被引量:19
20
作者 宋江洪 赵忠明 《计算机工程与应用》 CSCD 北大核心 2004年第33期31-33,72,共4页
文章从图像数据的组织结构出发,详细介绍了一种适用于海量图像数据处理的分块分层数据组织结构及其快速索引机制,分析了这种数据结构在实现海量图像数据的快速缩放漫游显示、图像像素值的修改等功能上的实用性与合理性,并且以此为基础... 文章从图像数据的组织结构出发,详细介绍了一种适用于海量图像数据处理的分块分层数据组织结构及其快速索引机制,分析了这种数据结构在实现海量图像数据的快速缩放漫游显示、图像像素值的修改等功能上的实用性与合理性,并且以此为基础设计了对各种图像的像素值修改操作的undo与redo机制。最后从实践上验证了其实用性与合理性。 展开更多
关键词 分块分层 undo与redo 四叉树 海量数据
下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部