期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于大数据决策分析需求的图书馆大数据清洗系统设计 被引量:17
1
作者 马晓亭 《现代情报》 CSSCI 北大核心 2016年第9期107-111,共5页
图书馆的大数据时代已经来临,大数据质量问题是影响图书馆大数据应用的重要因素,而大数据清洗则是提高图书馆大数据质量的主要手段。本文介绍了图书馆不清洁数据的类型与产生原因,设计了基于大数据决策分析需求的图书馆大数据清洗系统,... 图书馆的大数据时代已经来临,大数据质量问题是影响图书馆大数据应用的重要因素,而大数据清洗则是提高图书馆大数据质量的主要手段。本文介绍了图书馆不清洁数据的类型与产生原因,设计了基于大数据决策分析需求的图书馆大数据清洗系统,该系统不仅可以提高大数据清洗的效率和精确度,而且大幅度降低了图书馆大数据决策分析的复杂度。 展开更多
关键词 图书馆 决策分析 大数据清洗 系统设计
下载PDF
地理信息大数据在国土空间规划中的应用 被引量:9
2
作者 缪应江 《工程建设与设计》 2019年第14期251-252,共2页
地理信息大数据按交易类型大致可以分为3类:地理数据、空间媒体数据、轨迹数据。国土空间规划应面向社会公众,利用统一的信息数据平台,根据发展的短板进行编制。而地理信息大数据以及大数据平台能够提供全面的数据支持。论文主要对地理... 地理信息大数据按交易类型大致可以分为3类:地理数据、空间媒体数据、轨迹数据。国土空间规划应面向社会公众,利用统一的信息数据平台,根据发展的短板进行编制。而地理信息大数据以及大数据平台能够提供全面的数据支持。论文主要对地理信息大数据及大数据平台的构建、地理信息大数据的清洗以及地理信息大数据在国土空间规划中的应用进行介绍。 展开更多
关键词 地理信息大数据 大数据清洗 国土空间规划
下载PDF
Spark框架下混合SACS-GS的大数据清洗方法 被引量:4
3
作者 何翼 田华 《西南师范大学学报(自然科学版)》 CAS 北大核心 2020年第7期123-129,共7页
提出一种Spark框架下自适应布谷鸟搜索(self-adaptive cuckoo search,SACS)和引力搜索(Gravitational Search,GS)算法的混合SACS-GS方法,并给出了Spark框架下SACS-GS方法大数据清洗方案.首先提出自适应布谷鸟算法,给出两种改进的搜索策... 提出一种Spark框架下自适应布谷鸟搜索(self-adaptive cuckoo search,SACS)和引力搜索(Gravitational Search,GS)算法的混合SACS-GS方法,并给出了Spark框架下SACS-GS方法大数据清洗方案.首先提出自适应布谷鸟算法,给出两种改进的搜索策略,通过线性递减概率规则将两种策略结合起来,形成自适应搜索策略,避免种群早熟和提高收敛速度,然后引入自适应发现概率,提高种群的多样性.SACS算法混合GS算法得到SACS-GS方法,该方法通过引力搜索算法的局部搜索能力来确定自适应布谷鸟算法的全局范围,并找到使卵生长和成熟的最佳解决方案,有效地识别大数据中的错误数据.实验结果表明,SACS-GS方法具有较高的大数据异常检测精度,且精度高于其他现有方法,处理时间低于其他方法. 展开更多
关键词 大数据清洗 Spark框架 自适应布谷鸟算法 引力搜索算法 异常检测
下载PDF
基于K-means-CNN耦合的采砂大数据智能清洗模型研究
4
作者 张静 陈燕林 《现代信息科技》 2023年第18期99-105,共7页
针对水下采砂大数据中存在信息缺失、冗余、混乱等问题,构建一种K-means聚类与CNN(卷积神经网络)的耦合模型。首先应用最小二乘法得到K-means的聚类阈值,使同类型数据更易于聚类;对数据集进行CNN网络训练,根据各种不同的样本进行网络参... 针对水下采砂大数据中存在信息缺失、冗余、混乱等问题,构建一种K-means聚类与CNN(卷积神经网络)的耦合模型。首先应用最小二乘法得到K-means的聚类阈值,使同类型数据更易于聚类;对数据集进行CNN网络训练,根据各种不同的样本进行网络参数选择,同时实现了CNN智能融合处理;再把从现场收集的大数据输入经过K-means-CNN智能耦合的模式中,将水下采砂大数据分为缺失、冗余、混乱、正常四种类型,并进行标记和数据清洗。试验结果表明,基于K-means-CNN的数据清洗模型,对异常数据的有效清除率超过80%,提高了水下采砂大数据的质量,为后续水下采砂大数据分析打下良好的基础。 展开更多
关键词 水下采砂 大数据清洗 K-MEANS聚类 最小二乘法 卷积神经网络
下载PDF
基于Spark的大数据清洗框架设计与实现 被引量:2
5
作者 张菁楠 《科学技术创新》 2021年第22期109-110,共2页
大数据技术是以数据分析为核心,但是大数据清洗是解决大数据问题的关键,也是大数据处理的基础和前提。鉴于此在文章的研究中基于Spark设计了一套大数据清晰框架,其原理是充分利用Spark分布式计算能力将弹性分布式数据集的操作封装成大... 大数据技术是以数据分析为核心,但是大数据清洗是解决大数据问题的关键,也是大数据处理的基础和前提。鉴于此在文章的研究中基于Spark设计了一套大数据清晰框架,其原理是充分利用Spark分布式计算能力将弹性分布式数据集的操作封装成大数据清晰的任务单元,通过形成较为完整的大数据清晰流水线完成大数据清晰。通过一系列的实验证实基于Spark的大数据清晰框架能够有效的降低大数据清晰的成本,并且有效的促进了大数据清洗性能水平的提升,为大数据处理应用技术的发展提供了有效的保障,奠定了坚实的基础。 展开更多
关键词 SPARK 大数据清洗 框架设计
下载PDF
地理信息大数据在国土空间规划中的运用
6
作者 陈欢 《前卫》 2020年第11期7-9,共3页
国土空间规划需要在了解当前国土空间实际情况和分析未来空间使用趋势后,进行科学规划,让国土资源得到合理开发与利用,在促进国土空间持续健康发展的同时带动其他领域进一步发展,为经济建设打下良好基础.本文首先对进行国土空间规划的... 国土空间规划需要在了解当前国土空间实际情况和分析未来空间使用趋势后,进行科学规划,让国土资源得到合理开发与利用,在促进国土空间持续健康发展的同时带动其他领域进一步发展,为经济建设打下良好基础.本文首先对进行国土空间规划的重要性和必要性进行了分析,而后探讨了地理信息大数据、平台构建和大数据清洗的应用优势,阐述了地理信息大数据的具体运用,并结合当前国土空间规划中存在的问题,提出了地理信息大数据对国土空间规划的启示,希望能够为后续国土空间规划的持续发展提供参考. 展开更多
关键词 地理信息大数据 大数据平台 大数据清洗 国土空间规划
下载PDF
基于大数据平台行为分析的智慧教室 被引量:1
7
作者 冯亚维 何斌 熊裕涛 《工业控制计算机》 2020年第9期117-119,共3页
随着信息技术的快速发展和教育理论的进步,教育行业越来越多地倡导ICT(即信息、通信、技术)与教室的深度融合,以构建全新的教室学习环境来提高学习质量和效率。在大数据平台的基础上运用人工智能、物联网、大数据清洗、人脸识别、行为... 随着信息技术的快速发展和教育理论的进步,教育行业越来越多地倡导ICT(即信息、通信、技术)与教室的深度融合,以构建全新的教室学习环境来提高学习质量和效率。在大数据平台的基础上运用人工智能、物联网、大数据清洗、人脸识别、行为分析等技术,构建全新的智慧教室,并完成对学生、教师画像。更全面、具体的评价学生的成长轨迹。 展开更多
关键词 人工智能 大数据清洗 智慧教室
下载PDF
融合速度约束与似然估计的数据清洗研究
8
作者 方志伟 顾亚文 《信息技术》 2022年第10期130-135,141,共7页
为了获得更简洁、精确和有价值的大数据信息,提出一种融合速度约束和最大似然估计的大数据清洗算法。首先构建多项式插值函数,基于多普勒处理确定数据理论性融合的具体误差数值水平,其次利用Server消息返回机制,并借助多叉树计算流,建... 为了获得更简洁、精确和有价值的大数据信息,提出一种融合速度约束和最大似然估计的大数据清洗算法。首先构建多项式插值函数,基于多普勒处理确定数据理论性融合的具体误差数值水平,其次利用Server消息返回机制,并借助多叉树计算流,建立稳定的大数据清洗框架,最后按需统计大数据信息的缺失量实值,为重复清洗量计算提供数值参考条件。将MapReduce并行算法、大数据清洗算法应用于同一种网络开源平台中,引入缺失数据系统对信息文件进行排列,分析各项实验指标的具体数值,结果验证了提出算法具有良好的数据清洗效果。 展开更多
关键词 速度约束 最大似然估计 大数据清洗 多项式插值 多普勒
下载PDF
基于云计算的电力能源大数据清洗模型构建 被引量:7
9
作者 卢峰 吴朝文 +2 位作者 陈小龙 张柯柯 桂宁 《自动化仪表》 CAS 2022年第1期72-76,共5页
为了提高电力能源大数据的清洗效果,以及电网数据分析的智能程度,对电力能源大数据清洗模型进行构建。其中,运用云计算进行大数据存储。创新性地运用时间序列符号化方法对时间序列进行降维,以欧氏距离算法进行相似度度量,并使用相似度... 为了提高电力能源大数据的清洗效果,以及电网数据分析的智能程度,对电力能源大数据清洗模型进行构建。其中,运用云计算进行大数据存储。创新性地运用时间序列符号化方法对时间序列进行降维,以欧氏距离算法进行相似度度量,并使用相似度曲线对负荷数据进行数据清洗。结果表明:当数据块数量从10块增加到30块时,相应的数据传输数量由28个增加到136个,消耗时间从0.117 h增加到0.165 h。序列相似性排序为:序列1和序列4>序列2和序列5>序列3和序列4。清洗以后,各网供区域的数据都清晰可见,不同系列之间的数据也能清楚辨别和区分,误差也在可接受范围内。由此说明:电力大数据清洗模型效果良好,能够为电力企业内部不同部门、不同需求、不同层次的决策者提供准确数据分析。该研究在电力领域具有很强实用价值。 展开更多
关键词 云计算 电力 能源 大数据清洗模型 时间序列 欧氏距离 相似度曲线 负荷数据
下载PDF
南山区智慧水务系统及大数据清洗模型的构建与应用 被引量:7
10
作者 张佳鸿 陈兴晖 《水利技术监督》 2021年第12期32-35,121,共5页
文章基于物联网、云计算、移动互联网等新一代信息技术,构建深圳南山区智慧水务系统,可实现南山区水务状态的涉水事务感知、综合展示、监测预警、数据决策支持、联动指挥和智能管控;同时,针对智慧水务系统大数据存在脏数据的问题,构建了... 文章基于物联网、云计算、移动互联网等新一代信息技术,构建深圳南山区智慧水务系统,可实现南山区水务状态的涉水事务感知、综合展示、监测预警、数据决策支持、联动指挥和智能管控;同时,针对智慧水务系统大数据存在脏数据的问题,构建了"数据预处理、异常值检测、空缺值填补"三阶段大数据清洗模型,脏数据平均清洗率达到94%。 展开更多
关键词 南山区 智慧水务系统 数据 大数据清洗模型
下载PDF
基于电力大数据清洗模型的异常数据识别方法 被引量:1
11
作者 许文婧 《新一代信息技术》 2019年第17期41-46,共6页
为了解决现有异常数据识别方法异常数据误识率较高、清洗时间较长的问题,提出基于电力大数据清洗模型的异常数据识别方法研究。在分布式文件系统上读取电力大数据,采用并行CURE聚类算法获取正常电力大数据,以此为基础,通过正常电力大数... 为了解决现有异常数据识别方法异常数据误识率较高、清洗时间较长的问题,提出基于电力大数据清洗模型的异常数据识别方法研究。在分布式文件系统上读取电力大数据,采用并行CURE聚类算法获取正常电力大数据,以此为基础,通过正常电力大数据边界特点分析,选择正常电力大数据边界样本,以选择的正常电力大数据边界样本为异常数据识别依据,设置异常数据识别规则,执行异常数据识别算法,利用电力大数据清洗模型清洗上述识别的异常数据,得到精确的电力大数据,实现了异常数据的识别。测试结果显示,与现有两种异常数据识别方法相比较,提出的异常数据识别方法降低了异常数据误识率,减少了异常数据清洗时间,充分说明提出的异常数据识别方法具备更好的识别性能。 展开更多
关键词 电力大数据清洗模型 异常数据 识别 清洗
下载PDF
高职《大数据采集与清洗》课程说课设计
12
作者 蒋林岑 樊晓唯 《进展》 2021年第16期173-174,共2页
《大数据采集与清洗》课程作为计算机类大数据专业的必修课程,培养学生在大数据和人工智能时代对数据预处理的能力,是一门大数据和人工智能专业学习需要掌握的专业课。为了提高教学效率,研究教学方法,本文从教学目标、教学内容、教学实... 《大数据采集与清洗》课程作为计算机类大数据专业的必修课程,培养学生在大数据和人工智能时代对数据预处理的能力,是一门大数据和人工智能专业学习需要掌握的专业课。为了提高教学效率,研究教学方法,本文从教学目标、教学内容、教学实施以及教学反思四个方面进行课程设计。 展开更多
关键词 大数据采集与清洗 教学方法 教学设计 说课
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部