-
题名基于Hadoop平台的数据清洗研究
被引量:3
- 1
-
-
作者
范会丽
彭宁
任薇
-
机构
华北理工大学信息工程学院
-
出处
《电脑知识与技术》
2020年第5期27-28,共2页
-
文摘
各行各业数据的指数级增长,导致数据仓库建设管理,数据库中知识发现和总体数据质量管理中涉及的重复数据、数据值缺失、错误记录、没有意义的异常值等数据问题越来越棘手。这三个领域也是数据清洗的主要领域。基于当前现状,结合当前各大企业数据处理的平台,利用Hadoop平台中的相关组件对企业中的完全重复的数据和相似重复的数据进行清洗研究。
-
关键词
HADOOP平台
数据清洗
完全重复数据
相似重复数据
-
Keywords
Hadoop platform
data cleaning
completely duplicate data
similar duplicate data
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名空间数据重复记录的清理方法研究
被引量:3
- 2
-
-
作者
徐杨
冯克忠
马亚明
-
机构
解放军信息工程大学测绘学院
测绘信息中心
[
-
出处
《测绘科学》
CSCD
北大核心
2008年第6期125-126,115,共3页
-
文摘
在空间数据的更新过程中,需要利用多种数据源对现有数据进行更新,这样可能会导致在获得的空间数据中出现重复记录。利用计算机自动对这些重复记录进行检查处理,将会极大地降低数据生产者的工作量。本文根据在数字制图系统研制过程中所遇到的此类问题,提出了对重复空间数据进行检查与处理的方法,并在所研制的数字制图系统中得到了应用。
-
关键词
空间数据清理
完全重复空间数据
相似重复空间数据
-
Keywords
spatial data cleaning
complete duplicate spatial data
similar duplicate spatial data
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-