摘要
针对传统系统在清洗数据时出现速度缓慢,数据分布不均时造成数据倾斜等问题。本文试图设计分布式数据清洗系统,首先使用Hadoop集群进行系统搭建,然后对系统进行流程设计、架构设计以及功能设计,最后采用改进后的分区聚合算法对Reduce操作进行优化,避免发生数据倾斜。实验结果表明,分布式数据清洗系统相比传统系统而言,清洗速率更快,系统稳定性更高。
出处
《网络安全技术与应用》
2020年第2期60-62,共3页
Network Security Technology & Application
基金
陕西省科技厅农业科技攻关工程(项目编号2015NY028).