摘要
针对当前大数据中的数据清洗与预处理技术的瓶颈问题,本文首先分析了Hadoop框架下的数据处理效率问题,并对数据清洗中的数据冗余、数据不一致、错误数据和缺失数据4个质量问题进行了深入探讨。其次为提高效率提出了基于任务合并的优化技术,特别是在MapReduce中减少轮数的策略。最后引入了FLI三层体系,该体系包括Foundation、Logic和Interface 3个层次,通过任务合并技术协同实现数据处理的最大化效率。该策略结合FLI体系,确保了大数据处理的高效和高质量。
出处
《信息记录材料》
2024年第3期195-197,共3页
Information Recording Materials