摘要
重复数据删除是数据备份系统中的一种重要数据压缩技术。随着备份数据量的逐渐增多,对备份数据中重复数据块进行识别和删除可大大减少数据备份系统中的存储空间和数据传输带宽,提高数据备份系统的效率。当前,随着多核和并行处理技术的发展,重删技术并行实现已经成为研究热点。随着并行规模的扩大,在并行重删技术中,多线程在并行数据块索引查询中的一致性开销成为影响并行查重性能的主要因素。为减少查询线程间的一致性开销,结合目前主流的并行重删技术,提出一种基于数据后缀的并行重删算法。通过对实际数据集的测试,相对于传统并行重删算法,该方法能有效提高系统性能1.5~2倍。
Data Deduplication is an important compression technology in backup systems. When the data increasing stored in the backup system,it becomes more and more important for saving storage resources and bandwidth. With the develop- ment of multi-core and parallel processing technologies, this paper proposes a parallel deduplication method with low over- head comparing to current methods. In the experiments with real data sets, our method can improving the throughput in 1.5~2 times.
出处
《软件导刊》
2015年第8期96-99,共4页
Software Guide
基金
武汉工程大学博士启动金项目(K201402)
武汉工程大学校长基金项目(2014060)
关键词
重复数据删除
多线程
并行
Data Deduplication
Multi Threads
Parallel