一种低开销的并行重复数据删除算法被引量：1

A Parallel Deduplication Method with Low Overhead

下载PDF

导出

摘要重复数据删除是数据备份系统中的一种重要数据压缩技术。随着备份数据量的逐渐增多，对备份数据中重复数据块进行识别和删除可大大减少数据备份系统中的存储空间和数据传输带宽，提高数据备份系统的效率。当前，随着多核和并行处理技术的发展，重删技术并行实现已经成为研究热点。随着并行规模的扩大，在并行重删技术中，多线程在并行数据块索引查询中的一致性开销成为影响并行查重性能的主要因素。为减少查询线程间的一致性开销，结合目前主流的并行重删技术，提出一种基于数据后缀的并行重删算法。通过对实际数据集的测试，相对于传统并行重删算法，该方法能有效提高系统性能1．5～2倍。 Data Deduplication is an important compression technology in backup systems. When the data increasing stored in the backup system,it becomes more and more important for saving storage resources and bandwidth. With the develop- ment of multi-core and parallel processing technologies, this paper proposes a parallel deduplication method with low over- head comparing to current methods. In the experiments with real data sets, our method can improving the throughput in 1.5～2 times.

作者江程朱锐张芳明华强钟涵

机构地区武汉工程大学计算机科学与工程学院

出处《软件导刊》 2015年第8期96-99,共4页 Software Guide

基金武汉工程大学博士启动金项目(K201402) 武汉工程大学校长基金项目(2014060)

关键词重复数据删除多线程并行 Data Deduplication Multi Threads Parallel

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1RIVEST R. The MD5 message-digest algorithm[M]. IETF, 1992. 被引量：1
2ALFRED J, MENEZES, PAUL C. VAN OORSCHOT, et al. Van- stone[M]. Handbook of Applied Cryptography. CRC Press, 1996. 被引量：1
3ALKISWANY SAMER, GHARAIBEH ABDULLAH, SANTOS-- NETO ELIZU,et al. "StoreGPU: exploiting graphics processing u- nits to accelerate distributed storage systems"[ C]. In Proceedings of the 17th international symposium on High Performance Distrib- uted Computing, 165-174,2008. 被引量：1
4W XIA H,JIANG, FENG D, et al. Accelerating data deduplication by exploiting pipelining and parallelism with multicore or manycore processors [C]. Proceedings of the 10th USENIX Conference on File and Storage Technologies (FAST'12). San Jose: USENIX As- sociation, 2012 : 1-2. 被引量：1
5TRIPLETT J, MCKENNEY E P, WALPOLE RESIZABLE J, et al. Concurrent hash tables via relativistic programming[C]. Pro- ceedings of the 2011 conference on USENIX Annual Technical con- ference (USENIX ATC' 11), Portland.. USENIX Association, 2011,157-172. 被引量：1
6MUTHITACHAROEN A,CHEN B,MAZIERES D. A low band- width network file system[C]. In Proceedings of the 18th ACM Symposium on Operating Systems Principles ( SOSP ' 01 ), Oct. 2001. 174 - 187. 被引量：1
7DEBNATH B, SENGUPTA S, LI J. ChunkStash: speeding up in- line storage deduplieation using flash memory[C]. Proceedings of the 2010 conference on USENIX Annual Technical conference (USENIX ATC'10) ,Boston: USENIX Association,2010.. 16-16. 被引量：1
8W XIA,JIANG H, FENG D, et al. SiLo: a similarity-locality based near-exact deduplication scheme with ),ow RAM overhead and high throughput[C]. In Proceedings of the 2011 conference on USENIX Annual Teehtxieal conference (USENIX ATC' 11). Portland: USE- NIX Association,2011:26-38. 被引量：1

同被引文献12

1刘厚贵,邢晶,霍志刚,安学军.一种支持海量数据备份的可扩展分布式重复数据删除系统[J].计算机研究与发展,2013,50(S2):64-70. 被引量：5
2夏定元,刘书宇,周曼丽1.基于小波和相对矩的形状特征提取与检索方法[J].计算机工程,2004,30(20):146-147. 被引量：2
3费园园,孙劲光,陶志勇.基于小波分解和灰度共生矩阵的纹理图像检索[J].现代计算机,2007,13(10):58-59. 被引量：3
4CLEMENTS A T, AHMAD I, VILAYANNUR M, et al. Decentral- ized deduplication in SAN cluster file systems [ C]// Proceedings of the 2009 USENIX Annual Technical Conference. Berkeley, CA: USENIX Association, 2009:101 - 114. 被引量：1
5ESHGHI K, LILLIBRIDGE M, WILCOCK L, et al. Jumbo Store: providing efficient incremental upload and versioning for a utility rendering service [ C] // Proceedings of the 5th USENIX Conference on File and Storage Technologies. Berkeley, CA: USENIX Associa- tion, 2007:123 - 138. 被引量：1
6HAN B, KELEHER P. Implementation and pertormance evaluation of tuzzy file block matching [ C]//Proceedings of the 2007 USENIX Annual Technical Conference. Berkeley, CA: USENIX Association, 2007 : 199 - 204. 被引量：1
7敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
8常哲,侯榆青,李明俐,程涛,刘黎宁.综合颜色和纹理特征的图像检索[J].小型微型计算机系统,2011,32(1):161-164. 被引量：14
9梁雪,任剑锋,景丽.基于QPSO-LSSVM的数据库相似重复记录检测算法[J].计算机科学,2012,39(11):157-159. 被引量：6
10陈芬.改进量子粒子群算法优化神经网络的数据库重复记录检测[J].计算机应用与软件,2014,31(3):20-21. 被引量：10

引证文献1

1韩逢庆,宋志坚,余锐.海量图片快速去重技术[J].计算机应用,2016,36(7):1797-1800. 被引量：3

二级引证文献3

1陆浩,卢军,修榕康.密码字典数据去重算法研究[J].软件导刊,2017,16(2):57-59. 被引量：2
2江小平,胡雪晴,孙婧,李成华.基于分块DCT的图像去重算法[J].中南民族大学学报（自然科学版）,2018,37(3):72-75. 被引量：6
3王晓东,杨腾飞,徐誉宁,明梦如,王含,李连欣,许建楼,张冀,张平,王海军.基于社交媒体图片的地震灾情检测语义分割数据集[J].中国科学数据（中英文网络版）,2024,9(3):395-404.

1孙传铮.中日英文混合字处理插入,删除算法[J].中文信息,1990(1):12-15.
2董唯元,张彤,赵志娟,李玮.备份系统的选与建[J].微电脑世界,2002(21):82-90. 被引量：2
3任良豪.数据备份系统解决方案[J].开放系统世界,2003(5):40-41.
4阳小华,周龙骧.World Wide Web的索引与查询技术[J].计算机科学,1997,24(6):29-34. 被引量：21
5刘永清.应用GA时值得考虑的几个问题[J].湘潭师范学院学报（社会科学版）,2000,21(3):51-54.
6江克勤,吴海峰,程玉胜.《数据结构》中B-树的删除算法的实现[J].电脑知识与技术,2014(6):3778-3781.
7王德清.数据备份系统在企业计算机网络中的应用[J].计算机安全,2002(19):34-36.
8中芯国际数据备份系统[J].现代制造,2003(9):86-86.
9章锦文,马远良.神经网络算法的并行实现[J].计算机工程与设计,1995,16(4):16-21. 被引量：1
10数据存储何去何从[J].网络运维与管理,2013(3):27-28.

软件导刊

2015年第8期

浏览历史

内容加载中请稍等...

一种低开销的并行重复数据删除算法被引量：1

参考文献8

同被引文献12

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种低开销的并行重复数据删除算法 被引量：1

参考文献8

同被引文献12

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种低开销的并行重复数据删除算法被引量：1