-
题名基于数据位图的滑动分块算法
被引量:2
- 1
-
-
作者
邓雪峰
孙瑞志
张永瀚
聂娟
-
机构
中国农业大学农业部农业信息获取技术重点实验室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第S2期30-38,共9页
-
基金
中央高校基本科研业务费专项资金项目(2013YJ008)
国家科技支撑计划资助项目(2012BAH26B01)
-
文摘
网络中相似的数据文件进行同步与存储的过程中,对数据进行分块是检测数据重复的重要步骤之一,在有效地对数据分块的基础上才能更准确地定位数据间的差异部分.就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成类似位图的排列形式,对数据位图以列向读取数据信息,形成新的数据分块,并计算列向读取数据的分块指纹信息,以列向数据指纹作为补充校正滑动分块算法定位差异数据能力的不足之处,从而获得更精确的数据差异信息.经实验证明,本方法在同源文件的数据重复检测中效果好于相同条件下的滑动分块方法.
-
关键词
滑动分块算法
重复数据检测
数据位图
数据差异
数据同步
-
Keywords
sliding blocking algorithm
duplicate data detection
data bitmap
data difference
data synchronization
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
-
-
题名一种基于滑动分块的重复数据检测算法
被引量:7
- 2
-
-
作者
郑亚光
潘久辉
-
机构
暨南大学信息科学技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第2期38-44,共7页
-
基金
公安部技术研究计划基金资助项目(2014JSYJB048)
武汉大学软件工程国家重点实验室开放基金资助项目(SKLSE2012-09-37)
-
文摘
当被插入或删除的字节接近于匹配失败数据段两侧时,会导致SBBS算法回溯功能局部甚至完全失效。为此,提出一种改进的重复数据检测算法。采用滑动与滚动相结合的窗口移动模式减少窗口计算量,利用Rsync滚动校验和算法与MD5算法优化窗口计算模式,加快匹配速度。通过回溯匹配失败数据段,检测其中的重复数据段,以提升重复数据的检测精度。实验结果表明,与SBBS算法相比,该算法在重复数据段均匀分布与非均匀分布时的查全率分别提高约4.32%和5.28%。
-
关键词
重复数据检测
匹配失败数据段
SBBS算法
窗口计算
校验和算法
回溯
-
Keywords
duplicate data detection
matching failure data segment
sliding blocking algorithm with Backtracking Sub-block(SBBS)
window calculation
checksum algorithm
backtracking
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-