摘要
信息集成是消除信息孤岛,实现信息共享,为企业决策提供支持的核心技术,而数据获取过程是信息集成系统的基础.在数据同步更新研究中,通过根据失配元组的间隔自适应调整窗口大小,在不牺牲效率的前提下有效提高快照差分算法的查全率.进一步,在相似重复记录检测方法的研究中,结合一种新的字符串距离度量算法,并利用二次聚类,提出一种高效的基于条件概率分布的相似重复记录检测方法.最后通过实验对比测试,对快照差分算法以及相似重复记录检测算法的性能和效率进行分析,理论分析和实验结果均证明了提出的改进算法是非常有效的.
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第z3期452-457,共6页
Journal of Computer Research and Development
基金
国家"八六三"高技术研究发展计划基金项目(2004AA112020,2005AA112030)
国家"九七三"重点基础研究发展规划基金项目(2005CB321804)