-
题名基于伸缩窗口和等级调整的SNM改进方法
被引量:14
- 1
-
-
作者
陈爽
刁兴春
宋金玉
曹建军
丁晨路
-
机构
解放军理工大学指挥信息系统学院
总参第六十三研究所
吉林陆军预备役步兵第
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第9期2736-2739,共4页
-
基金
中国博士后科学基金特别资助项目(201003797)
江苏省博士后科研资助计划项目(0901014B)
解放军理工大学预研基金项目(20110604)
-
文摘
对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较。采用动态调整等级法,根据记录相似度调整字段等级,并通过等级法将字段等级转换为权重,解决了人为赋予固定权重主观性强、不准确的问题。通过对实际系统中的数据进行测试,验证了方法的有效性和优越性。同时,这两种方法适用于大多数基于排序—合并的相似重复记录检测方法,提高了相应方法的效率和准确度。
-
关键词
数据清洗
相似重复记录
变步长伸缩窗口
动态调整等级
基本邻近排序算法
-
Keywords
data cleaning
approximately duplicate records
changing step flexible window
dynamic adjusting ranking
SNM algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-