基于长度过滤和动态容错的SNM改进算法被引量：9

Improved SNM algorithm based on length filtering and dynamic fault-tolerance

下载PDF

导出

摘要数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时间效率上有明显优势。 In data warehouse systems, cleaning similar and duplicated records could effectively impact data quality. Traditional SNM（ sorted-neighborhood method） has performance issues with time efficiency and accuracy rate. In order to improve its performance, this paper proposed an enhance SNM algorithm based on length filtering and dynamic fault-tolerance （ LFSNM）. Firstly, it improved the detection efficiency by excluding the records which were impossible to be duplicated according to the length proportion and attribute absence of two records. Then, it calibrated field similarity results using dynamic fault-tolerance method. It ensured accuracy even though some attributes were absent. Experimental results indicate that the LF-SNM performs obviously better than traditional SNM method on actual datasets under the same experimental conditions.

作者刘雅思程力李晓

机构地区中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室中国科学院大学计算机与控制学院

出处《计算机应用研究》 CSCD 北大核心 2017年第1期147-150,155,共5页 Application Research of Computers

基金新疆维吾尔自治区青年科技创新人才培养工程基金资助项目(2014721033) 乌鲁木齐高新区发展扶持基金资助项目(2013038)

关键词数据清洗相似重复记录 SNM算法动态容错字段匹配 data cleaning similar and duplicated records SNM algorithm dynamic fault-tolerance string match

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1王梅,周娇玲,乐嘉锦.一种列存储数据仓库中的数据复用策略[J].计算机学报,2013,36(8):1626-1635. 被引量：8
2张岩,杨龙,王宏志.劣质数据库上阈值相似连接结果大小估计[J].计算机学报,2012,35(10):2159-2168. 被引量：6
3刘辉平,金澈清,周傲英.一种基于模式的实体解析算法[J].计算机学报,2015,38(9):1796-1808. 被引量：6
4叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
5庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报（自然科学版）,2010,38(2):8-11. 被引量：15
6王宏志,樊文飞.复杂数据上的实体识别技术研究[J].计算机学报,2011,34(10):1843-1852. 被引量：19
7于瀛..不确定性数据库中的相似重复记录检测方法[D].云南大学,2014:
8周典瑞,周莲英.海量数据的相似重复记录检测算法[J].计算机应用,2013,33(8):2208-2211. 被引量：11
9苏伟兵..个性化Web商务信息融合关键技术研究[D].浙江大学,2010:
10蔡钟杰..数据清理关键技术在医疗保险管理系统的应用研究[D].兰州交通大学,2014:

二级参考文献272

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
3车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
4陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
5洪圆,孙未未,施伯乐.一种使用双阈值的数据仓库环境下重复记录消除算法[J].计算机工程与应用,2005,41(1):168-170. 被引量：9
6曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2
7韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
8陈伟,丁秋林.可扩展数据清理软件平台的研究[J].电子科技大学学报,2006,35(1):100-103. 被引量：10
9朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
10陆凤霞,王静秋,王宁生.一种开放式数据清理框架[J].南京航空航天大学学报,2006,38(4):459-463. 被引量：3

共引文献137

1朱朦朦,武恺莉,洪宇,陈鑫,张民.面向问句复述识别的语义正交化匹配方法研究[J].中文信息学报,2021,35(11):34-42. 被引量：2
2肖芳.异构系统中实体识别研究[J].自动化与信息工程,2009,30(3):35-37.
3叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
4杨家娥,聂道华,周枫,游进国,李勃.一种面向社保领域的数据清洗整合系统架构[J].科学技术与工程,2010,10(29):7290-7294. 被引量：2
5张建中,方正,熊拥军,袁小一.对基于SNM数据清洗算法的优化[J].中南大学学报（自然科学版）,2010,41(6):2240-2245. 被引量：17
6王静婷.基于汉字聚类特征的中文字符串相似度计算研究[J].现代图书情报技术,2011(2):48-53. 被引量：6
7邹亚会.检测大型数据库中汉语相似重复记录的方法[J].内蒙古科技与经济,2011(14):77-78. 被引量：1
8邹亚会.一种有效检测汉语相似重复记录的方法[J].科技情报开发与经济,2011,21(21):133-135.
9叶焕倬,吴迪.基于改进编辑距离的相似重复记录清理算法[J].现代图书情报技术,2011(7):82-90. 被引量：7
10石彦华,李蜀瑜.聚类反馈学习的数据清洗研究[J].计算机工程与应用,2011,47(30):127-131. 被引量：6

同被引文献69

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2王曰芬,章成志,张蓓蓓,吴婷婷.数据清洗研究综述[J].现代图书情报技术,2007(12):50-56. 被引量：76
3李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
4寇月,申德荣,李冬,聂铁铮.一种基于语义及统计分析的DeepWeb实体识别机制[J].软件学报,2008,19(2):194-208. 被引量：18
5李坚,郑宁.对基于MPN数据清洗算法的改进[J].计算机应用与软件,2008,25(2):245-247. 被引量：13
6刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7
7时念云,张金明,褚希.基于CURE算法的相似重复记录检测[J].计算机工程,2009,35(5):56-58. 被引量：11
8曹建军,刁兴春,汪挺,王芳潇.领域无关数据清洗研究综述[J].计算机科学,2010,37(5):26-29. 被引量：27
9周丽娟,肖满生.基于数据分组匹配的相似重复记录检测[J].计算机工程,2010,36(12):104-106. 被引量：6
10肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51-53. 被引量：14

引证文献9

1郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1
2马可,郑广海.一种针对关系数据库记录的相似重复记录检测算法[J].电脑知识与技术,2018,14(5):25-28. 被引量：5
3张培根,黄树成.一种用于中文数据清洗的近邻排序算法[J].计算机应用与软件,2018,35(8):286-288. 被引量：8
4陈力,费洪晓,丁海伦,成琳,翟纪宇.基于双决策树的数据采样方法[J].计算机工程与科学,2019,41(1):130-135. 被引量：9
5张苗苗,苏勇.基于SNM算法的大数据量中文商品清洗方法[J].计算机与数字工程,2019,47(3):625-627. 被引量：1
6陈亮,杜璐,胡康.基于分块和滑窗技术的相似重复记录检测算法研究[J].计算机应用与软件,2019,36(4):262-267. 被引量：7
7顾晴,董永权,胡杨.相似重复记录检测研究与发展动态的知识图谱分析[J].计算机应用与软件,2022,39(3):1-7.
8周世杰,娄渊胜.基于字段过滤和伸缩窗口的SNM算法优化[J].计算机工程与科学,2022,44(4):699-706.
9李莉,张晓雯.基于划分的海量数据相似重复记录检测[J].计算机系统应用,2019,28(3):172-178. 被引量：7

二级引证文献32

1刘鲲鹏,杨菁,冉晶晶,吴家瑞,宫立华,王宏岩.基于标签共享的重要事项报备研究及应用[J].计算机应用与软件,2019,36(6):97-100.
2蒋园,韩旭,马丹璇,罗登昌.相似重复数据检测的数据清洗算法优化[J].计算机技术与发展,2019,29(10):79-82. 被引量：7
3王艳喜.试论大数据库的相似记录检测方法[J].中国新通信,2019,21(21):59-60.
4张荃,陈晖.基于最小哈希的重复数据清洗方法[J].通信技术,2019,52(11):2653-2658. 被引量：4
5王兆君,岳良文.产品质量标准数据清洗模型及应用研究[J].标准科学,2020(4):88-95. 被引量：2
6罗琨.ETL技术在提高统一社会信用代码数据质量中的应用研究[J].标准科学,2020(6):103-108. 被引量：1
7徐尧宇,李元,王怡静,陶风波,王同磊,张冠军.信息缺失下变压器状态预警方法[J].高电压技术,2020,46(9):3062-3069. 被引量：4
8陶姿邑.基于深度学习的数据库重复记录检测算法[J].微型电脑应用,2020,36(12):174-176. 被引量：2
9职晓晓.基于深度学习的大规模数据库重复记录删除研究[J].现代电子技术,2021,44(5):114-116. 被引量：2
10袁满,穆永豪,王贵友,于再富.改进的SNM中文语义重复记录检测算法[J].吉林大学学报（信息科学版）,2021,39(3):348-356. 被引量：5

1郭文龙.基于长度过滤和有效权值的SNM改进算法[J].计算机工程与应用,2014,50(19):123-127. 被引量：7
2张建中,方正,熊拥军,袁小一.对基于SNM数据清洗算法的优化[J].中南大学学报（自然科学版）,2010,41(6):2240-2245. 被引量：17
3陈旭辉,王馨,柯铭.一种改进的基于RFID中间件的冗余数据清洗算法[J].微电子学与计算机,2013,30(7):154-158. 被引量：10
4周双娥,袁由光.实时分布系统的动态容错调度算法[J].哈尔滨工程大学学报,2004,25(6):789-793.
5孔令稳,邵颖健,叶凌云.悬臂式涡街流量传感器频率特性优化方法[J].传感器与微系统,2014,33(8):59-61. 被引量：1
6曹渠江,姜洲.动态容错技术选择模型在移动Agent工作流管理系统中的应用[J].上海理工大学学报,2008,30(6):590-594.
7郭文龙.基于SNM算法的大数据量中文地址清洗方法[J].计算机工程与应用,2014,50(5):108-111. 被引量：8
8杨士强,慕岩,钟玉琢,喻丹,张春林.指令级并行的多媒体数据实时处理[J].高技术通讯,1998,8(4):6-11.
9迟海宁.开放式网络运算环境[J].微型机与应用,1991,10(8):14-17.
10那罡.安全复杂环境的接入控制[J].中国计算机用户,2007(15):54-54.

计算机应用研究

2017年第1期

浏览历史

内容加载中请稍等...

基于长度过滤和动态容错的SNM改进算法被引量：9

参考文献17

二级参考文献272

共引文献137

同被引文献69

引证文献9

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于长度过滤和动态容错的SNM改进算法 被引量：9

参考文献17

二级参考文献272

共引文献137

同被引文献69

引证文献9

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于长度过滤和动态容错的SNM改进算法被引量：9