一种基于VSM的检测相似重复记录的方法被引量：10

Approach for Detecting Approximately Duplicate Records Based on VSM

下载PDF

导出

摘要相似重复记录是数据集成系统中影响数据质量的关键问题之一.为了提高检测精度和效率,综合一些已有的传统方法并加以改进:(1)在字段间进行比较时,根据不同情况逐字符进行比较,使得算法能够适应不同的语言环境,具有较好的通用性.(2)在记录间进行比较时,为不同的字段赋予不同的权重,并采用了基于向量空间模型VSM的向量距离算法,提高了相似重复记录检测的精度.(3)在聚类的过程中采用优先队列策略,减少了记录间比较的次数,提高了检测的效率.理论分析和实验证明文中所提出的相似重复记录检测方法是有效的. Approximately duplicate records in data integration is one of the key problems affect the data quality. This article presents a synthetic approach for detecting approximately duplicate records. It has three distinctive features：（1）To compare the similarity of two fields, an all-purpose string comparison algorithm is proposed, which can tolerate the multi- language environment. （2）To improve the detecting precision, each field of records is appointed a proper weight and adopted the VSM-based algorithm. （3）An algorithm based on priority queue is proposed. It scans all sorted records sequentially, and makes those approximately duplicate records cluster together through comparing the similarity between current record and the records in the priority queue, it can improve the detecting efficiency. The effectiveness of the proposed approach is verified through analysis and experiment.

作者张昌年

机构地区北京科技大学信息工程学院

出处《微电子学与计算机》 CSCD 北大核心 2008年第8期184-187,共4页 Microelectronics & Computer

基金北京市自然科学基金项目(4072018)

关键词空间向量模型聚类相似重复记录权重优先队列 VSM clustering approximately duplicate records weight priority queue

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Rahm E, Hong H D. Data cleaning, problems and current approaches[J]. IEEE Data Engineering Bulletin, 2000, 23 (4):3-13. 被引量：1
2Elmagarmid, Ahmed K Ipeirotis, Panagiotis G Verykios, et al. Duplicate record detection: a survey[J]. IEEE Transactions on Knowledge & Data Engineering, 2007,19( 1 ) : 1 -16. 被引量：1
3郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：266
4Monge A E, Elkan C P. An efficient domain - independent algorithm for detecting approximately duplicate database records[ C]//Proc DM KD' 97. [ S. L. ] : Tucson Arizona. 1997. 被引量：1
5程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
6俞荣华,田增平,周傲英.一种检测多语言文本相似重复记录的综合方法[J].计算机科学,2002,29(1):118-121. 被引量：26
7Monge A E. Matching algorithm within a duplicate detection system[ J ]. IEEE Data Engineering Bulletin, 2000,23 (4): 14 - 20. 被引量：1
8邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72

二级参考文献53

1[1]Bitton D， DeWitt D J. Duplicate record elimination in large data files. ACM Trans Database Systems, 1983, 8(2):255-65 被引量：1
2[2]Hernandez M， Stolfo S. The Merge/Purge problem for large databases. In: Proc ACM SIGMOD International Conference on Management of Data, 1995. 127-138 被引量：1
3[3]Howard B Newcombe, Kennedy J M, Axford S J, James A P. Automatic linkage of vital records. Science, 1959, 130:954-959 被引量：1
4[4]DeWitt D J, Naught J F, Schneider D A. An evaluation of non-equijoin algorithms. In: Proc 17th International Conference on Very Large Databases, Barcelona, Spain, 1991. 443-452 被引量：1
5[5]Hylton J A. Identifying and merging related bibliographic records[MS dissertation]. MIT: MIT Laboratory for Computer Science Technical Report 678， 1996 被引量：1
6[6]Monge A E， Elkan C P. An efficient domain-independent algorithm for detecting approximately duplicate database records. In: Proc DMKD'97, Tucson Arizona, 1997 被引量：1
7[7]Kukich K. Techniques for automatically correcting words in text. ACM Computing Surveys, 1992, 24(4):377-439 被引量：1
8[8]Wagner R A， Fischer M J. The string-to-string correction problem. J ACM, 1974, 21(1):168-173 被引量：1
9[9]Lowrance R， Robert A Wagner. An extension of the string-to-string correction problem. J ACM, 1975， 22(2):177-183 被引量：1
10[10] Sellers P H. On the theory and computation of evolutionary distances. SIAM J Applied Mathematics, 1974, 26(4):787-793 被引量：1

共引文献337

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：5
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
4周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
5宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
6毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
7曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：31
8刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量：11
9李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
10邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究[J].计算机工程与应用,2004,40(30):175-177. 被引量：5

同被引文献118

1刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
2贾自艳,黄友平,罗平,李嘉佑,秦亮曦,史忠植.面向数据质量的ETL过程建模与实现[J].系统仿真学报,2004,16(5):907-911. 被引量：23
3陈跃国,王京春.数据集成综述[J].计算机科学,2004,31(5):48-51. 被引量：139
4孟坚,董逸生,王永利.一种基于规则的交互式数据清洗技术[J].微机发展,2005,15(4):141-144. 被引量：4
5王石,李玉忱,刘乃丽,王素青.在属性级别上处理噪声数据的数据清洗算法[J].计算机工程,2005,31(9):86-87. 被引量：12
6王咏梅,陈家琪,耿玉良.一种可交互的数据清洗系统[J].计算机工程与设计,2005,26(4):955-957. 被引量：7
7鲍洪庆,石冰,王石.一个基于领域知识的数据清洗框架[J].信息技术与信息化,2005(5):100-103. 被引量：5
8韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
9陈保家,李力,张园.尺度—小波能量谱在内燃机故障诊断中的应用[J].内燃机学报,2006,24(3):284-287. 被引量：14
10朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12

引证文献10

1曹建军,刁兴春,汪挺,王芳潇.领域无关数据清洗研究综述[J].计算机科学,2010,37(5):26-29. 被引量：27
2曹建军,刁兴春,杜鹢,王芳潇,张潇毅.基于蚁群特征选择的相似重复记录分类检测[J].兵工学报,2010,31(9):1222-1227. 被引量：8
3马翔.粒子群优化BP神经网络用于重复记录检测[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):959-962. 被引量：4
4吴庆辉,蔡海洋,吕精巧.基于改进型遗传神经网络的相似重复记录检测[J].计算机测量与控制,2011,19(5):1021-1023. 被引量：3
5施佺,王恒山,肖仰华,丁卫平.面向主题的垂直搜索引擎系统的研究与实现[J].微电子学与计算机,2011,28(7):1-4. 被引量：10
6余宇峰,万定生.Benford法则在水文数据质量挖掘中的应用研究[J].微电子学与计算机,2011,28(8):180-183. 被引量：3
7蒋勇青,杨奕虹,杨贺.论数据清洗对信息检索质量的影响及清洗方法[J].中国索引,2012,10(1):16-20. 被引量：3
8梁雪,任剑锋,景丽.基于QPSO-LSSVM的数据库相似重复记录检测算法[J].计算机科学,2012,39(11):157-159. 被引量：6
9王树文,郑阔实,陈竟博.面向教育主题的垂直搜索引擎的设计与实现[J].长春师范学院学报（自然科学版）,2013,32(2):40-44. 被引量：1
10于玺,张义强,赵彦宾,贾鹏飞,易大勇.基于模式匹配的主数据质量控制[J].计算机应用,2013,33(A01):73-75. 被引量：3

二级引证文献63

1冯钦,曹建军,郑奇斌,张磊,翁年凤,李红梅.基于多蚁群同步优化的多真值发现算法[J].计算机应用研究,2020,37(1):44-49. 被引量：3
2曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：31
3曹建军,刁兴春,吴建明,袁震,彭琮.基于位运算的不完整记录分类检测方法[J].系统工程与电子技术,2010,32(11):2489-2492. 被引量：3
4张赛男,赵蔚,梁子娟,唐群.面向个人终身学习的数字化学习服务模式中用户模型的构建研究[J].现代远距离教育,2011(6):68-72. 被引量：7
5周健昌,卜媛媛.条件函数依赖及其在领域无关数据清洗中的应用[J].微型电脑应用,2012,28(9):23-26. 被引量：1
6梁雪,任剑锋,景丽.基于QPSO-LSSVM的数据库相似重复记录检测算法[J].计算机科学,2012,39(11):157-159. 被引量：6
7聂琼.浅谈粒子群算法与BP神经网络[J].轻纺工业与技术,2013,42(1):68-70. 被引量：2
8袁满,张雪.一种基于规则的数据质量评价模型[J].计算机技术与发展,2013,23(3):81-84. 被引量：21
9毛婷,杨敬辉,杨晶东.基于模糊聚类的自然语言语义特征[J].辽宁工程技术大学学报（自然科学版）,2013,32(1):81-84. 被引量：2
10王恒,王少山,高玉琢.面向主题的域内垂直搜索引擎系统的研究与实现[J].宁夏大学学报（自然科学版）,2013,34(1):54-57.

1王培涌,陈好刚,王树峰.一种改进的中文文本特征选择方法[J].现代计算机,2009,15(12):75-77.
2罗锋.电梯导轨直线度自动检测系统的设计[J].科技促进发展,2011,7(S1):288-288. 被引量：2
3吕成戍,王维国.基于SVM-KNN的半监督托攻击检测方法[J].计算机工程与应用,2013,49(22):7-10. 被引量：3
4程曦.基于概率神经网络的入侵检测技术[J].计算机辅助工程,2005,14(4):66-70. 被引量：9
5吴庆辉,蔡海洋,吕精巧.基于改进型遗传神经网络的相似重复记录检测[J].计算机测量与控制,2011,19(5):1021-1023. 被引量：3
6李鑫,李军,丰继林,高方平,李忠.面向相似重复记录检测的特征优选方法[J].传感器与微系统,2011,30(2):37-40. 被引量：1
7曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
8杨家娥.相似重复记录检测的特征优选策略探究[J].无线互联科技,2014,11(5):172-172.
9孟祥逢,鲁汉榕,郭玲.基于遗传神经网络的相似重复记录检测方法[J].计算机工程与设计,2010,31(7):1550-1553. 被引量：13
10赵心,蔡智,洪流,蔡庆生.一种基于关联规则的中文概念集生成算法[J].计算机科学,2004,31(7):175-177. 被引量：5

微电子学与计算机

2008年第8期

浏览历史

内容加载中请稍等...

一种基于VSM的检测相似重复记录的方法被引量：10

参考文献8

二级参考文献53

共引文献337

同被引文献118

引证文献10

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

一种基于VSM的检测相似重复记录的方法 被引量：10

参考文献8

二级参考文献53

共引文献337

同被引文献118

引证文献10

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

一种基于VSM的检测相似重复记录的方法被引量：10