基于改进编辑距离的相似重复记录清理算法被引量：7

Approximately Duplicate Data Cleaning Algorithm Based on Improved Edit Distance

导出

摘要相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。 Similarity calculation is a key issue in the process of approximately duplicate data cleaning, and edit distance algorithm is widely used in this application. Based on the traditional edit distance algorithm, by analyzing the sequence length, synonyms and other factors which affect the similarity of the results, an improved approximately duplicate data cleaning algorithm based on semantic edit distance is proposed. This algorithm used synonyms thesaurus and normalized distance metric, and it can be applied to similar records identification process. Experimental results show that the calculating results by this improved algorithm become more in line with the sentence semantic information and people＇ s cognitive experience. Thereby, the method effectively improves the accuracy and precision of detect approximately duplicate data

作者叶焕倬吴迪

机构地区中南财经政法大学信息与安全工程学院

出处《现代图书情报技术》 CSSCI 北大核心 2011年第7期82-90,共9页 New Technology of Library and Information Service

基金国家自然科学基金资助项目"持续审计中智能数据处理及其应用框架研究"(项目编号:70972138) 湖北省教育厅人文社会科学基金项目"基于SOA和MAS的金融监管信息系统总体框架研究"(项目编号:2009b080)的研究成果之一

关键词相似重复记录编辑距离语义同义词词库 Approximately duplicate data Edit distance Semantic Synonyms thesaurus

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
2蒋溢,丁优,熊安萍,王化晶.一种基于知网的词汇语义相似度改进计算方法[J].重庆邮电大学学报（自然科学版）,2009,21(4):533-537. 被引量：23
3王曰芬,章成志,张蓓蓓,吴婷婷.数据清洗研究综述[J].现代图书情报技术,2007(12):50-56. 被引量：76
4赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
5梅家驹著..同义词词林[M].上海:上海辞书出版社,1983:762.
6李玉鑑.符号序列之间的归一化距离度量[J].北京工业大学学报,2005,31(4):439-442. 被引量：5
7叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
8刘宝艳,林鸿飞,赵晶.基于改进编辑距离和依存文法的汉语句子相似度计算[J].计算机应用与软件,2008,25(7):33-34. 被引量：22
9葛斌,李芳芳,郭丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333. 被引量：66
10程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11

二级参考文献144

1刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
2车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
3刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：36
4陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
5郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
6曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2
7吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
8王咏梅,陈家琪,耿玉良.一种可交互的数据清洗系统[J].计算机工程与设计,2005,26(4):955-957. 被引量：7
9郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
10唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16

共引文献308

1段翔兮,高剑,李熠,龙呈,邹琬,何锐.基于大数据挖掘技术的电网电压越限成因诊断方法研究[J].电子测量技术,2020,43(8):81-85. 被引量：9
2陈林,穆慧,林周辉,杨贤房.基于POI的南昌市汽车服务业空间分布特征研究[J].赣南师范大学学报,2018,39(6):98-102. 被引量：4
3余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
4曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：31
5曹立勇,郑诚.基于知网的语义相似度的改进算法[J].电子技术（上海）,2010(5):1-3. 被引量：2
6叶正,林鸿飞,杨志豪.基于问句相似度的中文FAQ问答系统[J].计算机工程与应用,2007,43(9):161-163. 被引量：14
7张桂平,姚天顺,尹宝生,蔡东风,宋彦.双语知识库中关联实例的多策略提取机制[J].中文信息学报,2007,21(3):34-39. 被引量：1
8廉站俊,吕学强,张玉杰,施水才.基于句子相似度计算的信息抽取[J].现代图书情报技术,2007(6):38-41. 被引量：4
9施水才,程涛,王霞,吕学强.基于网页内容的广告推介研究[J].中文信息学报,2007,21(4):42-47. 被引量：1
10李清泉,杨必胜,郑年波.时空一体化GIS-T数据模型与应用方法[J].武汉大学学报（信息科学版）,2007,32(11):1034-1041. 被引量：20

同被引文献70

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2张立岩,张世民.基于语义相似度的主观题评分算法研究[J].河北科技大学学报,2012,33(3):263-265. 被引量：3
3王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
4李桂成,崔军.数据库操作题自动阅卷的设计与实现[J].计算机工程与设计,2004,25(6):1005-1006. 被引量：8
5陈伟,丁秋林.数据清理中编辑距离的应用及Java编程实现[J].电脑与信息技术,2003,11(6):33-35. 被引量：9
6李晓媛,徐润章.Latex系统辅助下的学习系统的建构[J].应用科技,2005,32(7):48-49. 被引量：4
7汤世平,樊孝忠.基于多示例学习的题库重复性检测研究[J].北京理工大学学报,2005,25(12):1071-1074. 被引量：5
8丁卫平,管致锦,陈建平.基于程序设计主观题智能阅卷算法的应用研究[J].计算机技术与发展,2007,17(11):205-208. 被引量：8
9Pahwa P,Arora R,Thakur G.An efficient algorithm for data cleaning[J].International Journal of Knowledge-Based Organizations(IJKBO),2011(4):56-71. 被引量：1
10Gravano L.Using Q-grams in fl DBMS for approximate string processing[J].IEEE Transactions on Knowledge and Data Engineering,2001,24(4):28-34. 被引量：1

引证文献7

1马绪凯,丁晟春.基于本体的产品设计知识检索研究[J].情报理论与实践,2014,37(6):112-116. 被引量：3
2卢希,董东.基于LaTeX的高等数学命审题系统设计与实现[J].软件导刊,2014,13(8):77-79. 被引量：2
3郭文龙.基于长度过滤和有效权值的SNM改进算法[J].计算机工程与应用,2014,50(19):123-127. 被引量：7
4孔金凤,王煜.基于异或编辑距离算法的航班号相似度研究[J].湘潭大学自然科学学报,2015,37(2):116-120. 被引量：2
5王力洪.基于关键字和序列匹配的自动评分算法的研究[J].福建电脑,2015,31(12):10-12. 被引量：5
6黄洪,陈德锐.基于语义依存的汉语句子相似度改进算法[J].浙江工业大学学报,2017,45(1):6-9. 被引量：11
7杨巧巧,郭振波,王开西.基于聚类分组和属性综合权值的SNM改进算法[J].工业控制计算机,2017,30(9):27-28. 被引量：6

二级引证文献35

1郑潇雨.从相似航班号探讨陆空通话与飞行安全[J].中国民航飞行学院学报,2019,30(1):61-64. 被引量：3
2李伟.基于网络设备配置指令集的自动阅卷系统设计与实现[J].现代计算机,2016,22(19):73-76.
3刘雅思,程力,李晓.基于长度过滤和动态容错的SNM改进算法[J].计算机应用研究,2017,34(1):147-150. 被引量：9
4涂静文.大数据库的相似记录检测方法研究[J].计算机仿真,2017,34(3):410-413. 被引量：3
5张良.C语言程序在线分析辅导系统设计[J].中国教育信息化,2017,23(7):86-88. 被引量：1
6杨晓东,李军,王继荣,王芳.基于增量自适应的邻近排序算法优化[J].青岛大学学报（自然科学版）,2017,30(2):53-57. 被引量：2
7郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1
8唐晓波,翟夏普.基于本体知识集合的知识检索研究[J].图书馆学研究,2018(1):60-66. 被引量：12
9马可,郑广海.一种针对关系数据库记录的相似重复记录检测算法[J].电脑知识与技术,2018,14(5):25-28. 被引量：5
10许文俊,朱盼雨,张学生,石虎.基于正则表达式度量算法的智能评分设计[J].电脑知识与技术（过刊）,2016,22(12X):214-216. 被引量：1

1罗惠峰,郭淑琴.基于Lucene的中文分词器的改进与实现[J].微型机与应用,2015,34(11):76-78. 被引量：1
2宋晖.记者评传:出版界值得关注的角落——从《艾丰评传》的出版谈起[J].全国新书目,2007(16):36-37.
3刘宝艳,林鸿飞,赵晶.基于改进编辑距离和依存文法的汉语句子相似度计算[J].计算机应用与软件,2008,25(7):33-34. 被引量：22
4王远超,安俊秀,程芃森,王鹏.基于最优路径策略方法快速计算字符串编辑距离[J].成都信息工程学院学报,2014,29(6):616-624. 被引量：1
5李学梅.且慢著急静等花开——《小数点位置移动引起小数的大小变化》引发的思考[J].基础教育论坛（乐山）,2016,0(1):58-58. 被引量：1
6秦元巧,孙国强.改进的句子相似度计算在问答系统中的应用[J].微计算机信息,2011,27(8):206-208. 被引量：2
7车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
8邹亚会.一种有效检测汉语相似重复记录的方法[J].科技情报开发与经济,2011,21(21):133-135.
9刘云龙.基于改进编辑距离和LCS的同源性检测技术[J].北京理工大学学报,2017,37(2):168-174. 被引量：1
10田彬.非线性编辑技术在电视制作中的作用[J].科技创新导报,2008,5(34):189-189. 被引量：3

现代图书情报技术

2011年第7期

浏览历史

内容加载中请稍等...

基于改进编辑距离的相似重复记录清理算法被引量：7

参考文献10

二级参考文献144

共引文献308

同被引文献70

引证文献7

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于改进编辑距离的相似重复记录清理算法 被引量：7

参考文献10

二级参考文献144

共引文献308

同被引文献70

引证文献7

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于改进编辑距离的相似重复记录清理算法被引量：7