期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
对基于SNM数据清洗算法的优化 被引量:17
1
作者 张建中 方正 +1 位作者 熊拥军 袁小一 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第6期2240-2245,共6页
对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按... 对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按照DC标准和相关规范进行清洗与排重。研究结果表明:与SNM算法相比,在同样的运算环境下,优化算法在招回率、误识别率和执行时间上有明显优势。 展开更多
关键词 数据挖掘 数据清洗 重复记录 snm算法
下载PDF
基于SNM改进算法的相似重复记录消除 被引量:9
2
作者 余肖生 胡孙枝 《重庆理工大学学报(自然科学)》 CAS 2016年第4期91-96,共6页
高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质... 高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质量。为此,比较了现有的相似重复记录消除算法,改进了SNM算法,并通过实验比较了传统SNM方法与改进SNM算法。实验结果显示:在相似重复记录消除方面,SNM改进算法具有明显的优势。 展开更多
关键词 snm算法 snm改进算法 相似重复记录消除
下载PDF
一种改进的基于RFID中间件的冗余数据清洗算法 被引量:10
3
作者 陈旭辉 王馨 柯铭 《微电子学与计算机》 CSCD 北大核心 2013年第7期154-158,共5页
针对RFID中间件冗余数据处理问题,提出一种改进的基本临近有序法(SNM)算法.通过对大量RFID数据进行分组,采用随机因子改变窗口大小对数据进行清洗,并在算法的实现过程中采用循环处理方式.经实验证明该改进算法能有效提高数据处理效率,... 针对RFID中间件冗余数据处理问题,提出一种改进的基本临近有序法(SNM)算法.通过对大量RFID数据进行分组,采用随机因子改变窗口大小对数据进行清洗,并在算法的实现过程中采用循环处理方式.经实验证明该改进算法能有效提高数据处理效率,并在召回率和数据处理时间上均优于原SNM算法. 展开更多
关键词 RFID中间件 冗余数据 数据清洗 snm算法
下载PDF
基于长度过滤和动态容错的SNM改进算法 被引量:9
4
作者 刘雅思 程力 李晓 《计算机应用研究》 CSCD 北大核心 2017年第1期147-150,155,共5页
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和... 数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时间效率上有明显优势。 展开更多
关键词 数据清洗 相似重复记录 snm算法 动态容错 字段匹配
下载PDF
相似重复数据检测的数据清洗算法优化 被引量:7
5
作者 蒋园 韩旭 +1 位作者 马丹璇 罗登昌 《计算机技术与发展》 2019年第10期79-82,共4页
数据一直是各大企业竞争的对象,而企业在采集、处理以及最终录入数据库的数据中往往存在着相似重复的数据,这些数据也即“脏数据”。脏数据如果不进行处理,势必会影响后续数据的操作,最终影响到数据的质量。数据清洗是处理脏数据、提高... 数据一直是各大企业竞争的对象,而企业在采集、处理以及最终录入数据库的数据中往往存在着相似重复的数据,这些数据也即“脏数据”。脏数据如果不进行处理,势必会影响后续数据的操作,最终影响到数据的质量。数据清洗是处理脏数据、提高数据质量的热门技术手段,而其中相似重复数据检测更是数据清洗中的重要方面,比如堤防工程的数据存在很多地名、经纬度、砖孔数据等等,录入到数据库时相似重复度很高。目前针对重复数据检测应用最多的是SNM(基本邻近有序法)算法,主要是先将原有的数据集进行排序,再比较排序后相邻数据的相识度。但这种算法的时间复杂度很高。文中对SNM算法进行优化,首先将数据库记录的属性值进行分类,并结合三区间排序算法进行排序来减少比对范围,最后通过设定属性的权重并求和,根据记录相似度的结果来判断。实验结果证明了该算法的正确性。 展开更多
关键词 脏数据 相似重复 数据清洗 snm算法
下载PDF
基于划分的海量数据相似重复记录检测 被引量:7
6
作者 李莉 张晓雯 《计算机系统应用》 2019年第3期172-178,共7页
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集... 针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升. 展开更多
关键词 数据质量 数据清洗 相似重复记录 划分 snm算法
下载PDF
基于长度过滤和有效权值的SNM改进算法 被引量:7
7
作者 郭文龙 《计算机工程与应用》 CSCD 2014年第19期123-127,共5页
异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能... 异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能构成相似重复记录的数据排除在外,减少了记录比较的次数,提高了检测效率;进一步通过设置属性有效性因子和权重比例计算有效权值,利用有效权值进行检测,提高了查全率和查准率。实验证明改进算法在各种性能上均优于SNM算法。 展开更多
关键词 相似重复记录 数据清洗 有效权值 snm算法
下载PDF
基于聚类分组和属性综合权值的SNM改进算法 被引量:6
8
作者 杨巧巧 郭振波 王开西 《工业控制计算机》 2017年第9期27-28,31,共3页
在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了一种基于聚类分组和属性综合权值的SNM改进算法。该算法基于分层思想,首先采用聚类分组的方式将海量数... 在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了一种基于聚类分组和属性综合权值的SNM改进算法。该算法基于分层思想,首先采用聚类分组的方式将海量数据进行分组,然后对各属性设置综合权值最后再进行相似重复记录的识别。其中聚类分组法能有效减少记录之间的比对次数,提高检测效率;属性综合权值的方法能更加准确反映各属性对记录的贡献度,针对实际数据集的实验分析表明,聚类分组法和属性综合权值法两者结合在提高查准率、查全率等方面均优于传统的SNM算法。 展开更多
关键词 相似重复记录 聚类分组 属性综合权值 snm算法 属性匹配
下载PDF
改进的数据预处理算法及其应用 被引量:5
9
作者 许必宵 陈升波 +2 位作者 韩重阳 马梦环 宫婧 《计算机技术与发展》 2015年第12期143-146,151,共5页
聚类分析是数据挖掘领域一项重要的课题。针对重复数据与孤立数据的预处理可以优化聚类结果。重复数据处理方面,文中在传统的重复数据查找算法SNM的基础上加入了伸缩窗口与变化移动速度的思想,提高了查找的准确率与效率;孤立数据方面,... 聚类分析是数据挖掘领域一项重要的课题。针对重复数据与孤立数据的预处理可以优化聚类结果。重复数据处理方面,文中在传统的重复数据查找算法SNM的基础上加入了伸缩窗口与变化移动速度的思想,提高了查找的准确率与效率;孤立数据方面,文中提出基于层次聚类分簇搜寻算法,算法利用层次聚类将数据分成独立的簇再依次搜寻孤立点提高了查询速率,并加入恢复检验的部分恢复被误删的非孤立点提高查找的准确率。实验仿真中,首先抽取部分数据验证了改进后的数据预处理算法的准确性,然后将数据预处理算法用于处理移动用户消费数据后再对数据进行聚类分析,从而达到对客户的归属地信息识别的目的。实验结果表明,文中提出的预处理算法具有很高的准确率与效率。 展开更多
关键词 数据预处理 snm算法 层次聚类 聚类分析
下载PDF
改进的SNM中文语义重复记录检测算法 被引量:5
10
作者 袁满 穆永豪 +1 位作者 王贵友 于再富 《吉林大学学报(信息科学版)》 CAS 2021年第3期348-356,共9页
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Ji... 为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。 展开更多
关键词 相似重复记录 snm算法 中文分词
下载PDF
一种针对关系数据库记录的相似重复记录检测算法 被引量:5
11
作者 马可 郑广海 《电脑知识与技术》 2018年第5期25-28,共4页
在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量。邻近排序算法(SNM算法)是对数据库所有记录进行排序比对,新记录和旧记录都需要比对,而旧记录的相互比是已经做过的,这就造成了一定的计算浪费... 在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量。邻近排序算法(SNM算法)是对数据库所有记录进行排序比对,新记录和旧记录都需要比对,而旧记录的相互比是已经做过的,这就造成了一定的计算浪费。在考虑尽量减少这种计算浪费的基础上,提出了一种针对关系数据库记录的相似重复记录检测算法,算法首先创建记录属性关系表,设定属性的相应权重和相似度阈值,通过属性关系表计算记录和其他记录的相似度,从而完成对相似重复记录的检测。实验表明新的算法的效率比SNM算法有一定提高。 展开更多
关键词 相似重复记录 snm算法 检测
下载PDF
基于R-树索引的高维相似重复记录检测改进算法 被引量:3
12
作者 宋国兴 周喜 +1 位作者 马博 赵凡 《微电子学与计算机》 CSCD 北大核心 2017年第9期97-102,共6页
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效... 经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效率,同时改进度量记录相似性的距离算法,避免高维数据稀疏性的影响.最后,通过真实数据在不同维度上分别与SNM算法进行对比,验证了算法的有效性. 展开更多
关键词 snm算法 R-树索引 高维空间特性 改进距离算法 数据稀疏性
下载PDF
基于增量自适应的邻近排序算法优化 被引量:2
13
作者 杨晓东 李军 +1 位作者 王继荣 王芳 《青岛大学学报(自然科学版)》 CAS 2017年第2期53-57,共5页
数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行比对,效率不高。针对SNM算法的这一缺陷,提出了窗口大小动态变化的增量自适应的SNM算法,窗口的大小由当前... 数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行比对,效率不高。针对SNM算法的这一缺陷,提出了窗口大小动态变化的增量自适应的SNM算法,窗口的大小由当前出口的大小、窗口内第一条和最后一条记录的距离以及记录最短记录阈值确定,这样可以去掉很多无用的比较操作,提升数据清洗效率。 展开更多
关键词 相似重复记录 数据清洗 增量自 适应 snm算法
下载PDF
基于SNM算法的大数据量中文商品清洗方法 被引量:1
14
作者 张苗苗 苏勇 《计算机与数字工程》 2019年第3期625-627,661,共4页
SNM算法即邻近排序算法,是英文数据清洗最常用的算法[1]。目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[2~3]。论文介绍数算法,论述该算法... SNM算法即邻近排序算法,是英文数据清洗最常用的算法[1]。目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[2~3]。论文介绍数算法,论述该算法的缺陷,针对缺陷进项改进,并提出实际中的应用场景。通过实验结果显示,在相似重复记录消除方面,SNM改进算法具有明显的优势。 展开更多
关键词 snm算法 数据清洗 重复记录
下载PDF
基于字段过滤和伸缩窗口的SNM算法优化
15
作者 周世杰 娄渊胜 《计算机工程与科学》 CSCD 北大核心 2022年第4期699-706,共8页
数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采... 数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采用属性区分法计算属性权值,解决了人为主观赋予权值导致的问题;使用字段过滤算法计算2条记录的相似度,减少了窗口内记录属性的比对次数,加快了算法的检测速度;使用可变窗口代替固定大小的窗口,防止记录漏配并减少无用的记录比对。实验结果表明,改进后的ISNM算法在查全率、查准率和运行时间开销上有明显的优势。 展开更多
关键词 数据质量 数据清洗 相似重复记录 snm算法
下载PDF
面向时序的相似重复数据清洗算法优化 被引量:1
16
作者 沈沛 毛海涛 +1 位作者 胡文林 芮波 《计算机时代》 2022年第9期68-72,77,共6页
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中... 针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中的相似重复记录清洗效果带来了极大的提升,尤其是对于相似重复记录较稀疏的数据集,在理论和实验结果中均表明该算法在提高相似重复数据的检测性能上有显著效果。 展开更多
关键词 时序数据 snm改进算法 相似重复数据 动态滑动窗口 数据清洗
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部