期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于优先队列的增量式重复记录识别 被引量:7
1
作者 佘春红 《计算机应用》 CSCD 北大核心 2003年第9期61-63,共3页
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
关键词 数据清理 近似重复记录 增量式识别 特征记录
下载PDF
面向数据库清洗的数据质量控制设计 被引量:7
2
作者 潘腾辉 林金城 +1 位作者 郑细烨 刘雅婷 《信息技术》 2017年第10期133-136,共4页
信息处理技术的不断变革,使每个行业都拥有了许多计算机信息系统,同时也产生了大量的数据。因此能够使数据有效地进行组织的日常运作和判断,要求数据可靠准确是研究的热点,文中提出了一种ETL与数据清洗结合的分布式数据集成工具,将数据... 信息处理技术的不断变革,使每个行业都拥有了许多计算机信息系统,同时也产生了大量的数据。因此能够使数据有效地进行组织的日常运作和判断,要求数据可靠准确是研究的热点,文中提出了一种ETL与数据清洗结合的分布式数据集成工具,将数据清理的技术引入到ETL中,制定数据清洗规则,并基于统计的方法,聚类方法,关联规则的方法等提出数据清洗的算法,并进行比较,提出清洗数据信息的框架,从而提高数据的质量,进行数据清洗评估,认为方法可行有效,具有实际应用意义。 展开更多
关键词 数据清理 数据质量 数据模型 ETL 重复记录检测
下载PDF
基于QPSO-LSSVM的数据库相似重复记录检测算法 被引量:6
3
作者 梁雪 任剑锋 景丽 《计算机科学》 CSCD 北大核心 2012年第11期157-159,190,共4页
针对大规模数据库的相似重复记录的检测问题,提出了一种量子群优化算法(QPSO)与最小二乘支持向量机(LSSVM)相结合的相似重复记录检测方法(QPSO-LSSVM)。首先计算记录字段的相似度值;然后利用QPSO对LSSVM参数进行优化,构建相似重复记录... 针对大规模数据库的相似重复记录的检测问题,提出了一种量子群优化算法(QPSO)与最小二乘支持向量机(LSSVM)相结合的相似重复记录检测方法(QPSO-LSSVM)。首先计算记录字段的相似度值;然后利用QPSO对LSSVM参数进行优化,构建相似重复记录检测模型;最后通过具体数据集进行仿真测试实验。仿真结果表明,QPSO-LSSVM不仅提高了重复记录检测准确率,而且提高了检测效率,是一种有效的相似重复记录检测算法。 展开更多
关键词 量子粒子群优化算法 最小二乘支持向量机 相似重复记录 检测
下载PDF
一种相似重复元数据记录检测方法 被引量:3
4
作者 王常武 韩菁华 张付志 《计算机工程》 CAS CSCD 北大核心 2009年第21期85-87,共3页
对联邦数字图书馆中重复元数据记录进行检测和管理,是保证元数据质量、提高联邦检索服务质量的关键。针对现有联邦数字图书馆中重复记录检测方法计算集中、准确度不高等缺点,提出一种快速高效的相似重复元数据记录检测方法,该方法基于... 对联邦数字图书馆中重复元数据记录进行检测和管理,是保证元数据质量、提高联邦检索服务质量的关键。针对现有联邦数字图书馆中重复记录检测方法计算集中、准确度不高等缺点,提出一种快速高效的相似重复元数据记录检测方法,该方法基于改进的N-Gram方法,适合较大规模联邦数字图书馆。模拟实验结果表明,该方法能有效提高重复检测的性能,加快重复检测的速度。 展开更多
关键词 元数据 重复记录检测 N-Gram方法 相似度
下载PDF
基于深度学习的数据库重复记录检测算法 被引量:2
5
作者 陶姿邑 《微型电脑应用》 2020年第12期174-176,共3页
为了提高数据库重复记录检测效果,提出了基于深度学习的数据库重复记录检测算法。首先分析当前数据库重复记录检测的进展,找到引起数据库重复记录检测效果差的原因,然后利用深度学习算法中的支持向量机对数据库重复记录检测进行建模,并... 为了提高数据库重复记录检测效果,提出了基于深度学习的数据库重复记录检测算法。首先分析当前数据库重复记录检测的进展,找到引起数据库重复记录检测效果差的原因,然后利用深度学习算法中的支持向量机对数据库重复记录检测进行建模,并引入量子粒子群算法优化支持向量机参数,最后进行了数据库重复记录检测仿真实验,结果表明,文中算法的数据库重复记录检测正确率和效率均很高,数据库重复记录检测结果明显优于当前其它算法。 展开更多
关键词 数据库 重复记录检测 深度学习 量子粒子群算法
下载PDF
大规模船舶数据库重复记录的智能优化算法 被引量:2
6
作者 欧萍 张子砚 《舰船科学技术》 北大核心 2019年第2期184-186,共3页
船舶数据库中的记录具有一定的冗余特性,用于保持数据库的容错性,这样船舶数据库中存在许多重复记录,为数据库查询带来难题。为了减少大规模船舶数据库重复记录,提高数据库记录查询效率,设计了大规模船舶数据库重复记录的智能优化算法... 船舶数据库中的记录具有一定的冗余特性,用于保持数据库的容错性,这样船舶数据库中存在许多重复记录,为数据库查询带来难题。为了减少大规模船舶数据库重复记录,提高数据库记录查询效率,设计了大规模船舶数据库重复记录的智能优化算法。针对大规模船舶数据库重复记录特点,首先对大规模船舶数据库重复记录进行检测,合理删除一些重复记录,然后设计大规模船舶数据库查询的数学模型,并采用智能优化算法对数学模型的最优解进行搜索,得到大规模船舶数据库查询方案,最后采用VC++程序设计语言实现大规模船舶数据库重复记录检测以及查询算法,并采用具体应用实例验证其性能,结果表明,本文算法可以有效检测到大规模船舶数据库中的重复记录,可以有效降低数据库的冗余特征,而且可以查询用户真正需要的记录,查询精度和查询效率均高于对比算法。 展开更多
关键词 大规模记录 船舶数据库 重复记录检测 数据查询
下载PDF
基于粒子群优化BP神经网络的重复记录检测方法 被引量:1
7
作者 马翔 《湖南涉外经济学院学报》 2010年第4期68-70,共3页
针对目前重复记录检测方法对大规模检测效率低等问题,提出一种粒子群优化BP神经网络的重复记录检测方法。充分利用了神经网络的非线性映射和粒子群算法的全局优化特性,将基于学习的思想和进化的思想应用到重复记录检测中,避开了传统方... 针对目前重复记录检测方法对大规模检测效率低等问题,提出一种粒子群优化BP神经网络的重复记录检测方法。充分利用了神经网络的非线性映射和粒子群算法的全局优化特性,将基于学习的思想和进化的思想应用到重复记录检测中,避开了传统方法计算属性权重的问题。理论分析和实验表明,该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。 展开更多
关键词 重复记录检测 BP神经网络 粒子群算法 智能检测
原文传递
Random Forests Algorithm Based Duplicate Detection in On-Site Programming Big Data Environment 被引量:1
8
作者 Qianqian Li Meng Li +1 位作者 Lei Guo Zhen Zhang 《Journal of Information Hiding and Privacy Protection》 2020年第4期199-205,共7页
On-site programming big data refers to the massive data generated in the process of software development with the characteristics of real-time,complexity and high-difficulty for processing.Therefore,data cleaning is e... On-site programming big data refers to the massive data generated in the process of software development with the characteristics of real-time,complexity and high-difficulty for processing.Therefore,data cleaning is essential for on-site programming big data.Duplicate data detection is an important step in data cleaning,which can save storage resources and enhance data consistency.Due to the insufficiency in traditional Sorted Neighborhood Method(SNM)and the difficulty of high-dimensional data detection,an optimized algorithm based on random forests with the dynamic and adaptive window size is proposed.The efficiency of the algorithm can be elevated by improving the method of the key-selection,reducing dimension of data set and using an adaptive variable size sliding window.Experimental results show that the improved SNM algorithm exhibits better performance and achieve higher accuracy. 展开更多
关键词 On-site programming big data duplicate record detection random forests adaptive sliding window
下载PDF
基于遗传神经网络的相似重复记录检测方法 被引量:13
9
作者 孟祥逢 鲁汉榕 郭玲 《计算机工程与设计》 CSCD 北大核心 2010年第7期1550-1553,共4页
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络... 为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录。在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度。 展开更多
关键词 相似重复记录检测 神经网络 遗传算法 数据清洗 数据集成
下载PDF
基于多目标蚁群优化的单类支持向量机相似重复记录检测 被引量:12
10
作者 吕国俊 曹建军 +3 位作者 郑奇斌 常宸 翁年凤 彭琮 《兵工学报》 EI CAS CSCD 北大核心 2020年第2期324-331,共8页
为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记... 为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记录样本对进行训练;选择合适的属性相似度函数计算记录对之间的相似特征向量,将其作为单类支持向量机分类器的输入进行二分类检测;建立以查准率、查全率、特征数量综合最优为目标的多目标特征选择模型,结合训练样本为单类样本的特点,将启发式因子定义为类内散度最小化约束,设计了求解模型的多目标蚁群算法。通过将单类支持向量机算法和支持向量域描述算法、传统二分类支持向量机算法进行对比,结果验证了单类支持向量机算法的有效性和优越性。 展开更多
关键词 数据清洗 相似重复记录检测 多目标蚁群算法 特征选择 单类支持向量机 支持向量域描述
下载PDF
基于CNN的安防数据相似重复记录检测模型
11
作者 王巍 刘阳 +1 位作者 洪惠君 梁雅静 《计算机应用与软件》 北大核心 2023年第2期17-25,共9页
安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种... 安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种是输入为相似度矩阵的模型。实验表明,输入为词向量矩阵的模型的精确率和召回率均达到了96%以上,输入为相似度矩阵的模型的精确率和召回率高达98%,并且K折交叉验证的结果说明模型具有较强的泛化能力。 展开更多
关键词 安防行业 数据清洗 相似重复记录检测 CNN LeNet-5
下载PDF
相似重复记录检测研究与发展动态的知识图谱分析
12
作者 顾晴 董永权 胡杨 《计算机应用与软件》 北大核心 2022年第3期1-7,95,共8页
在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—... 在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—2019年的国内外相似重复记录检测相关文献为研究样本,结合社会网络和知识图谱对其发文量、核心机构、作者合作群、研究热点和研究趋势进行分析。分析发现,作者合作结构整体上较松散,相似重复记录各类检测方式的集成、应用领域的扩展和通用框架的研究成为热点,缺失数据值的处理、多数据源的识别、大数据量的分块处理成为相似重复记录领域的挑战。 展开更多
关键词 相似重复记录检测 知识合作 研究热点 研究趋势
下载PDF
大型数据库重复记录检测与优化研究 被引量:2
13
作者 唐吉深 覃少华 《现代电子技术》 北大核心 2020年第17期77-81,共5页
研究大型数据库重复记录检测与优化,利用Jaro算法以及TF-IDF算法计算大型数据库不同记录字段相似度量函数,所获取字段相似度量函数作为记录特征向量,经过人工标记后设置为BP神经网络期望输出。构建BP神经网络学习样本,设置变参数量子粒... 研究大型数据库重复记录检测与优化,利用Jaro算法以及TF-IDF算法计算大型数据库不同记录字段相似度量函数,所获取字段相似度量函数作为记录特征向量,经过人工标记后设置为BP神经网络期望输出。构建BP神经网络学习样本,设置变参数量子粒子群初始连接权值与阈值作为粒子,利用BP神经网络依据学习训练样本获取量子粒子群适应度函数值,确定粒子此刻最优位置以及全局最优位置。将全局最优位置粒子设置为BP神经网络初始连接阈值以及权值,重复更新粒子位置,利用所获取训练集学习结果建立大型数据库重复记录检测模型,检测模型输出结果大于检测门限值时,该记录为大型数据库内重复记录,否则为非重复记录。实验结果表明,采用该方法检测包含100 000条记录的大型数据库,检测召回率以及准确率均高于98.5%。 展开更多
关键词 大型数据库 重复记录检测 重复记录优化 学习样本构建 最优位置确定 权值设置
下载PDF
基于二次模糊评判的相似重复记录检测方法 被引量:3
14
作者 黄建琼 《江苏师范大学学报(自然科学版)》 CAS 2016年第1期39-42,共4页
数据库集成时会产生大量的相似、重复记录,字段匹配算法是对其进行检测并清洗的主要方法之一.针对等级法确定属性权值主观性过强的问题,提出改进的基于二次模糊评判的检测方法.根据等级法对属性进行第一次评判,剔除等级低的部分非重要属... 数据库集成时会产生大量的相似、重复记录,字段匹配算法是对其进行检测并清洗的主要方法之一.针对等级法确定属性权值主观性过强的问题,提出改进的基于二次模糊评判的检测方法.根据等级法对属性进行第一次评判,剔除等级低的部分非重要属性;对剩余属性进行二次模糊评判,平均属性等级评判的结果,确定属性权值,然后对数据集进行分组,并在各个数据集中检测相似重复记录.理论分析和实验结果表明,该方法不仅提高了运行效率,而且可以进一步提高查重的查准率和查全率. 展开更多
关键词 相似重复记录 属性 等级 权值 检测 模糊评判
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部