期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种XML相似重复数据的清理方法研究 被引量:7
1
作者 陈伟 丁秋林 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2004年第9期835-838,共4页
针对半结构化数据XML在数据清理中的重要性 ,研究了如何清理XML相似重复数据 ,主要工作有 :提出一种有效的XML相似重复数据清理方法 ,该方法具有较强的适应性 ,任何XML相似检测算法都适用于此 ;给出一种基于树编辑距离的相似检测算法 ,... 针对半结构化数据XML在数据清理中的重要性 ,研究了如何清理XML相似重复数据 ,主要工作有 :提出一种有效的XML相似重复数据清理方法 ,该方法具有较强的适应性 ,任何XML相似检测算法都适用于此 ;给出一种基于树编辑距离的相似检测算法 ,该算法能有效地检测XML相似重复数据 ;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法 ,避免了不必要的树编辑距离计算 ,降低了相似检测计算的复杂度 ,提高了运算效率 . 展开更多
关键词 规则库 算法库 清理 可扩展标记语言 相似复数
下载PDF
数据清洗研究综述 被引量:9
2
作者 廖书妍 《电脑知识与技术》 2020年第20期44-47,共4页
数据清洗是数据分析、数据挖掘等研究的起点。本文对数据清洗的研究进行了综述。首先阐述了数据清洗与数据质量的关系,然后说明了数据清洗的概况,并分析了数据清洗的步骤及方法,最后简要介绍了国内外关于数据清洗的研究近况,同时对中文... 数据清洗是数据分析、数据挖掘等研究的起点。本文对数据清洗的研究进行了综述。首先阐述了数据清洗与数据质量的关系,然后说明了数据清洗的概况,并分析了数据清洗的步骤及方法,最后简要介绍了国内外关于数据清洗的研究近况,同时对中文数据清洗研究做了展望。 展开更多
关键词 脏数 清洗 质量 相似复数 清洗步骤
下载PDF
基于Hadoop平台的数据清洗研究 被引量:3
3
作者 范会丽 彭宁 任薇 《电脑知识与技术》 2020年第5期27-28,共2页
各行各业数据的指数级增长,导致数据仓库建设管理,数据库中知识发现和总体数据质量管理中涉及的重复数据、数据值缺失、错误记录、没有意义的异常值等数据问题越来越棘手。这三个领域也是数据清洗的主要领域。基于当前现状,结合当前各... 各行各业数据的指数级增长,导致数据仓库建设管理,数据库中知识发现和总体数据质量管理中涉及的重复数据、数据值缺失、错误记录、没有意义的异常值等数据问题越来越棘手。这三个领域也是数据清洗的主要领域。基于当前现状,结合当前各大企业数据处理的平台,利用Hadoop平台中的相关组件对企业中的完全重复的数据和相似重复的数据进行清洗研究。 展开更多
关键词 HADOOP平台 清洗 完全复数 相似复数
下载PDF
面向时序的相似重复数据清洗算法优化 被引量:1
4
作者 沈沛 毛海涛 +1 位作者 胡文林 芮波 《计算机时代》 2022年第9期68-72,77,共6页
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中... 针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中的相似重复记录清洗效果带来了极大的提升,尤其是对于相似重复记录较稀疏的数据集,在理论和实验结果中均表明该算法在提高相似重复数据的检测性能上有显著效果。 展开更多
关键词 时序数 SNM改进算法 相似复数 动态滑动窗口 清洗
下载PDF
基于语义相似的中文数据清洗方法
5
作者 李碧秋 王佳斌 刘雪丽 《现代计算机》 2021年第19期58-61,共4页
目前关于数据清洗的研究大多针对英文数据,相关算法较为成熟,而对中文文本数据的清洗研究较少,且中英文差距较大,面向英文的清洗方法不完全适应于中文。基于此提出一种面向中文的相似重复数据清洗方法,充分考虑中文存在的一词多义与多... 目前关于数据清洗的研究大多针对英文数据,相关算法较为成熟,而对中文文本数据的清洗研究较少,且中英文差距较大,面向英文的清洗方法不完全适应于中文。基于此提出一种面向中文的相似重复数据清洗方法,充分考虑中文存在的一词多义与多词一义现象,在中文文本向量化过程中引入位置向量,降低文本数据转为数学表达后语义信息的丢失程度。 展开更多
关键词 中文文本 清洗 相似复数 文本向量化 聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部